Robots.txt là một tập tin văn bản có chứa vài dòng mã đơn giản. Nó được lưu trên các trang web hoặc máy chủ của blog, nó sẽ hướng dẫn các trình thu thập web thế nào để thu thập thông tin blog của bạn. Điều đó có nghĩa là bạn có thể hạn chế máy tìm kiếm quét vào một số trang trong blog của bạn để nó không hiện thị một vài tìm kiếm mà bạn không muốn người khác thấy, Ví dụ như trang nhãn trong blog, trang demo, trang archive của bạn hoặc bất kỳ trang nào khác mà không phải là quan trọng để không hiện thị trong kết quả tìm kiếm. Luôn luôn nhớ rằng trình thu thập tìm kiếm quét các tập tin robots.txt trước khi quét nội dung bất kỳ trang web nào.
http://www.khanh98.blogspot.com/search/label/SEO
Và nếu chúng ta bỏ Disallow: / search từ đoạn code trên thì máy tìm kiếm sẽ thu thập tất cả thông tin và nội dung trong trang web của mình.
Bây giờ giả sử nếu chúng ta muốn loại trừ một bài cụ thể chúng ta có thể sử dụng code dưới
Disallow: /yyyy/mm/post-url.html
Đây yyyy và mm dùng để chỉ năm và tháng xuất bản và các bài tương ứng. Ví dụ, nếu chúng ta đã xuất bản một bài đăng trong năm 2014 trong tháng mười hai và post url là elegant-popular-posts-cho-blogspot
Như vậy, code sẽ là
Disallow: /2013/03/elegant-popular-posts-cho-blogspot.html
Disallow: /p/page-url.html
Ví dụ nếu mình muốn loại bỏ trang contact thì code sẽ là
Disallow: /p/lien-he.html
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
Mã này đề cập đến các sitemap của blog của các bạn. Bằng cách thêm vào các đường dẫn sitemap ở đây sẽ nâng cao tỉ lệ quét vào của máy tìm kiếm. Có nghĩa là bất cứ khi nào các trình thu thập web quét tập tin robots.txt của bạn thì họ sẽ tìm một con đường dẫn để đến sitemap nơi chứa tất cả các liên kết của bài viết được xuất bản. Máy tìm kiếm sẽ dễ dàng thu thập thông tin của tất cả các bài viết của bạn. Do đó, sẽ có nhiều cơ hội hơn để máy tìm kiếm thu thập hết các bài viết trên blog của bạn. Lưu ý: sitemap này sẽ chỉ cho các trình thu thập web về 25 bài viết gần đây. Nếu bạn muốn tăng số lượng các liên kết trong sitemap của bạn sau đó thay thế sitemap mặc định với một bên dưới. Nó sẽ làm việc cho 500 bài viết gần đây đầu tiên
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Nếu bạn có nhiều hơn 500 bài viết được công bố trên blog của bạn thì bạn có thể sử dụng hai sơ đồ web như dưới đây:
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=500&max -results = 1000
2. Cài đặt > Tùy chọn tìm kiếm > Trình thu thập thông tin và lập chỉ mục >
3. Robots.txt tùy chỉnh > Bật nội dung robots.txt tùy chỉnh? > Có
4. Bây giờ dán mã tập tin robots.txt dưới vào trong hộp, tùy mỗi blog mà code sẽ khác nhau, mình đã hướng dẫn cụ thể ở trên bạn hãy dựa vào đó và xây dựng code cho mình.
Bạn đã làm xong Tuỳ chỉnh Robots.txt!!!
Khi bạn truy cập vào URL tập tin robots.txt bạn sẽ nhìn thấy toàn bộ mã mà bạn đang sử dụng trong tập tin robots.txt tùy chỉnh của bạn. Xem hình ảnh dưới đây.
#Tìm hiểu về Robots.txt
File robots.txt trong blog hay web trông như đoạn code bên dướiUser-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: / search
Allow: /
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
Mã này được chia thành ba phần. Hãy nghiên cứu đầu tiên mỗi trong số họ sau đó chúng ta sẽ tìm hiểu làm thế nào để thêm tập tin robots.txt tùy chỉnh trong blog blogspot.- User-agent: Mediapartners-Google
- User-agent: *
- Disallow: /search
http://www.khanh98.blogspot.com/search/label/SEO
Và nếu chúng ta bỏ Disallow: / search từ đoạn code trên thì máy tìm kiếm sẽ thu thập tất cả thông tin và nội dung trong trang web của mình.
- Allow: /
- Sitemap
#Sử dụng Robots.txt
- Không cho phép quét một vài bài viết đặc biệt
Disallow: /yyyy/mm/post-url.html
Đây yyyy và mm dùng để chỉ năm và tháng xuất bản và các bài tương ứng. Ví dụ, nếu chúng ta đã xuất bản một bài đăng trong năm 2014 trong tháng mười hai và post url là elegant-popular-posts-cho-blogspot
Như vậy, code sẽ là
Disallow: /2013/03/elegant-popular-posts-cho-blogspot.html
- Không cho phép quét một vài trang dặc biệt
Disallow: /p/page-url.html
Ví dụ nếu mình muốn loại bỏ trang contact thì code sẽ là
Disallow: /p/lien-he.html
- Sitemap
Mã này đề cập đến các sitemap của blog của các bạn. Bằng cách thêm vào các đường dẫn sitemap ở đây sẽ nâng cao tỉ lệ quét vào của máy tìm kiếm. Có nghĩa là bất cứ khi nào các trình thu thập web quét tập tin robots.txt của bạn thì họ sẽ tìm một con đường dẫn để đến sitemap nơi chứa tất cả các liên kết của bài viết được xuất bản. Máy tìm kiếm sẽ dễ dàng thu thập thông tin của tất cả các bài viết của bạn. Do đó, sẽ có nhiều cơ hội hơn để máy tìm kiếm thu thập hết các bài viết trên blog của bạn. Lưu ý: sitemap này sẽ chỉ cho các trình thu thập web về 25 bài viết gần đây. Nếu bạn muốn tăng số lượng các liên kết trong sitemap của bạn sau đó thay thế sitemap mặc định với một bên dưới. Nó sẽ làm việc cho 500 bài viết gần đây đầu tiên
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Nếu bạn có nhiều hơn 500 bài viết được công bố trên blog của bạn thì bạn có thể sử dụng hai sơ đồ web như dưới đây:
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=500&max -results = 1000
#Thêm Robots.txt vào trang của bạn
1. Đăng nhập Blogger2. Cài đặt > Tùy chọn tìm kiếm > Trình thu thập thông tin và lập chỉ mục >
3. Robots.txt tùy chỉnh > Bật nội dung robots.txt tùy chỉnh? > Có
4. Bây giờ dán mã tập tin robots.txt dưới vào trong hộp, tùy mỗi blog mà code sẽ khác nhau, mình đã hướng dẫn cụ thể ở trên bạn hãy dựa vào đó và xây dựng code cho mình.
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: / search
Allow: /
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
5. Click vào nút SaveBạn đã làm xong Tuỳ chỉnh Robots.txt!!!
#Kiểm tra Robots.txt trang của bạn
Bạn có thể kiểm tra tập tin này vào blog của bạn bằng cách thêm /robots.txt cuối cùng để URL blog của bạn trong trình duyệt. Hãy xem ví dụ dưới đây để demo.
http://www.khanh98.blogspot.com/robots.txtKhi bạn truy cập vào URL tập tin robots.txt bạn sẽ nhìn thấy toàn bộ mã mà bạn đang sử dụng trong tập tin robots.txt tùy chỉnh của bạn. Xem hình ảnh dưới đây.
Comments
Post a Comment
» Vui lòng không spam vì nó sẽ bị xóa ngay sau đó.
» Nếu chèn code hãy mã hóa trước khi chèn vào nhận xét.
» Nếu thủ thuật Blog không áp dụng được thì hãy để lại URL blog để mình tiện kiểm tra.