Thêm robots.txt cho Blogger

Robots.txt là một tập tin văn bản có chứa vài dòng mã đơn giản. Nó được lưu trên các trang web hoặc máy chủ của blog, nó sẽ hướng dẫn các trình thu thập web thế nào để thu thập thông tin blog của bạn. Điều đó có nghĩa là bạn có thể hạn chế máy tìm kiếm quét vào một số trang trong blog của bạn để nó không hiện thị một vài tìm kiếm mà bạn không muốn người khác thấy, Ví dụ như trang nhãn trong blog, trang demo, trang archive của bạn hoặc bất kỳ trang nào khác mà không phải là quan trọng để không hiện thị trong kết quả tìm kiếm. Luôn luôn nhớ rằng trình thu thập tìm kiếm quét các tập tin robots.txt trước khi quét nội dung bất kỳ trang web nào.

#Tìm hiểu về Robots.txt

File robots.txt trong blog hay web trông như đoạn code bên dưới
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: / search
Allow: /
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
Mã này được chia thành ba phần. Hãy nghiên cứu đầu tiên mỗi trong số họ sau đó chúng ta sẽ tìm hiểu làm thế nào để thêm tập tin robots.txt tùy chỉnh trong blog blogspot.
  • User-agent: Mediapartners-Google
Mã này là dành cho robot Adsense Google giúp họ để phục vụ quảng cáo tốt hơn trên blog của bạn.
  • User-agent: *
Điều này là dành cho tất cả các robot đánh dấu bằng dấu hoa thị ( * ). Trong các thiết lập mặc định nhãn liên kết blog của của chúng tôi đang bị hạn chế để lập chỉ mục bởi trình thu thập tìm kiếm điều đó có nghĩa các trình thu thập web của chúng tôi liên kết trang nhãn vì mã dưới đây sẽ không chỉ mục.
  • Disallow: /search
Điều đó có nghĩa là các liên kết có từ khóa /search sau tên miền sẽ bị bỏ qua. Xem bên dưới ví dụ đó là một liên kết của trang nhãn có tên là SEO, trang này sẽ bị bỏ qua trong kết quả tìm kiếm.
http://www.khanh98.blogspot.com/search/label/SEO
Và nếu chúng ta bỏ Disallow: / search  từ đoạn code trên thì máy tìm kiếm sẽ thu thập tất cả thông tin và nội dung trong trang web của mình.
  • Allow: /  
Cho phép máy tìm kiếm quét các liên kết có dấu / , và dĩ nhiên là liên kết nào cũng có dấu / nên máy tìm kiếm sẽ quét các nội dung trừ nội dung bạn không cho phép(Disallow: /search)

  • Sitemap
Cung cấp địa chỉ sitemap cho máy tìm kiếm.

#Sử dụng Robots.txt

  • Không cho phép quét một vài bài viết đặc biệt
Bây giờ giả sử nếu chúng ta muốn loại trừ một bài cụ thể  chúng ta có thể sử dụng code dưới
Disallow: /yyyy/mm/post-url.html
Đây yyyy và mm  dùng để chỉ năm và tháng xuất bản và các bài tương ứng. Ví dụ, nếu chúng ta đã xuất bản một bài đăng trong năm 2014 trong tháng mười hai và post url là elegant-popular-posts-cho-blogspot
Như vậy, code sẽ là
Disallow: /2013/03/elegant-popular-posts-cho-blogspot.html
  • Không cho phép quét một vài trang dặc biệt
Nếu chúng ta muốn không cho phép một trang cụ thể thì chúng ta có thể sử dụng phương pháp tương tự như trên. Đơn giản chỉ cần sao chép URL trang và loại bỏ địa chỉ blog
Disallow: /p/page-url.html
Ví dụ nếu mình muốn loại bỏ trang contact thì code sẽ là
Disallow: /p/lien-he.html
  • Sitemap
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
Mã này đề cập đến các sitemap của blog của các bạn. Bằng cách thêm vào các đường dẫn sitemap ở đây sẽ nâng cao tỉ lệ quét vào của máy tìm kiếm. Có nghĩa là bất cứ khi nào các trình thu thập web quét tập tin robots.txt của bạn thì họ sẽ tìm một con đường dẫn để đến sitemap nơi chứa tất cả các liên kết của bài viết được xuất bản. Máy tìm kiếm sẽ dễ dàng thu thập thông tin của tất cả các bài viết của bạn. Do đó, sẽ có nhiều cơ hội hơn để máy tìm kiếm thu thập hết các bài viết trên blog của bạn. Lưu ý: sitemap này sẽ chỉ cho các trình thu thập web về 25 bài viết gần đây. Nếu bạn muốn tăng số lượng các liên kết trong sitemap của bạn sau đó thay thế sitemap mặc định với một bên dưới. Nó sẽ làm việc cho 500 bài viết gần đây đầu tiên
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Nếu bạn có nhiều hơn 500 bài viết được công bố trên blog của bạn thì bạn có thể sử dụng hai sơ đồ web như dưới đây:
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=1&max-results=500
Sitemap: http://example.blogspot.com/atom.xml?redirect=false&start-index=500&max -results = 1000

#Thêm Robots.txt vào trang của bạn

1. Đăng nhập Blogger
2. Cài đặt > Tùy chọn tìm kiếm > Trình thu thập thông tin và lập chỉ mục >
3. Robots.txt tùy chỉnh > Bật nội dung robots.txt tùy chỉnh? > Có
4. Bây giờ dán mã tập tin robots.txt dưới vào trong hộp, tùy mỗi blog mà code sẽ khác nhau, mình đã hướng dẫn cụ thể ở trên bạn hãy dựa vào đó và xây dựng code cho mình.
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: / search
Allow: /
Sitemap: http://example.blogspot.com/feeds/posts/default?orderby=UPDATED
5. Click vào nút Save
Bạn đã làm xong Tuỳ chỉnh Robots.txt!!!

#Kiểm tra Robots.txt trang của bạn

Bạn có thể kiểm tra tập tin này vào blog của bạn bằng cách thêm /robots.txt  cuối cùng để URL blog của bạn trong trình duyệt. Hãy xem ví dụ dưới đây để demo.
http://www.khanh98.blogspot.com/robots.txt
Khi bạn truy cập vào URL tập tin robots.txt bạn sẽ nhìn thấy toàn bộ mã mà bạn đang sử dụng trong tập tin robots.txt tùy chỉnh của bạn. Xem hình ảnh dưới đây.

Comments