Thứ Hai, 4 tháng 1, 2016

Bài 2.3 Tạo và tối ưu file robot.txt

File robots.txt là một dạng file rất đơn giản có thể được tảo bởi công cụ Notepad hoặc Notepad++. Để các bộ máy tìm kiếm quản lý index nội dung của website bạn.

Robots.txt là file văn bản có cấu trúc, khi các spider (bot, crawler) của các SE (Search engine) vào website để thu thập dữ liệu thì sẽ vào file robots.txt để xem các chỉ dẫn trong file này. File robots.txt có thể quy định từng loại bot khác nhau của các SE khác nhau có thể vào website hay từng khu vực của website hay không.

Một vài loại bot của các SE: Googlebot (Google), Googlebot-Image (Google), Yandex (SE của Nga), Bingbot (Bing)/Yahoo Slurp (Yahoo)...

Những cú pháp thông dụng trong file robots.txt

User-agent: đối tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép

Dấu * : Đại diện cho tất cả
Ví dụ: User-agent: * (Có nghĩa là chấp nhận tất cả các loại bot.)

Khóa toàn bộ site
Disallow: /

Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /wp-admin/

Chặn 1 trang
Disallow: /private_file.html

Loại bỏ 1 hình từ  Google Images
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg

Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /

Chặn 1 file hình bất kỳ, ví dụ .gif
User-agent: Googlebot
Disallow: /*.gif$

Những điều cần tránh trong file robots.txt

- Phân biệt chữ hoa chữ thường.

- Không được viết dư, thiếu khoảng trắng.

- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.

- Mỗi một câu lệnh nên viết trên 1 dòng.

Cách tạo và vị trí đặt file robots.txt

- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi tên file là robots.txt.

- Nếu bạn có sử dụng Google Webmaster thì họ cũng cho phép bạn tạo robots.txt hoặc bạn có thể sử dụng Robots.txt Generator để tự động tạo file robots.txt cho mình.

- Đặt ở thư mục gốc của website. (http://thietkewebchuan.vn/robots.txt)

Hướng dẫn tạo file Robot.txt cho Blogspot

  1. Bước 1: Đăng nhập blogspot
  2. Bước 2: Kéo chuột xuống dưới bên tay trái vào "Cài đặt" 
  3. Bước 3: Chọn "Tùy chọn tìm kiếm" trong menu cài đặt
  4. Bước 4: Chọn "Trình thu thập thông tin và lập chỉ mục" bên tay phải của Tùy chọn tìm kiếm [Hình 2]
  5. Bước 5: Chọn "Robots.txt tùy chỉnh" >> "Bật nội dung robots.txt tùy chỉnh"
  6. Bước 6: Copy đoạn code chuẩn này vào khung nhập text và sau đó nhấp "lưu lại"





Hinh 2






Code chuẩn robots.txt cho blogspot

User-agent: Mediapartners-Google
Disallow: 
User-agent: *
Allow: /
Disallow: /search
Disallow: /*?updated-max=*
Disallow: *archive.html 
Sitemap: http://blogcuaban/feeds/posts/default?orderby=UPDATED

Còn tùy vào blog bạn chặn trang hoặc thưc mục các bạn tùy chỉnh nhé.
Gợi ý cho các bạn.
Chặn 1 thư mục và mọi thứ nằm trong nó
Disallow: /search
Chặn 1 trang lưu trữ
Disallow: *archive.html 

Cũng không khó lắm phải không. Quan trọng là biết dùng đúng cách sao cho phù hợp. Chúc các bạn thành công!. Nếu có thắc mắc hãy comment bên dưới Thiết kế web bán hàng sẽ giải đáp ngay khi có thể.

-----------------------------------------------------------

0 nhận xét:

Đăng nhận xét