Robots.txt là gì? Hướng dẫn cấu hình file robots cho SEO

Robots.txt chuẩn SEO cho website SCTT

Robots.txt là tệp văn bản đặt ở thư mục gốc của website để hướng dẫn công cụ tìm kiếm khu vực nào được crawl và khu vực nào nên tránh. Nếu bạn đang hỏi robots.txt là gì, câu trả lời ngắn gọn là: đây là một “bộ luật” cho bot, nhưng nó không phải công cụ bảo mật và cũng không thay thế cho noindex hay canonical.

Tóm tắt nhanh
  • Robots.txt là file text ở thư mục gốc, dùng để hướng dẫn bot nên crawl khu vực nào và tránh khu vực nào.
  • Nó kiểm soát crawl, không phải công cụ bảo mật và không thay thế noindex/canonical.
  • Mẫu robots.txt cho WordPress nên gọn: chặn /wp-admin/, cho phép admin-ajax và khai báo sitemap.
  • Sai robots.txt có thể làm Google render sai, crawl chậm hoặc bỏ lỡ khu vực quan trọng.
Robots.txt chuẩn SEO cho website SCTT
Robots.txt chuẩn SEO cho website SCTT

Robots.txt là gì?

Robots.txt là một file text đơn giản, thường có đường dẫn https://domain.com/robots.txt. Khi bot truy cập website, nó thường đọc file này trước để biết có nên crawl một số khu vực hay không. Ví dụ, bạn có thể chặn trang quản trị, trang nội bộ hoặc các khu vực thử nghiệm không cần xuất hiện trong hành trình crawl.

Google Search Console mô tả robots.txt là file chỉ dẫn cho search engine biết URL hoặc thư mục nào không nên crawl. Nói cách khác, robots.txt kiểm soát việc thu thập dữ liệu, chứ không trực tiếp quyết định index.

Robots.txt làm được gì và không làm được gì?

  • Làm được: hạn chế bot crawl một số đường dẫn, tiết kiệm crawl budget, giảm bot đi vào khu vực không cần thiết.
  • Không làm được: ẩn nội dung bí mật khỏi người dùng, xóa một URL khỏi index ngay lập tức, hay thay thế thẻ noindex.

Đây là điểm rất hay bị hiểu nhầm. Nhiều người nghĩ chặn trong robots.txt là đủ để “giấu” nội dung. Thực tế, một URL vẫn có thể được biết đến qua liên kết bên ngoài hoặc tín hiệu khác; nếu nó không bị noindex và Google đã biết nó tồn tại, trang đó vẫn có thể xuất hiện ở một số tình huống.

Các directive quan trọng trong robots.txt

Trong WordPress, mẫu robots.txt an toàn thường rất gọn. Bạn chỉ cần chặn khu vực quản trị, cho phép file AJAX nếu cần và thêm dòng sitemap để bot nhìn thấy bản đồ website. Đây là ví dụ cơ bản:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://sctt.net.vn/sitemap_index.xml

Đừng chặn nhầm toàn bộ site bằng Disallow: / nếu bạn không thực sự hiểu tác động của nó.

Ví dụ thực tế cho site dịch vụ

Với website dịch vụ như SCTT, robots.txt thường nên ưu tiên giữ cho các trang dịch vụ, bài blog, trang liên hệ và trang hồ sơ doanh nghiệp được crawl dễ dàng. Chỉ những khu vực như trang quản trị, đường dẫn hệ thống, tham số nội bộ hoặc môi trường staging mới cần bị hạn chế. Khi triển khai chuẩn, bạn sẽ có một website vừa dễ crawl vừa không lãng phí tài nguyên bot vào những trang vô ích.

Khi nào nên chặn crawl bằng robots.txt?

Bạn nên dùng robots.txt khi muốn ngăn bot đi vào khu vực không tạo giá trị SEO hoặc gây tốn crawl budget. Ví dụ: trang quản trị WordPress, các file hệ thống, môi trường staging, trang kết quả tìm kiếm nội bộ, hoặc các khu vực sinh ra URL trùng lặp do filter, sort, session. Tuy nhiên, hãy cực kỳ cẩn thận với những khu vực chứa tài nguyên CSS/JS cần thiết cho render, vì chặn nhầm tài nguyên có thể khiến Google đánh giá trang không đúng.

Ở chiều ngược lại, đừng chặn các URL mà bạn vẫn muốn Google hiểu nội dung. Nếu trang đó cần được “khóa” khỏi index, hãy cân nhắc noindex hoặc xử lý canonical phù hợp thay vì chỉ dựa vào robots.txt.

Robots.txt, noindex, canonical và sitemap khác nhau thế nào?

Đây là bộ bốn khái niệm thường bị trộn lẫn. Sitemap giúp bot tìm URL. Robots.txt giới hạn crawl. Noindex yêu cầu không index một trang cụ thể. Canonical chỉ định phiên bản chuẩn khi có nhiều URL gần giống nhau. Nếu bạn dùng đúng vai trò của từng công cụ, website sẽ gọn và dễ quản trị hơn rất nhiều.

Nếu bạn cần kiểm tra cách các phần này hoạt động cùng nhau, bài Sitemap XML là gì? Cách tạo và submit sơ đồ trang web chuẩn SEO sẽ giúp bạn ghép bức tranh kỹ thuật hoàn chỉnh hơn.

Các lỗi robots.txt thường gặp

  • Chặn nhầm toàn bộ website bằng Disallow: /.
  • Quên khai báo sitemap trong file robots.
  • Chặn CSS/JS khiến Google render trang sai.
  • Giữ rule cũ sau khi website đổi cấu trúc.
  • Dùng robots.txt để thay thế noindex trong các trang cần loại khỏi index.

Những lỗi này rất phổ biến khi website phát triển nhanh mà không có checklist kỹ thuật. Cách phòng tránh tốt nhất là kiểm tra robots.txt sau mỗi lần đổi cấu trúc, đổi theme, hoặc triển khai plugin SEO mới.

Cách kiểm tra robots.txt có đúng không?

Cách nhanh nhất là mở trực tiếp đường dẫn /robots.txt để xem nội dung file đang phát hành. Sau đó, bạn nên kiểm tra trong Google Search Console xem URL bị chặn crawl có đúng ý định hay không. Nếu website có nhiều trang quan trọng, hãy đối chiếu robots.txt với sitemap và internal link để chắc chắn rằng bot vẫn có đường vào các trang cần index.

Đây cũng là bước nên làm trong mỗi đợt audit SEO kỹ thuật. Một file robots nhỏ nhưng sai có thể khiến cả chiến dịch nội dung bị chậm index, nhất là khi website vừa ra mắt hoặc vừa migration.

DirectiveÝ nghĩaVí dụ
User-agentChỉ định bot áp dụng ruleUser-agent: *
DisallowChặn crawl đường dẫnDisallow: /wp-admin/
AllowCho phép một phần bên trong vùng bị chặnAllow: /wp-admin/admin-ajax.php
SitemapTrỏ bot đến file sitemapSitemap: https://domain.com/sitemap_index.xml

Ví dụ robots.txt cho WordPress và cách test sau khi triển khai

Với WordPress, một file robots.txt gọn thường đủ cho phần lớn website. Mục tiêu không phải là viết thật nhiều dòng, mà là đảm bảo bot vào đúng khu vực cần crawl và tránh đúng khu vực không cần crawl. Mẫu bên dưới là một điểm khởi đầu tốt cho site doanh nghiệp:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://sctt.net.vn/sitemap_index.xml

Sau khi cập nhật, bạn nên mở trực tiếp /robots.txt trên trình duyệt để xem file có được phục vụ đúng hay không. Tiếp theo, vào Google Search Console kiểm tra xem các URL bị chặn có đúng chủ đích hay không. Nếu bạn đang chuyển theme, đổi plugin SEO hoặc migration sang domain mới, đây là bước bắt buộc vì chỉ một dòng sai cũng có thể làm bot đọc lệch toàn bộ site. Với site nhiều nội dung, hãy kiểm tra thêm CSS/JS quan trọng để chắc chắn không chặn nhầm tài nguyên render.

Nếu bạn muốn an toàn hơn nữa, hãy tạo một checklist nhỏ sau mỗi lần đổi robots.txt: 1) mở file trực tiếp, 2) kiểm tra sitemap còn khai báo đúng, 3) test một vài URL quan trọng trong Search Console, 4) đối chiếu với trang index thực tế sau vài ngày. Cách làm này nhanh, nhưng giúp phát hiện rất sớm những lỗi có thể kéo chậm index hàng tuần.

Những hiểu nhầm phổ biến về robots.txt

Hiểu nhầm phổ biến nhất là xem robots.txt như công cụ bảo mật. Thực ra, file này hoàn toàn công khai; ai cũng có thể mở và đọc nội dung của nó. Vì vậy, không nên dùng robots.txt để ẩn dữ liệu nhạy cảm. Một hiểu nhầm nữa là nghĩ rằng robots.txt có thể xoá URL khỏi chỉ mục ngay lập tức. Điều đó không đúng. Nếu Google đã biết URL và nó vẫn có tín hiệu từ nơi khác, trang đó có thể còn tồn tại trong index cho đến khi được xử lý theo đúng cơ chế noindex, canonical hoặc yêu cầu xoá phù hợp.

Hiểu nhầm thứ ba là chặn càng nhiều càng tốt để “tối ưu crawl budget”. Cách suy nghĩ này thường phản tác dụng, vì bạn có thể vô tình chặn những trang có giá trị hoặc những tài nguyên giúp Google render nội dung. Khi làm SEO cho doanh nghiệp, mục tiêu nên là: cho bot đi vào đúng chỗ, không phải chặn càng nhiều càng tốt. Nếu bạn triển khai robots.txt đúng, nó sẽ trở thành một lớp điều hướng thông minh, chứ không phải một bức tường vô tội vạ.

Câu hỏi thường gặp

Robots.txt có ngăn Google index trang không?

Không trực tiếp. Robots.txt chủ yếu ngăn crawl. Nếu bạn cần ngăn index, hãy dùng noindex hoặc giải pháp xử lý canonical đúng cách.

Có nên chặn /wp-admin/ trong robots.txt không?

Có, đó là thực hành phổ biến với WordPress. Tuy nhiên thường nên cho phép /wp-admin/admin-ajax.php nếu website cần nó để hoạt động đúng.

Robots.txt có phải công cụ bảo mật không?

Không. File này công khai và không dùng để giấu dữ liệu nhạy cảm. Muốn bảo mật, bạn phải dùng xác thực, phân quyền hoặc cơ chế chặn truy cập phù hợp.

Có thể để sitemap trong robots.txt không?

Nên để. Dòng Sitemap giúp bot tìm file sitemap nhanh hơn và là một thực hành tốt trên hầu hết website.

Nếu chặn nhầm một trang trong robots.txt thì sao?

Bot có thể ngừng crawl phần đó, nhưng hậu quả cụ thể còn tùy tình trạng index trước đó. Bạn cần mở chặn, kiểm tra lại crawl và theo dõi Search Console.

Nếu bạn muốn rà soát robots.txt, sitemap, canonical và cấu trúc crawl của toàn site, hãy làm một vòng audit kỹ thuật SEO trước khi tăng tốc nội dung. Đây thường là bước rẻ nhất nhưng tạo ra hiệu quả lớn nhất cho một website đang mở rộng.