Bạn sẽ không muốn trang web nhân bản của mình xuất hiện trong kết quả tìm kiếm, vì vậy làm thế nào bạn có thể tránh việc Google lập chỉ mục cho nội dung này? Nhà báo Patrick Stox đưa ra vài bí quyết. Một trong những vấn đề kỹ thuật SEO cơ bản mà tôi gặp là quá trình lập chỉ mục không chủ đích của các máy chủ phát triển, các trang nhân bản, các máy chủ sản xuất hoặc bất cứ cái tên nào bạn sử dụng. Có nhiều lý do để điều này xảy ra, từ việc mọi người nghĩ là không ai sẽ liên kết tới các khu vực này cho đến các nhầm lẫn kỹ thuật. Các phần này của trang web thường nhậy cảm và sự có mặt của chúng trong chỉ mục của công cụ tìm kiếm có nguy cơ làm lộ các chiến dịch, thông tin kinh doanh hoặc các thông tin mật. Làm thế nào để biết máy chủ phát triển của bạn đang bị lập chỉ mục Bạn có thể sử dụng tìm kiếm Google để xác định xem trang web nhân bản của bạn có đang bị lập chỉ mục hay không. Ví dụ, để xác định một trang nhân bản, bạn có thể tìm kiếm Google là site:domain.com và xem xét cá kết quả hoặc thêm mã lệnh như -inurl:www để loại bỏ bất cứ đường dẫn www.domain.com nào. Bạn cũng có thể sử dụng các công cụ từ bên thứ ba như SimilarWeb hoặc SEMrush để tìm các tên miền phụ. Có thể có các khu vực nhậy cảm khác có các cổng đăng nhập hoặc các thông tin không dành cho công chúng. Bên cạnh các lệnh Google (còn được biết đến như Google Dorking), thì các trang web có xu hướng chặn các khu vực này trong các tệp robots.txt, cho bạn biết chính xác chỗ mà bạn không nên xem. Có gì sai khi nói với mọi người nơi tìm được thông tin mà bạn không muốn họ thấy? Có rất nhiều hành động bạn có thể làm để giữ khách ghé thăm hoặc công cụ tìm kiếm khỏi các khu vực nhậy cảm của trang. Sau đây là các tùy chọn: Tốt: Xác thực HTTP Bất cứ điều gì bạn muốn tránh lập chỉ mục nên bao gồm việc xác thực trên máy chủ. Yêu cầu xác thực để truy cập là cách được tin dùng để tránh khỏi người dùng và công cụ tìm kiếm. Tốt: danh sách trắng IP Chỉ cho phép các địa chỉ IP đã biết – như là các IP thuộc vào mạng lưới, hay khách hàng của bạn – là một bước rất tốt để bảo vệ trang web và đảm bảo những người dùng cần xem khu vực đó của trang web sẽ thấy nó. Có thể: Sử dụng noindex trong tệp robots.txt Lệnh noindex trong tệp robots.txt không được hỗ trợ chính thức, nhưng nó có thể loại bỏ các trang khỏi chỉ mục. Vấn đề tôi gặp phải với phương pháp này là nó vẫn nói với mọi người nơi họ không nên xem, và nó có thể không làm việc mãi mãi với tất cả các công cụ tìm kiếm. Lý do tôi nói cách này là “có thể” do nó có thể làm tốt và có thể kết hợp với một lệnh từ chối trong robots.txt, không như vài phương pháp khác không hoạt động nếu bạn từ chối thu thập dữ liệu (điều tôi sẽ nói vào phần sau của bài báo). Có thể: Các thẻ noindex Một thẻ noindex ở trong thẻ meta robots hoặc một thẻ X-Robots trong tiêu đề HTTP có thể giữ trang của bạn tránh khỏi các trang kết quả tìm kiếm. Một vấn đề tôi thấy với cách này là nó làm cho nhiều trang hơn được thu thập dữ liệu bởi công cụ tìm kiếm, điều sẽ khiến bạn tốn nhiều ngân sách thu thập dữ liệu. Tôi thường thấy thẻ này được sử dụng khi có một lệnh từ chối trong tệp robots.txt. Nếu bạn nói với Google không nên thu thập dữ liệu trang, thì họ không thể tuân theo thẻ noindex vì không thể thấy nó. Một vấn đề khác là các thẻ này có thể được áp dụng vào các trang nhân bản và bị bỏ quên ở đó cả khi trang được phát hành, làm cho trang bị loại bỏ khỏi chỉ mục. Có thể: tránh trùng lặp Nếu bạn có thể bộ tránh trùng lặp trên máy chủ nhân bản của bạn trỏ tới trang web chính, về cơ bản tất cả các tín hiệu nên được hợp nhất đúng đắn. Có thể có sự không phù hợp trong nội dung gây ra vài vấn đề, và như với thẻ noindex, thì Google sẽ phải thu thập dữ liệu các trang bổ sung. Các quản trị web cũng có xu hướng thêm một từ chối vào tệp robots.txt, vì vậy một lần nữa không thể thu thập trang và không tuân theo thẻ tránh trùng lặp do họ không thể thấy nó. Bạn cũng có thể gặp nguy cơ quên thay đổi các thẻ này khi di chuyển từ máy chủ sản xuất, điều có thể khiến cho phiên bản bạn không muốn hiển thị lại là phiên bản tránh trùng lặp. Xấu: không làm gì cả Không làm gì để tránh việc lập chỉ mục các trang nhân bản là thường thấy vì mọi người cho rằng không ai sẽ liên kết tới khu vực này, vì thế không cần phải làm gì cả. Tôi cũng nghe nói rằng Google sẽ “nhận ra” điều này – nhưng tôi sẽ không tin tưởng họ vì các vấn đề trùng lặp nội dung. Bạn có tin họ không? Xấu: Từ chối trong tệp robots.txt Đây có lẽ là cách thông thường mọi người cố giữ một trang nhân bản thử nghiệm khỏi bị lập chỉ mục. Với lệnh từ chối trong robots.txt, bạn đang nói với công cụ tìm kiếm đừng thu thập trang – nhưng nó không tránh khỏi việc họ lập chỉ mục trang. Họ biết một trang tồn tại ở vị trí đó và vẫn sẽ hiển thị nó trong kết quả tìm kiếm, dù không biết chính xác điều gì ở đó. Họ có các gợi ý từ các liên kết về kiểu thông tin trên trang đó. Khi Google lập chỉ mục một trang bị chặn thu thập dữ liệu, bạn sẽ thường thấy thông báo sau trong kết quả tìm kiếm: “Không có mô tả về kết quả này do tệp robots.txt của trang”. Nếu bạn nhớ lại ở các phần trước, lệnh từ chối cũng sẽ chặn Google xem các thẻ khác của trang, như là thẻ noindex hoặc thẻ tránh trùng lặp, vì nó chặn họ xem bất cứ gì trên trang. Bạn cũng có nguy cơ không nhớ được đã loại bỏ lệnh từ chối này chưa khi phát hành trang web, điều có thể chặn thu thập dữ liệu khi phát hành. Nếu bạn đã lỡ bị lập chỉ mục thì sao? Việc thu thập dữ liệu có thể mất thời gian tùy thuộc vào độ quan trọng của đường dẫn (có khả năng thấp trong trường hợp trang nhân bản). Nó có thể mất hàng tháng trước khi một đường dẫn được tái thu thập dữ liệu, vì vậy bất cứ vấn đề nào cũng có thể không được xử lý trong một khoảng thời gian. Nếu bạn có thứ gì lỡ bị lập chỉ mục, tốt nhất bạn nên trình nộp một yêu cầu loại bỏ đường dẫn trong Google Search Console. Làm điều này sẽ loại bỏ nó trong vòng khoảng 90 ngày, cho bạn thời gian để tiến hành các hành động khắc phục.