Cộng tác viên Dan Sharp chia sẻ về một thử nghiệm trong đó công ty ông ấy đã có thể chiếm quyền kiểm soát thứ hạng - từ bản thân Google. Hãy xem họ học hỏi được những gì trong quá trình này.

google-seo-guide-hijack

Tôi muốn chia sẻ vài điểm chú ý trong một thử nghiệm mà công ty tôi thực hiện gần đây, kết quả là Google tin rằng trang web của chúng tôi là phiên bản chuẩn của hướng dẫn cơ bản dạng PDF về tối ưu hóa công cụ tìm kiếm của chính họ (http://www.google.com/webmasters/docs/search-engine-optimization-starter-guide.pdf) - và xếp chúng tôi vào vị trí nội dung của chính họ về “tối ưu hóa tìm kiếm” và hàng ngàn cụm tìm kiếm khác. Chúng tôi tiến hành rất nhiều thử nghiệm nội bộ, cả cho phần mềm SEO Spider của mình và cho các khách hàng. Thử nghiệm cụ thể này đơn thuần chỉ ra vấn đề mà chúng tôi phát hiện, không hề có mục đích làm hại ai cả, hoặc vì bất cứ lợi nhuận nào. Chúng tôi hiện đã kết thúc thử nghiệm và loại bỏ nội dung đó.

search-engine-optimisation-uk

Lịch sử Trước đây chúng tôi đã liê hệ với Google sau khi nhận thấy những hành vi lạ lùng trong các kết quả tìm kiếm. Trong khi hướng dẫn cơ bản về SEO bản PDF của họ được xếp hạng với các cụm tìm kiếm như “SEO” và “google SEO guide”, thì vẫn có điều gì đó không ổn,,, Với các tìm kiếm mà chúng tôi đã thực hiện, danh sách cho hướng dẫn cơ bản dạng PDF xuất hiện, nhưng nó liên kết tới nhiều trang web khác tải nó lên thay vì tới trang web của Google. Vì thế Google không xếp hạng trang của họ vì lý do nào đó, thay vì đó là các trang web khác được hiển thị, và chúng sử dụng nội dung của Google. Dưới đây là biểu đồ về một số trang web được xếp hạng về nó ở Anh. Mỗi trang dường như chiếm vị trí một trang khác trong kết quả tìm kiếm khi Google thay đổi việc họ tin tưởng trang nào là trang chuẩn.

google-seo-guide-hijackings

Chúng tôi quyết định xem xét tại sao trang của Google không được lập chỉ mục và các trang web khác dường như được hiển thị trong vị trí của nó. Chúng tôi chú ý là Google sử dụng chuyển hướng tạm thời 302 trong hướng dẫn cơ bản về SEO của họ, thứ được đặt trên một tên miền riêng. Chuyển hướng 302 có nghĩa là đường dẫn nguyên bản trên google.com đã được lập chỉ mục, thay vì đường dẫn mục tiêu được đặt trên static.googleusercontent.com. Tuy nhiên, cả hai đường dẫn đều không được lập chỉ mục, và họ có vẻ vất vả để hiểu được tính chuẩn xác và lập chỉ mục nội dung nguyên bản và đường dẫn của mình. Google không sử dụng “noindex”, không có gì bị chặn qua robot.txt, nội dung khác được lập chỉ mục trên tên miền phụ, và họ không có vẻ như không có xung đột nào trong các thẻ canonical hoặc bất cứ thứ gì khác trên trang, hoặc trong tiêu đề HTTP. Google đã nói rằng PageRank hoạt động như nhau cho dù nó là chuyển hướng tạm thời 302 hoặc chuyển hướng vĩnh viễn 301 - nó thực sự là vấn đề về việc đường dẫn nào mà họ lập chỉ mục và hiển thị trong các kết quả tìm kiếm. Vì vậy về lý thuyết, đường dẫn nguyên bản phải được lập chỉ mục và xếp hạng, nhưng không phải trường hợp này. Trong khi các chuyển hướng sẽ vượt qua PageRank theo cách giống nhau, Gary Illyes nói rằng các chuyển hướng 301 giúp ích cho việc xác định nội dung chuẩn. Chúng tôi biết được qua các thử nghiệm trước đây đó là, nội dung giống nhau có thể bị chiếm quyền kiểm soát, nhưng thường bởi các trang web uy tín. Hướng dẫn cơ bản về SEO của Google có khoảng 2100 tên miền liên kết gốc tới đường dẫn nguyên bản và 485 tên miền khác tới mục tiêu chuyển hướng (kết hợp giao thức HTTP/HTTPS), vì vậy nó là một trang mạnh với khả năng hiển thị lớn. Hướng dẫn cơ bản đó cũng ở trên Google.com, nơi có danh tiếng lớn. Cho dù mục tiêu cuối cùng ở một tên miền riêng. Rõ ràng là trang web Screaming Frog không có uy tín cao như Google, nhưng nhiều trang web có uy tín kém hơn nhiều đã từng thay thế họ trước đây, vì các vấn đề nói ở trên. Thử nghiệm Chúng tôi quyết định tiến hành một thử nghiệm ngắn và chỉ đơn giản tải hướng dẫn SEO của Google lên tên miền của mình. Chúng tôi sau đó được lập chỉ mục qua Google Search Console và quên mất việc này.

canonical

Một tuần sau, chúng tôi nhận thấy mình đã kiểm soát được thứ hạng của Google (và cả những người khác nữa, vì “uy tín” của chúng tôi cao hơn), khi thuật toán của họ dường như tin rằng chúng tôi là nguồn chuẩn của nội dung của chính họ. Đường dẫn của chúng tôi sẽ được trả lại với truy vấn info: hoặc cache: cho một trong hai đường dẫn của Google. Chúng tôi đã chiếm quyền kiểm soát những người khác - và cả Google.

hijacking-the-hijackers

  Mặc dù là trang web của Anh, chúng tôi vẫn nhảy lên vị trí thứ 4 cho cụm “search engine optimization” và top 10 cho cụm “SEO” tại Mỹ - từ vị trí ngoài top 50. Tệp PDF được xếp hạng với “Google SEO,” “Google SEO guide,” “www google com” và mọi cụm tìm kiếm khác mà nội dung của Google được hiển thị.

search-engine-optimization-us-serps-sf

Tệp PDF được xếp hạng cho rất nhiều các truy vấn thương hiệu khác tại Anh và Mỹ, mà chúng tôi có thể xem qua sự trợ giúp của SEMrush (ở hình chụp phía dưới là tại Mỹ). Google Search Console ghi được gần 800k quảng cáo cho tệp PDF đặc biệt cho thời gian 4 ngày. Thử nghiệm này nhận được rất nhiều chú ý khi chúng tôi tweet về nó (https://twitter.com/screamingfrog/status/832540810700869632). Vì vậy chúng tôi lưu ý nó trong các ngày tiếp theo để xem Google có tiến hành thay đổi nào để sửa lại chỉ mục, tính chuẩn xác và thứ hạng không. Khoảng 48 giờ sau, chúng tôi thấy hướng dẫn của Google bắt đầu tăng hạng và rõ ràng giờ đã được lập chỉ mục (và xuất hiện khi thực hiện truy vấn site:), trong khi trước đây nó không được trả lại kết quả nào. Sau đó chúng tôi chú ý thấy Google có bổ sung một thẻ HTTP canonical tới tệp PDF ở đường dẫn nguyên bản của họ, điều này giúp ích cho việc nó được lập chỉ mục. Tuy nhiên chúng tôi vẫn hiển thị như là nguồn chuẩn với truy vấn info: và được xếp hạng với các truy vấn của họ. Điều này có nghĩa cả hai hướng dẫn giờ đều được xếp hạng trong kết quả tìm kiếm, thường là trang của chúng tôi ở trên trang của Google. Chúng tôi đang hy vọng điều này thay đổi - là việc Google trở thành nguồn chuẩn và trang của chúng tôi tụt hạng. Năm ngày sau, chúng tôi vẫn ở đó, cùng với Google trong kết quả tìm kiếm cho hàng ngàn truy vấn. Sau đó trang PDF của chúng tôi biến mất trong các kết quả tìm kiếm, và chúng tôi kết thúc thử nghiệm khá nhanh chóng. Kết luận Đầu tiên, chúng tôi không khuyến nghị bạn đùa nghịch với nội dung của người khác. Đây không phải là một chiến thuật khả thi để đạt thứ hạng cao, đơn thuần chỉ là một nghiên cứu bất thường và thú vị. Có thể rất khó để đưa ra kết luận, vì chúng tôi không thể luôn chắc chắn là các yếu tố hoặc những điều chưa biết khác có thể tham gia vào. Trong khi chúng tôi có rất nhiều giả thuyết và suy nghĩ, chúng tôi sẽ đưa ra ba kết luận chính. 1. Lỗi không phải hoàn toàn là của 302 Trong khi ban đầu chúng tôi tin rằng chuyển hướng 302 có thể là nguyên nhân chính, tôi biết là Google kiên quyết rằng không có vấn đề gì trong việc sử dụng chuyển hướng 302. Chúng tôi tin rằng có các lý do khác góp phần vào việc các tệp được lưu trữ thế nào. Chúng tôi nhận thấy vài điều không minh bạch xung quanh việc các đường dẫn thay đổi theo thời gian và việc xác định nguồn nguyên bản trong HTTPS một cách không chính xác chỉ là một phép đo tốt. 2. Sử dụng canonical (tránh trùng lặp nội dung) Sẽ rất tốt khi sử dụng thẻ canonical để giúp cho việc lập chỉ mục. Ngay khi Google cập nhật thẻ HTTP canonical của tệp PDF trong một đường dẫn, nó đã ngay lập tức được lập chỉ mục. Sử dụng một công cụ thu thập dữ liệu, bạn có thể quét trang của mình để thấy các thiếu khuyết canonical trong các liên kết hoặc trong tiêu đề HTTP. For PDFs and docs, you can easily set an HTTP canonical using .htaccess, for example. Với các tệp PDF và văn bản, bạn có thể dễ dàng thiết lập HTTP canonical sử dụng .htaccess. 3. Mặc dù hiếm, nhưng việc chiếm quyền kiểm soát có thể xảy ra Thứ hạng của một trang có thể bị chiếm bởi một tền miền khác sử dụng nội dung y hệt dưới các điều kiện cụ thể, như là vấn đề với lập chỉ mục hoặc là một nguồn uy tín hơn. Thường thì điều này ít khả năng xảy ra, nhưng có lẽ vẫn có vài điều mà Google có thể cải thiện trong việc xếp hạng nguồn nguyên bản. Nguồn: http://searchengineland.com/