Chiếm kết quả tìm kiếm Google: SEO tại Anh khám phá ra lỗ hổng sơ đồ trang XML trong Google Search Console

SEO chiến thắng trong cuộc thi tìm lỗi, đội tìm kiếm Google xác nhận rằng lỗ hổng đó không còn hoạt động.

Trong 2017, Google đã chi 3 triệu đô cho các cá nhân và các nhà nghiên cứu như một phần của chương trình tìm lỗi của họ (VRP), chương trình này cổ vũ cộng đồng nghiên cứu bảo mật tìm và báo cáo lại các lỗ hổng trong các sản phẩm của Google.

Vào tuần này, Tom Anthony – chủ tịch nghiên cứu và phát triển sản phẩm tại Distilled, một công ty SEO – đã được trao thưởng 1,337 đô vì phát hiện một lỗi cho phép một trang web chiếm trang kết quả và lượng truy cập – vì thế nhanh chóng được lập chỉ mục và dễ dàng thăng hạng với từ khoá cạnh tranh với trang nạn nhân.

Trong bài viết này (http://www.tomanthony.co.uk/blog/google-xml-sitemap-auth-bypass-black-hat-seo-bug-bounty/), Anthony mô tả về nộp trình sơ đồ trang qua đường dẫn ping cho phép ông ấy nộp một sơ đồ trang XML một trang mà ông ấy kiểm soát, như là một trang mà ông ấy không kiểm soát. Ông ấy làm điều này trước hết bằng cách tìm một trang mục tiêu cho phép chuyển hướng mở, lấy nội dung của nó và tạo ra một bản sao (và cấu trúc đường dẫn của nó) trên một máy chủ thử nghiệm. Ông ấy sau đó nộp một sơ đồ trang lên Google (lưu trên máy chủ thử nghiệm) bao gồm các đường dẫn với tên miền nhắm mục tiêu với chỉ dẫn hreflang trỏ tới cùng các đường dẫn đó, giờ cũng có mặt trên tên miền thử nghiệm.

Chiếm trang kết quả

Trong vòng 48h, tên miền thử nghiệm bắt đầu có truy cập. Trong mộtt uần, trang thử nghiệm được xếp hạng với các cụm từ cạnh tranh trên trang 1 tìm kiếm. Đồng thời, GSC cho thấy hai trang có liên quan tới nhau – hiển thị trang trang mục tiêu liên kết tới trang thử nghiệm:

Hello


Google Search Console liên kết hai trang không liên quan tới nhau.

Quan hệ giả định này cũng cho phép Anthony nộp trình các sơ đồ trang XML khác – trong GSC của trang thử nghiệm lúc này, không phải qua đường dẫn ping – với trang mục tiêu:

Hello


Sơ đồ trang nạn nhân được tải lên trực tiếp trong GSC.

Hiểu về quy mô

Bản thân chuyển hướng mở không phải là vấn đề mới – và Google đã cảnh báo giới quản trị web cảnh giác với tấn công kiểu này từ năm 2009. Điều đáng chú ý ở đây là việc sử dụng chuyển hướng mở hoạt động không chỉ với việc nộp trình một sơ đồ trang chưa hoàn chỉnh, mà còn thăng hạng hiệu quả với một tên miền hoàn toàn mới, trang web hoàn toàn mới, không hề có liên kết trỏ về và không có quảng báo. Và sau đó trang web và tên miền mới đó đã có được hơn một triệu quảng cáo, 10,000 khách truy cập và lượng xem trang là 40,000 (chỉ qua tìm kiếm) trong ba tuần.

Lỗi ở đây là vấn đề với cả việc nộp trình sơ đồ trang và là một vấn đề lớn hơn trong cách thuật toán ngay lập tức áp dụng tất cả các mạng lưới liên kết từ một trang tới một tên miền hoàn toàn tách biệt và không liên quan.

Source: http://www.tomanthony.co.uk

Tôi tiếp cận với Google với hàng loạt câu hỏi chi tiết về lỗ hổng này, bao gồm cả sự liên quan của đội ngũ chất lượng tìm kiếm trong việc theo đuổi và thực thi một bản vá, và liệu họ có thể phát hiện và xử lý bất cứ kẻ xấu nào đã tận dụng lỗ hổng này hay không. Một người phát ngôn của Google phản hồi:

Khi chúng tôi được cảnh báo về vấn đề này, chúng tôi đã làm việc sát cánh cùng các đội khác để xử lý nó. Nó không phải là vấn đề được biết đến trước đây và chúng tôi không nghĩ rằng nó bị lợi dụng.

Phản hồi các câu hỏi về các thay đổi liên quan tới việc trình nộp sơ đồ trang, GSC và di chuyển mạng lưới liên kết ảnh hưởng tới kết quả, người phát ngôn nói:

Chúng tôi tiếp tục khuyến nghị các chủ trang web sử dụng sơ đồ trang để cho chúng tôi biết về các trang mới và được cập nhật trong web của họ. Thêm vào đó, Search Console mới cũng sử dụng sơ đồ trang như một cách để khai thác thông tin cụ thể từ trang web của bạn trong báo cáo Index Coverage. Nếu bạn đang đặt sơ đồ trang ngoài trang web của mình, thì để sử dụng đúng quan trọng bạn phải xác nhận cả hai trang trong cùng tài khoản Search Console.

Tôi đã luận đàm về lỗ hổng này và nghiên cứu sâu với Anthony.

Quá trình nghiên cứu

Khi được hỏi về động lực của mình khi theo đuổi việc này, ông ấy nó “Tôi tin rằng một người làm SEO hiệu quả là người thử nghiệm và cố hiểu được mọi điều sau hậu trường. Tôi chưa từng làm SEO mũ-đen, và tôi đặt ra thách thức với bản thân để tìm thứ gì đó ở khía cạnh đó; chủ yếu cho mục đích học hỏi và là một cách để phòng chống khi tôi thấy nó”.

Ông ấy nói thêm “Tôi có sở thích nghiên cứu bảo mật , vì thế tôi quyết định rằng thay vì việc nghiên cứu cách làm cổ điển để thao túng các tín hiệu xếp hạng của thuật toán, tôi đã thử xem mình có thể tìm ra một lỗi khác hay không”.

Thường thì động lực để theo đuổi việc này liên quan đến việc nhận thấy (hoặc một khách hàng của mình nhận thấy) một lượng sụt giảm bất ngờ trong truy cập tìm kiếm hay thứ hạng. Anthony lưu ý rằng “Tại Distilled, như mọi người làm SEO khác, tôi làm việc với các trang web có những sự sụt giảm không thể giải thích. Thường các khách hàng cho rằng đó là “SEO tiêu cực”, nhưng nó thường là điều gì đó phức tạp hơn. Điều đáng lo với vấn đề cụ thể này là các tấn công của SEO tiêu cực có thể bị phát hiện. Nếu tôi tấn công spam bạn với các liên kết kém chất lượng, thì bạn có thể tìm thấy chúng và xác nhận rằng chúng tồn tại. Nhưng với vấn đề này thì kẻ tấn công có thể lợi dụng mạng lưới liên kết của bạn trong Google mà bạn sẽ không biết được”.

Sau khi dành các buổi tối trong tuần và cuối tuần trong 4 tuần để nghiên cứu, Anthony nhận ra rằng việc kết hợp các nghiên cứu khác nhau ông ấy bắt đầu nhận ra bằng chứng thiết thực, trong khi riêng rẽ thì chúng sẽ không đưa lại kết quả. “Tôi đã kết thúc với hai chủ đề nghiên cứu – một về chuyển hướng mở, vì chúng là lỗ hổng mà tôi cảm thấy có thể bị lợi dụng trong SEO – và một là về sơ đồ trang XML và cố gắng tạo lỗi Googlebot khi phân tích chúng (tôi đã chạy khoảng 20 biến thể của nó nhưng không hoạt động). Tôi đã đắm chìm vào nó rất sâu lúc đó, và tôi phát hiện rằng hai hướng nghiên cứu đó có thể kết hợp với nhau”.

Báo cáo và giải pháp

Khi ông ấy nhận thấy tác động và nguy hại có thể đến với các trang wbe, Anthony đã báo cáo lỗi tới đội bảo mật của Google. Vì phương thức này chưa từng được biết đến trước đây những rõ ràng có thể bị tấn công, Anthony lưu ý rằng “Đây là một khả năng nguy hiểm có thể đã bị lợi dụng. Tuy nhiên bản chất của lỗi này có khả năng nó không thể bị phát hiện. “Nạn nhân” có thể không bị ảnh hưởng trực tiếp nếu mạng lưới liên kết của họ được sử dụng để thăng hạng ở nước khác, và sau đó những nạn nhân trở thành những người bị đẩy khỏi bảng xếp hạng vì những kẻ tấn công. Họ sẽ không có cách nào để giải thích việc trang của kẻ tấn công lại xếp hạng cao thế”.

Như lưu ý ở trên thì người phát ngôn của Google nói họ không nghĩ rằng nó đã bị lợi dụng. Phản hồi của họ không rõ ràng về việc liệu họ có dữ liệu cho phép họ phát hiện các sở đồ trang được sử dụng theo cách đó hay không. Nếu có thông tin nào thêm chúng tôi sẽ cập nhật vào bài này.

Về vấn đề này, tôi đã hỏi suy đoán của Anthony về quy mô của lỗ hổng này. “Điểm yếu lớn nhất trong thử nghiệm của tôi là tôi đã sao chép cấu trúc đường dẫn và nội dung của trang nguyên bản sát đến mức nào. Tôi có rất nhiều thử nghiệm được thiết kế để đo lường sự khác nhau trong việc sao chép trang tấn công: Liệu tôi có cần cấu trúc đường dẫn giống hệt trang nguyên bản? Nội dung phải trùng hợp đến thế nào? Tôi có thể tập trung vào các ngôn ngữ khác ở cùng một nước như trang nạn nhân không? Trường trường hợp của tôi, tôi nghĩ mình có thể chạy lại thử nghiệm với các trang tấn công khác nhau một chút, và có lẽ sẽ thoát khỏi bị phát hiện”.

Ông ấy bổ sung “Nếu tôi giữ kín điều này thì tôi nghĩ mình có thể thoát được hàng tháng hoặc hàng năm. Nếu bạn lừa người khác thì có thể trong ngắn hạn, nhưng nếu bạn sử dụng phương thức này để thúc đẩy truy cập, hoặc đơn giản để thúc đẩy kinh doanh thì bạn sẽ không bao giờ bị phát hiện”.

Như thể hiện ở hình dưới, lượng truy cập ngắn hạn được thúc đẩy tới trang thử nghiệm có giá hơn nhiều khi so sánh với khoản tiền thưởng mà ông ấy nhận được, điều khiến mọi người tự hỏi liệu đội bảo mật có thực sự hiểu được ý nghĩa của lỗ hổng hay không.

Hello


Giá trị truy cập của Searchmetrics

Tuy nhiên động lực của Anthony (và tại sao ông ấy báo cáo lỗ hổng đó ngay lập tức) chính là nghiên cứu và giúp ích cho cộng đồng tìm kiếm.

“Tiến hành nghiên cứu kiểu này là một kinh nghiệm để học hỏi, và không phải là lạm dụng những gì bạn tìm thấy. Trong ngành, chúng ta phàn nàn nhiều về Google, nhưng với khách hàng thì họ cung cấp một dịch vụ tuyệt vời, và tôi nghĩ những người làm SEO tử tế sẽ trợ giúp việc đó – và điều này về cơ bản là phần mở rộng của cùng một ý tưởng. Chương trình trao thưởng tìm lỗi và họ đang chạy là một sự khuyến khích tốt với các nỗ lực nghiên cứu chứ không phải ở lĩnh vực khác; và việc trao thưởng cho thời gian và nỗ lực nghiên cứu là một điều tốt”.

Nguồn: https://searchengineland.com/