Hướng dẫn chăm sóc các trình thu thập dữ liệu

Trong phần 1 của loạt bài 3 phần này, nhà báo Stephan Spencer phân tích sâu về các trình thu thập, giải thích về chúng và tại sao ngân sách thu thập dữ liệu lại quan trọng.

Đây là phần 1 trong loạt bài gồm 3 phần.

Ta thường nghĩ về tối ưu hoá tìm kiếm với mối liên quan tới con người: Truy vấn nào mà khách hàng của tôi đang sử dụng?
Làm sao tôi có thể có thêm nhiều người viết blog liên kết tới mình?
Làm sao tôi có thêm nhiều người ở lại lâu hơn trên trang?
Làm sao tôi có thể bổ sung thêm giá trị cho cuộc sống và việc kinh doanh của khách hàng?
Đây là cách mà người ta thường nghĩ.

Nhưng cho dù ta đang sống trong một thế giới luôn bị ảnh hưởng bởi những thứ vô tri như máy móc, trí thông minh nhân tạo (AI) và các thuật toán, ta thường quên mất rằng một phần lớn trong công tác tối ưu một trang web không có gì liên quan tới con người cả.

Thực tế thì rất nhiều khách ghé thăm trang mà ta cần phục vụ thực sự là các trình thu thập, và ta đã bỏ qua chúng một cách đầy rủi ro.

Trình thu thập là gì?

Một trình thu thập đơn giản là một phần mềm mà Google (hoặc một công ty khác) sử dụng để duyệt web và thu thập thông tin hoặc thực hiện các tác vụ tự động.

Cụm từ “trình thu thập” này gây chút hiểu nhầm, vì nó được hiểu là có đôi chút trí thông minh ở đây. Thực tế thì các trình thu thập này không tiến hành phân tích nhiều. Các trình thu thập không xác định chất lượng của nội dung; đây không phải là công việc của chúng. Chúng đơn giản đi theo các liên kết trên web trong khi đưa thông tin và mã lệnh tới cho các thuật toán khác để lập chỉ mục.

Các thuật toán này sau đó lấy thông tin mà trình thu thập có được và giữ chúng trong một kho mục lớn gọi là chỉ mục. Khi bạn gõ một từ khoá vào công cụ tìm kiếm, nó là kho mục mà bạn đang tìm kiếm.

Các thuật toán khác áp dụng các quy tắc khác nhau để đánh giá nội dung trong kho mục và quyết định việc một đường dẫn được đặt ở đâu trong xếp hạng với một cụm tìm kiếm cụ thể. Sự phân tích bao gồm những việc như là các từ khoá phù hợp cao xuất hiện ở đâu trên một trang, chất lượng và số lượng của các liên kết trỏ về và chất lượng nội dung tổng thể.

Đên giờ bạn có thể đang hiểu được tại sao việc tối ưu cho trình thu thập lại quan trọng.

Trong khi các trình thu thập không quyết định liệu trang của bạn có xuất hiện trong kết quả tìm kiếm không, thì nếu nó không thể thu thập tất cả thông tin mà nó cần, thì cơ hội của bạn để có thứ hạng rất mong manh.

Vậy là thế nào để bạn chăm sóc được các trình thu thập đó mà hướng chúng tới nơi mà chúng cần? Và làm thế nào bạn đưa cho chúng chính xác những gì chúng tìm kiếm?

Điều đầu tiên: Hiểu được ngân sách thu thập

Nếu bạn muốn tối ưu trang cho các trình thu thập, đầu tiên bạn cần hiểu được chúng hoạt động thế nào. Đây là lúc mà “ngân sách thu thập” xuất hiện.

Ngân sách thu thập là một thuật ngữ SEO được phát triển để mô tả các nguồn lực mà một công cụ tìm kiếm phân bổ để thu thập dữ liệu của một trang web.

Về cơ bản thì nếu công cụ tìm kiếm coi trang của bạn càng quan trọng thì nó sẽ càng phân bổ nhiều nguồn lực để thu thập nó, và ngân sách thu thập của bạn càng cao hơn.

Trong khi nhiều người đã cố gắng để cho ra một cách tính chính xác ngân sách thu thập, thì thực sự không có cách nào để đặt ra một con số chắc chắn với nó.

Sau khi thuật ngữ này trở nên phổ biến, Google giả thích về ngân sách thu thập với Googlebot. Họ nhân mạnh hay yếu tố chính tạo nên ngân sách thu thập:

• Giới hạn tốc độ thu thập: Tốc độ mà Googlebot có thể thu thập một trang web mà không làm giảm trải nghiệm người dùng (như được xác định mở dung lượng máy chủ của bạn).

• Nhu cầu thu thập: Dựa trên độ phổ biến của một đường dẫn cụ thể, cũng như “trạng thái” của nội dung tại đường dẫn trong chỉ mục của Google. Đường dẫn càng phổ biến thì nhu cầu càng cao, và nó càng được cập nhật thì Google càng cần phải thu thập nó.

Nói cách khác, ngân sách thu thập của bạn sẽ bị ảnh hưởng bởi nhiều yếu tố, bao gồm lượng truy cập mà bạn có, công cụ tìm kiếm có thể thu thập trang của bạn dễ như thế nào, tốc độ trang, dung lượng trang (băng thông sử dụng), bạn thường xuyên cập nhật trang thế nào, tỷ lệ đường dẫn có nghĩa/vô nghĩa và tương tự thế.

Để hiểu được Google thu thập trang bạn tần suất thế nào, hãy đi vào mục “Crawl: Crawl Stats” của Google Search Console. Các đồ thị này được cung cấp miễn phí từ Google và thực tế thì chúng hữu ích, nhưng chúng cung cấp một bức tranh không hoàn chỉnh về hoạt động của trình thu thập trên trang của bạn.

Tốt nhất là bạn nên phân tích các tệp lưu của máy chủ với một chương trình như OnCrawl hay Screaming Frog Log Analyser.

Điều quan trọng phải nhớ rằng Google Search Console (GSC) không phải là một trình phân tích máy chủ. Nói cách khác thì các quản trị web không có khả năng tải tệp lưu máy chủ lên GSC để phân tích tất cả các ghé thăm của trình thu thập, bao gồm cả Bingbot.

Có vài điều quan trọng để xem xét khi tối ưu ngân sách thu thập của bạn:

• Tần suất cập nhật trang. Nếu bạn có một blog được cập nhật tháng một lần, thì đừng hy vọng Google ưu tiên thu thập trang của bạn. Mặt khác, các đường dẫn với tần suất cập nhật cao như trang chủ HuffPost có thể được thu thập cách nhau vài phút. Nếu bạn muốn Google thu thập trang của bạn thường xuyên hơn thì hãy bổ sung nội dung thường xuyên hơn.

• Tải host. Trong khi Google muốn thu thập trang của bạn thương xuyên thì họ cũng không muốn làm ảnh hưởng tới trải nghiệm duyệt trang của người dùng. Tần suất thu thập cao có thể đặt tải lớn tới các máy chủ của bạn. Thông thường các trang với dung lượng giới hạn (như là các trang trên host chia sẻ) hoặc các trang lớn bất thường được thu thập ít thường xuyên hơn.

• Tốc độ trang. Thời gian tải trang chậm có thể ảnh hưởng tới thứ hạng của bạn và khiến người dùng bỏ đi. Nó cũng cản trở các trình thu thập thu thập thông tin nhanh. Thời gian tải trang chậm có thể khiến các trình thu thập đạt giới hạn tốc độ thu thập nhanh và chuyển sang các trang khác.

• Các lỗi thu thập. Các vấn đề như thời gian kết nối máy chủ, lỗi máy chủ 500 hoặc các vấn đề về tính sẵn có của máy chủ có thể làm chậm các trình thu thập hoặc thậm chí cản trở chúng thu thập trang của bạn. Để kiểm tra các lỗi, bạn nên sử dụng kết hợp các công cụ như là Google Search Console, Deep Crawl hay Screaming Frog SEO Spider (đừng nhầm với Screaming Frog Log Analyser). Tham khảo các báo cáo và đừng dựa chỉ trên một công cụ, vì bạn có thể bỏ qua các lỗi quan trọng.

Đã hết phần 1 của loạt bài 3 phần: Hướng dẫn chăm sóc các trình thu thập dữ liệu. Trong phần 2, ta sẽ nói việc để công cụ tìm kiếm những gì là quan trọng trên trang web của bạn và xem xét các lỗi lập trình cơ bản. Hãy chờ đón nhé.

Nguồn: searchengineland.com