Dẫn hướng Google tới các trang bạn muốn có thứ hạng, lập chỉ mục chúng nhanh hơn và giữ cho chúng cập nhập. Tập trung vào các trang thời vụ để tăng tần suất quảng cáo cho chúng. Ngân sách thu thập dữ liệu là gì? Mục tiêu của Google là đem các thông tin hữu ích đến với những người tìm kiếm trên web. Để làm điều đó, Google phải thu thập và lập chỉ mục nội dung từ các nguồn chất lượng. Thu thập dữ liệu web là đắt đỏ: Google sử dụng năng lượng hàng năm bằng toàn bộ thành phố San Francisco, chỉ để thu thập dữ liệu các trang web. Để thu thập nhiều trang hữu ích nhất có thể, các trình thu thập phải tuân theo các thuật toán lập trình có ưu tiên trang nào được thu thập và vào lúc nào. Sự quan trọng của trang là ý tưởng mà có các cách đo lường để xác định trang nào cần ưu tiên. Không có chỉ mục nào về các bộ giá trị về thu thập dữ liệu cho các trang. Thay vào đó, các thu thập được phân phối dựa trên những gì mà Google nghĩ rằng máy chủ của bạn sẽ kiếm soát và sự quan tâm mà họ tin rằng người dùng sẽ có với trang web của bạn. Ngân sách thu thập dữ liệu của trang web của bạn là một cách để lượng hóa Google dành ra bao nhiêu để thu thập dữ liệu nó, được thể hiện bằng con số trung mình của các trang theo hàng ngày. Tại sao phải tối ưu ngân sách thu thập dữ liệu? Nhờ vào dữ liệu của OnCrawl về hàng trăm triệu trang web, chúng tôi cũng biết được rằng có mối liên hệ lớn giữa tần suất Google thu thập trang với số lượng tần suất quảng cáo nó nhận được: các trang được thu thập thường xuyên hơn được thấy nhiều hơn trong các kết quả tìm kiếm.

Quan hệ giữa số lượng tần suất xuất hiện và tần suất thu thập dữ liệu Tương quan này có nghĩa là bạn có thể sử dụng tối ưu ngân sách thu thập như là một chiến lược để quảng bá một nhóm trang web trong kết quả tìm kiếm. Nếu web của bạn có các trang thời vụ, các trang này có thể là ứng cử viên tuyệt với cho các chiến dịch quảng bá dựa trên tần suất thu thập được tối ưu. Để đưa các trang này tới mức đầu trong các kết quả tìm kiếm, bạn cần phải quảng bá chúng tới Google bên trên các kiểu trang khác của trang web trong thời điểm thích hợp. Sử dụng các chiến thuật tối ưu ngân sách thu thập, bạn có thể thu hút sự chú ý của Google tới các trang cụ thể và tránh các trang khác để tăng tần suất xuất hiện của trang thời vụ trên web của bạn. Bạn sẽ cần phải: • Tối ưu ngân sách thu thập chung của bạn. • Giảm độ sâu của các trang thời vụ quan trọng sử dụng “các bộ sưu tập” liên kết tới từ trang chủ mục trong cấu trúc trang của bạn. • Tăng độ phổ biến nội bộ của các trang quan trọng bằng cách tạo liên kết trỏ về từ các trang phù hợp. Mối quan hệ giữa số lượng các liên kết nội bộ và tần suất thu thập 1. Theo dõi ngân sách thu thập Google Search Console sẽ cung cấp các giá trị thống kê thu thập tổng hợp từ tất cả các trình thu thập của Google. Bên cạnh 12 trình thu thập chính, tại OnCrawl chúng tôi chú ý tới một trình thu thập mới nổi lên: Google AMP. Dữ liệu này bao gồm tất cả các đường dẫn – bao gồm JavaScript, CSS, phông chữ và đường dẫn hình ảnh – tất cả những gì trình thu thập có được. Vì sự khác nhau giữa hành vi của trình thu thập, các giá trị được đưa ra là giá trị trung bình. Ví dụ, vì AdSense và trình thu thập di động phải dựng đầy đủ từng trang, không như là trình thu thập trên máy bàn, thì thời gian tải trang được cung cấp ra là một giá trị trung bình giữa thời gian tải trang đầy đủ và một phần. Điều này không đủ chính xác cho các phân tích SEO. Vì vậy, các tin cậy nhất để đo lường ngân sách thu thập của trang web của bạn là phân tích các bản ghi máy chủ thường xuyên. Nếu bạn không quen với các bản ghi của máy chủ, nguyên tắc là rõ rằng: các máy chủ web ghi lại mọi hoạt động. Các bản ghi này thường được sử dụng để chẩn đoán các vấn đề hiệu suất trang. Một bản ghi hoạt động là một yêu cầu về đường dẫn. Trong bản ghi đó, dòng chữ về kiểu hoạt động này sẽ bao gồm thông tin về địa chỉ IP tiến hành yêu cầu, đường dẫn, ngày giờ và kết quả dưới dạng mã lệnh trạng thái. Ví dụ như sau: www.mywebsite.com:443 66.249.73.156 [15/Aug/2018:00:02:59 +0000] “GET /news/my-article-URL HTTP/1.1” 200 44506 “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” Bằng cách phân tích tất cả các yêu cầu từ trình thu thập Google, bạn có thể đo lường chính xác được số lượng thu thập này trong một khoảng thời gian cho trước. Đây là ngân sách thu thập của bạn. Con số này không thể cho bạn biết Google có chú ý đến trang của bạn đủ hay không. Các trình thu thập SEO với khả năng theo dõi bản ghi, như OnCrawl, cung cấp các thông số bổ sung để chẩn đoán về độ mạnh yếu của ngân sách thu thập. Bởi vì ngân sách thu thập của bạn là thứ cho phép các trang mới và các trang được cập nhập được lập chỉ mục, điều quan trọng là xử lý các vấn đề và các thay đổi đột ngột một cách nhanh chóng. 2. Sửa các vấn đề máy chủ Nếu trang của bạn quá chậm hay máy chủ của bạn trả về quá nhiều lỗi hết thời gian chờ hay lỗi máy chủ, Google sẽ kết luận rằng trang web của bạn không thể hỗ trợ cho lượng yêu cầu lớn hơn với các trang của nó. Bạn có thể khắc phục một lỗi máy chủ bằng các sửa các mã lệnh trạng tháy 400 hay 500 và bằng cách chỉnh sửa các yếu tố liên quan tới máy chủ với tốc độ trang. Bởi vì các bản ghi chỉ báo cả các mã lệnh trạng thái được trả về và số lượng byte được tải xuống, theo dõi bản ghi là chìa khóa để chẩn đoán và sửa các vấn đề máy chủ. Nếu trang của bạn được giữ trên một máy chủ chia sẻ, bạn vẫn có thể cải thiện hiệu suất máy chủ thông qua bộ nhớ tạm, các CDN, các hình ảnh được chỉnh kích cỡ đúng, cập nhập phiên bản PHP, và sử dụng kỹ thuật tải một phần hay tải không đồng bộ với các nguồn. 3. Không lãng phí Giữ cho Google tập trung vào các trang bạn muốn xếp hạng và tránh khỏi các trang khác. Thường thì ngân sách thu thập của bạn không được sử dụng để khám phá các trang mới và được cập nhập vì nó được dành cho những thứ khác. Dữ liệu theo dõi bản ghi của bạn sẽ đưa ra một bức tranh về những gì Google thu thập – và những gì không được khám phá – trên trang web của bạn. Kết hợp dữ liệu bản ghi với dữ liệu từ một trình thu thập SEO sẽ giúp bạn trả lời các câu hỏi sau: • Liệu có các trang được thu thập mà không thể được lập chỉ mục? (Chúng có trong sơ đồ trang không?) • Liệu có các trang được thu thập mà không trả về mã trạng thái 200 không? • Liệu Google có đang thu thập các đường dẫn về hình ảnh, PDF hay các dạng truyền thông khác? • Liệu Google có đang thu thập các trang bạn không có người dùng sử dụng? • Liệu Google có đang thu thập nhiều các trang chuyển hướng? Nếu bạn có thể trả lời “có” với bất cứ câu hỏi nào ở trên, bạn có thể giải phóng ngân sách thu thập bằng cách điều hướng trình thu thập không thu thập các nguồn này nữa. Ưu tiên các chủ đề ngốn nghiều ngân sách nhất. Thêm vào đó, các thống kê của OnCrawl có thể làm sáng tỏ các quan hệ giữa: • Độ sâu của các trang trong cấu trúc trang và tần suất thu thập trang. • Các mã lệnh trạng thái và tần suất thu thập trang. • Độ phổ biến của các trang theo số lượng thu thập và tần suất thu thập trang. • Cấu trúc liên kết nội bộ và tần suất thu thập trang. Nếu bạn đang quảng bá cho các trang thời vụ, đây là nơi mà bạn có thể tạo ra khác biệt nhiều nhất. Các liên hệ này chỉ báo kiểu nội dung và cấu trúc tốt nhất trong web của bạn. Điều chỉnh cấu trúc liên kết của các trang thời vụ tương ứng, và đặt các trang này ở độ sâu tối ưu, bên trên các trang khác. Cuối cùng, dữ liệu theo dõi bản ghi và thu thập trang sẽ đưa ra bất cứ trang bị bỏ rơi nào – không liên kết tới cấu trúc trang của bạn trong một thời gian dài – được thu thập bởi Google. Nếu các trang này được Google ghé thăm, hãy tái két nối chúng với cấu trúc trang của bạn để tận dụng truy cập này. Nếu không, hãy gỡ chúng xuống hay từ chối các trình thu thập. 4. Tối ưu cho trình thu thập Google Con người có thể làm tất cả những điều mà các trình thu thập không thể làm – và không nên làm. Ví dụ như các trình thu thập nêu có truy cập vào trang đăng ký của bạn, nhưng chúng không nên thử đăng ký hay đăng nhập. Các trình thu thập không điền các biểu mẫu liên hệ, trả lời các phản hồi, để lại đánh giá, đăng ký nhận bản tin, thêm các mục vào giỏ hàng hay xem giỏ hàng. Tuy nhiên chỉ trừ khi bạn nói với chúng là không làm thế, còn không chúng vẫn cố gắng để theo các liên kết này. Hãy sử dụng các liên kết nofollow và hạn chế trong tệp robots.txt để giữ các trình thu thập tránh các hành động mà chúng không thể hoàn thành. Bạn cũng có thể chọn cách di chuyển các thông số cụ thể liên quan tới tùy chọn người dùng hay xem cookie hay hạn chế khoảng trống vô tận trong lịch và lưu trữ. Điều này giải phóng cho ngân sách thu thập để dành cho các trang quan trọng. 5. Cải thiện chất lượng nội dung Thông báo chính thức từ Google, bởi những người phát ngôn hay trên các trang hỗ trợ quản trị web, cho thấy rằng ngân sách thu thập của bạn bị ảnh hưởng mạnh bởi chất lượng của nội dung. Bằng chứng từ việc kết hợp dữ liệu bản ghi và phân tích ngữ nghĩa bởi OnCrawl củng cố cho điều này. Chúng tôi thấy phần lớn các trang cho thấy một mối quan hệ giữa: • Số lượng từ ngữ và hành vi thu thập trang. • Nội dung trùng lặp và hành vị thu thập trang. • PageRank nội bộ và hành vi thu thập trang. Bạn cũng nên tận dụng lợi thế của nội dung chất lượng để củng cố cho các trang yếu hơn thông qua việc sử dụng: • Các liên kết trỏ về từ bên ngoài • Cấu trúc liên kết nội bộ • Tối ưu hóa việc tránh trùng lặp. Nếu bạn đang quảng bá cho các trang thời vụ, hãy tập trung vào việc tối ưu chúng trước. Các báo cáo từ việc đánh giá trang và thu thập trang cho thấy trang nào trong các nhóm này sẽ có lợi nhất từ việc tiến hành cải thiện. Ngân sách thu thập tốt của bạn Một ngân sách thu thập tốt là chìa khóa để cải thiện lợi tức đầu tư từ các hoạt động SEO bằng cách đảm bảo rằng Google thấy được các trang mà bạn tối ưu. Khi bạn tiến hành các cải thiện, hãy tiếp tục theo dõi ngân sách thu thập của trang. Điều này cho phép bạn đo lường các kết quả và sẵn sàng để phản ứng lại với các thay đổi. Nguồn: https://searchengineland.com/