Cộng tác viên Dave Davies giải mã một bằng sáng chế mới của Google về cách mà máy học có thể dự đoán một giá trị tín hiệu xếp hạng khi giá trị đó chưa được biết. Google gần đây có đệ trình một bằng sáng chế với các ứng dụng thực tế rộng rãi. Bằng sáng chế này là về cách mà với máy học, họ có thể dự đoán một giá trị tín hiệu xếp hạng khi giá trị đó chưa biết. Với lượng nội dung lớn trên internet và càng tăng lên hàng ngày, Google cần tìm một cách để gán giá trị tới các trang web dù chúng chưa được thu thập dữ liệu và lập chỉ mục. Làm thế nào mà một trang web được xếp hạng khi Google chưa thu thập dữ liệu của nó? Làm thé nào Google sử dụng một nội dung mới mà không có liên kết trỏ về? Các phương thức trong bằng sáng chế này cho thấy cách mà thuật toán Google sẽ xử lý và tính toán các yếu tố chưa biết và sử dụng chúng để xác định xem liệu một trang web được xếp ở đâu. Chúng ta sẽ bàn luận về các thực thi Google có thể sử dụng và một vài vấn đề chúng giúp ích cho các chuyên gia SEO. Nhưng trước khi bắt đầu, tôi thấy cần phải đưa ra các luận điểm của mình. Chỉ vì thứ gì đó được đăng ký bản quyền, cũng không có nghĩa là nó được kết hợp vào trong một thuật toán. Chúng ta cần phải cân nhắc về khả năng của bằng sáng chế này, hay các phần của nó, được sử dụng với những gì thấy quanh ta và điều gì có nghĩa. Nếu không có gì cả, thì nó đưa cho ta cái nhìn qua về những gì Google đang tiến hành. Với chủ đề và các phương pháp đưa ra trong bằng sáng chế này, tôi cho rằng nhiều khả năng ít nhất một số điều đã được sử dụng và có khả năng được mở rộng khi các hệ thống máy học phát triển. Bằng sáng chế 20180157758 Hãy bắt đầu bằng cách tìm hiểu kỹ các điều cơ bản. Nếu bạn quan tâm đến bản gốc thì bạn có thể tìm thấy bằng sáng chế đầy đủ ở đây (http://appft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&co1=AND&d=PG01&s1=20180157758&OS=20180157758&RS=20180157758), nhưng tôi sẽ nói về các ứng dụng từ bằng sáng chế này, chúng có ý nghĩa gì và có thể được sử dụng thế nào. Hãy bắt đầu với một hình ảnh từ bằng sáng chế này, có thể không có ý nghĩa gì nhưng sẽ giúp bạn khi tôi giải thích phía dưới: Hãy chú ý tới mục 150 và 160 trong hình ảnh trên. Hai yếu tố này là quan trọng và đó là thứ chúng ta sẽ nói đến, khi máy học được sử dụng để giải quyết các vấn đề lớn mà giới SEO đã phàn nàn nhiều năm. Vấn đề Trong khi vấn đề mà ta sẽ bàn luận có nhiều ứng dụng, thì bằng sáng chế này nói đến một vấn đề chính trong phần 0008: Hệ thống tìm kiếm có thể cập nhật một chỉ mục cong cụ tìm kiếm, thứ lập chỉ mục các nguồn với giá trị được tạo ra của các tín hiệu xếp hạng công cụ tìm kiếm với nguồn đó và các giá trị được tạo ra sau đó có thể được sử dụng bởi công cụ tìm kiếm trong việc xếp hạng các nguồn. Vì thế độ hoàn thiện của chỉ mục công cụ tìm kiếm, và độ chính xác và hiệu quả của công cụ tìm kiếm có thể được cải thiện. Về cơ bản, chúng chỉ báo một vấn đề lớn: Với sự vắng mặt của một giá trị tín hiệu xếp hạng biết trước, không có cách nào để xếp hạng nội dung, dù cho nội dung phù hợp tốt nhất cho một truy vấn cụ thể. Khi không có liên kết Hãy xem xét tính toán đơn giản sau đây với liên kết cho một nội dung mới: Số lượng liên kết (tín hiệu a) = chưa biết hay không có Độ phù hợp của nội dung (tín hiệu b) = 9.8/10 Gía trị tên miền/PageRank nội bộ (tín hiệu c) = 9.2/10 Dựa trên tính toán này, ta biết được độ phù hợp của trang, và ta biết được độ mạnh của tên miền được đưa tới trang web; nhưng không biết được số lượng liên kết, làm thế nào Google có thể xếp hạng trang một cách đúng đắn? Làm thế nào Google có thể xếp hạng bất cứ trang nào nếu họ không biết được số lượng hay kiểu liên kết trỏ về mà trang đó có? Bất cứ công thức hay thuật toán nào sử dụng số lượng liên kết là số nhân sẽ bằng 0. Với một giá trị tín hiệu chưa biết, không tính toán nào là đúng, và Google sẽ không thể tạo ra kết quả tốt nhất. Là người làm SEO, ta có một vấn đề tương tự: Bạn không thể xếp hạng mà không có liên kết, và khó để có liên kết cho nội dung không có thứ hạng, thậm chí với nội dung tốt nhất cho truy vấn đó. Các phương pháp trong bằng sáng chế này cho thuật toán khả năng dự đoán một giá trị đến khi nó được xác nhận. Yếu tố dự đoán này có thể là phần thú vị nhất, vì nó sử dụng thử nghiệm nhanh và tăng tốc việc triển khai các hiệu chính máy học. Trong khi một loạt các hoán vị được thảo luận trong bằng sáng chế này, trọng tâm của nó là việc huấn luyện một hệ thống máy học tạo ra một giá trị cho tín hiệu xếp hạng khi chưa có giá trị đó. Câu chuyện về hai chỉ mục Phương pháp trong bằng sáng chế này yêu cầu hai chỉ mục. Chúng không phải là chỉ mục tìm kiếm ta sử dụng hàng ngày. Trong khi mục đích có thể áp dụng nó tới chỉ mục thông thường, trước đó Google sẽ sử dụng hai chỉ mục đóng, khác với chỉ mục tìm kiếm thông thường. Để mô tả, ta sẽ gọi chúng là chỉ mục A và B. Với chỉ mục A, các tín hiệu xếp hạng được biết trước và áp dụng để huấn luyện thuật toán hiểu được điểm bắt đầu của nó. Thuật toán cũng được đưa cho các trang và liên kết trỏ về. Khi thuật toán đã được huấn luyện để hiểu được một trang web được cấu trúc thế nào và đã thích ứng với các thành phần liên quan như liên kết trỏ về, một giá trị được chỉ định, và các giá trị tín hiệu sau đó được áp dụng vào chỉ mục thứ hai. Trong chỉ mục B, các giá trị tín hiệu được biết với thuật toán nhưng không được kết hợp vào hệ thống máy học. Chỉ mục B tự huấn luyện bản thân bằng cách học về nơi mà nó đưa yếu tố cân nhắc và nơi mà nó không dựa trên thông tin từ chỉ mục A. Tại chỉ mục thứ hai mọi thứ trở nên thú vị hơn, vì thuật toán cũng xem xét các truy vấn bổ sung có thể áp dụng vào các tín hiệu xếp hạng. Khi thuật toán trong chỉ mục B cố gắng dự đoán một kết quả đơn lẻ, nó sẽ luôn sai lệch một chút, nhưng khi dự đoán nhiều kết quả, các dự đoán trở nên chính xác hơn. Vì “hiệu ứng số đông”, chỉ mục B cho phép tự sửa lỗi (đó là lúc máy học làm việc) và làm thế bằng cách kết hợp các truy vấn bổ sung và những gì nó học được. Nếu hệ thống trong chỉ mục B có thể xác định một giá trị tín hiệu cho một số truy vấn liên quan, điều này có thể trợ giúp trong việc tạo ra các giá trị chưa được biết của truy vấn ban đầu. Tại sao điều này quan trọng? Luôn giá trị để hiểu được cách công cụ tìm kiếm làm việc, nhưng trực tiếp, nó giá trị để hiểu được hệ thống sẽ cho phép các trang và nguồn mới được xếp hạng nhanh hơn. Hệ thống hai chỉ mục mô tả phía trên có các trình mã hóa và giải mã. Trình mã hóa thăm một trang web và tạo ra một trình diễn được mã hóa. Mặc dù tôi không biết thực sự điều này trông thế nào, nhưng dựa trên nhiều trích dẫn tới các thực thể trong bằng sáng chế này, thì nó có khả năng là một sắp đặt của các thực thể trong trang web và các quan hệ được biết tới các thực thể khác trong chỉ mục hay trong các nguồn khác. Google đã được cấp một bằng sáng chế cho phép họ xếp các nguồn mới (các trang web) sử dụng các tín hiệu xếp hạng. Bằng sáng chế này cũng sử dụng việc tạo ra các tín hiệu mới bởi các kỹ sư hay hệ thống máy học khác và cho phép thuật toán tổng thể xếp hạng các trang chưa được chỉ định giá trị. Nội dung hay nguồn mới có thể được đặt giá trị dựa trên liên kết, thông số hành vi người dùng và chất lượng nội dung họ có thể có. Hay đơn gián là họ tìm được cách để dự đoán tương lai tìm kiếm. Đáng chú ý hơn là thực tế rằng hệ thống này cung cấp một cách thức để cho phép các hệ thống máy học khả năng tạo ra các tín hiệu của bản thân chúng. Con người không còn phải cho thuật toán biết thứ gì là quan trọng: Máy học dạy thuật toán tìm kiếm, xác định và chỉ định giá trị tới các tín hiệu. Bạn có thể sử dụng bằng sáng chế này thế nào Mặc dù việc bạn tác động trực tiếp đến máy học là rất nhỏ, bạn có thể gián tiếp tạo sự khác biệt bằng cách tiếp tục tạo ra nội dung tốt và quảng cáo cho sự phát triển của các liên kết tốt. Xem xét nội dung trên trang của bạn và tìm ra kiểu nội dung có tạo ra truy cập và liên kết là các thông số mà Google có thể đo lường thông qua các công cụ thống kê và tìm kiếm của họ. Theo quan điểm của tôi, đây là các tín hiệu mà hệ thống máy học sẽ sử dụng. Nếu nội dung hiện thời của bạn xếp hạng tốt, tạo ra liên kết, nhấp chuột và chia sẻ, nội dung mới có thể được dự đoán cũng làm được tương tự. Đánh giá lại các thống kê và liên kết trỏ về của bạn và lưu ý những gì bạn đang làm đúng, và để cho điều đó tạo cảm hứng cho các nỗ lực nội dung và và xây dựng liên kết mới. Ngược lại, hãy lưu ý những gì không làm tốt. Cũng như thuật toán lưu ý các thành công, nó cũng lưu ý các thất bại. Nếu xu hướng trên trang web của bạn là tích cực, bạn có nhiều khả năng sẽ được vinh danh, và nếu nó là tiêu cực, thì điều ngược lại có thể xảy ra. Và nếu bạn không được xếp hạng nhanh chóng, đặc biệt là với nội dung nhạy cảm với thời gian, bạn có khả năng sẽ không nhận được tín hiệu bạn muốn để xếp hạng cho nội dung tiếp theo. Nguồn: https://searchengineland.com/