Các câu hỏi thường gặp: Tất cả về thuật toán RankBrain của Google

Google sử dụng một công nghệ máy-học có tên RankBrain để giúp truyền tải các kết quả tìm kiếm của mình. Sau đây là những gì chúng ta biết về nó.

google-brain-data2-ss-1920

Google sử dụng một hệ thống trí thông minh nhân tạo có tên gọi “RankBrain” để giúp cho việc sắp xếp các kết quả tìm kiếm của mình. Bạn có tự hỏi hệ thống đó làm việc thế nào và nó phù hợp thế nào với hệ thống xếp hạng tổng thể của Google? Sau đây là những gì chúng ta biết về RankBrain.

Các thông tin dưới đây đến từ ba nguồn chính thống và được cập nhật theo thời gian, với các ghi chú về việc các cập nhật xảy ra ở đâu. Đó là ba nguồn: Đầu tiên đó là bài báo của Bloomberg về RankBrain (http://www.bloomberg.com/news/articles/2015-10-26/google-turning-its-lucrative-web-search-over-to-ai-machines). Thứ hai là thông tin bổ sung mà Google cung cấp trực tiếp cho Search Engine Land. Thứ ba, là hiểu biết và dự đoán của chúng tôi về những gì mà Google không cung cấp câu trả lời. Chúng tôi sẽ nói rõ về việc các nguồn thông tin đó được sử dụng ở đâu, khi xét thấy cần thiết, ngoài các thông tin cơ bản.

RankBrain là gì?

RankBrain là tên Google đặt cho một hệ thống trí thông minh nhân tạo máy-học được sử dụng để giúp cho việc xử lý các kết quả tìm kiếm, như được báo cáo bởi Bloomberg và đồng thời được Google xác nhận với chúng tôi.

Máy-học là gì?

Máy-học là việc một máy tính tự dạy cho mình làm thế nào để làm việc gì đó, chứ không phải là được dạy bởi con người hoặc tuân theo lập trình chi tiết.

Trí thông minh nhân tạo là gì?

Trí thông minh nhân tạo thực sự, hoặc gọi tắt là AI, là việc một máy tính có thể thông minh như con người, ít nhất là trong việc thu thập kiến thức được dạy và cả việc xây dựng kiến thức dựa trên những gì nó biết và tạo các liên kết mới.

Tất nhiên AI thực sự chỉ tồn tại trong các tiểu thuyết khoa học viễn tưởng. Trong thực tế, AI là những hệ thống máy tính được thiết kế để học hỏi và tạo các liên kết.

Ai khác với máy-học thế nào? Với RankBrain thì dường như chúng gần tương tự nhau. Bạn có thể thấy chúng được dùng lẫn, hoặc bạn có thể thấy máy-học được sử dụng để miêu tả kiểu tiếp cận trí thông minh nhân tạo được sử dụng.

Vậy RankBrain là cách mới để Google xếp hạng kết quả tìm kiếm?

Không. RankBrain là một phần của “thuật toán” tìm kiếm của Google, một chương trình máy tính sắp xếp vài tỷ trang web mà nó biết và tìm những trang phù hợp nhất cho những truy vấn cụ thể.

Thuật toán tìm kiếm của Google tên là gì?

google-hummingbird1-ss-1920-800x450

Nó được gọi là Hummingbird, như chúng tôi đã nói đến trước đây. Trong hàng năm trời, thuật toán không có tên chính thức. Nhưng giữa năm 2013, Google đại tu lại thuật toán đó và cho nó một cái tên, là Hummingbird.

Vậy RankBrain là một phần của thuật toán tìm kiếm Hummingbird của Google?

Đây là cách hiểu của chúng tôi. Hummingbird là thuật toán tìm kiếm tổng thể, giống như một chiếc xe có động cơ tổng thể. Bản thân động cơ có thể được tạo thành từ nhiều phần, như là lọc dầu, bơm dầu, tản nhiệt và tương tự thế. Giống vậy thì Hummingbird gồm nhiều phần, và RankBrain là phần mới nhất.

Cụ thể thì chúng ta biết được RankBrain là một phần của thuật toán Hummingbird bởi vì bài báo trên Bloomberg nói rõ rằng RankBrain không xử lý mọi tìm kiếm như thuật toán tổng thể.

Hummingbird đồng thời bao gồm các phần khác với tên quen thuộc với những người làm SEO, như Panda, Penguin và Payday được thiết kế để chống lại spam, Pigeon được thiết kế để cải thiện kết quả địa phương, Top Heavy được thiết kế để giáng cấp các trang quá nhiều quảng cáo, Mobile Friendly được thiết kế để vinh danh những trang web thân thiện với thiết bị di động và Pirate được thiết kế để chống lại sự vi phạm bản quyền.

Tôi đã từng nghĩ là thuật toán Google được gọi là “PageRank”

PageRank là một phần của thuật toán Hummingbird hoạt động theo một cách cụ thể là tăng tín nhiệm cho các trang web dựa trên các liên kết từ những trang khác trỏ đến chúng.

PageRank đặc biệt vì nó là cái tên đầu tiên mà Google đặt cho một phần của thuật toán xếp hạng của mình, từ lúc mà công cụ tìm kiếm khởi tổ vào năm 1998.

Các “dấu hiệu” mà Google sử dụng cho xếp hạng thì sao?

Các dấu hiệu là những thứ mà Google sử dụng để giúp cho việc xác định việc xếp hạng trang web thế nào. Ví dụ như nó sẽ đọc các từ ngữ trên trang web, vậy từ ngữ là một dấu hiệu. Nếu vài từ ngữ được in đậm, đó có thể là một dấu hiệu khác được chú ý. Các tính toán được sử dụng bởi PageRank đưa cho trang web một điểm số PageRank được sử dụng như một dấu hiệu. Nếu một trang web được chú ý vì thân thiện với di động, đó là một dấu hiệu khác được ghi nhận.

Tất cả những dấu hiệu này được xử lý bởi nhiều phần trong thuật toán Hummingbird để xác định xem những trang nào Google sẽ hiển thị khi hồi đáp các tìm kiếm khác nhau.

Có bao nhiêu dấu hiệu?

periodic-table-of-seo-2015-800x548

Google thường nói rằng họ có trên 200 dấu hiệu xếp hạng chính mà việc đánh giá chúng sẽ có thể lên tới 10.000 biến thể hoặc dấu hiệu con. Thường thì họ nói có “hàng trăm” yếu tố, như là trong bài báo của Bloomberg hôm qua. Nếu bạn muốn có một hướng dẫn trực quan hơn về các dấu hiệu xếp hạng, hãy xem bảng tuần hoàn về các yếu tố thành công của SEO của chúng tôi:

Chúng tôi nghĩ đây là một hướng dẫn khá hay, về những điều thông thường mà các công cụ tìm kiếm như Google sử dụng để giúp cho việc xếp hạng trang web.

Và RankBrain là dấu hiệu quan trọng thứ ba?

Đúng thế. Đột nhiên một hệ thống mới trở thành thứ mà Google nói là một yếu tố quan trọng thứ ba trong việc xếp hạng trang web. Từ bài báo của Bloomberg: RankBrain là một trong “hàng trăm” dấu hiệu trong một thuật toán xác định việc kết quả nào xuất hiện trên trang tìm kiếm Google và chúng được xếp hạng thế nào, Corrado nói vậy. Trong vài tháng khi nó được triển khai, RankBrain đã trở thành yếu tố quan trọng thứ ba đóng góp vào kết quả cho một truy vấn tìm kiếm, ông ấy nói thế.

Dấu hiệu quan trọng đầu tiên và thứ hai là gì?

Lúc ban đầu khi bài báo này được viết, Google đã không trả lời chúng tôi. Dự đoán của chúng tôi là: Dự đoán cá nhân của tôi là các liên kết vẫn tồn tại như một dấu hiệu quan trọng nhất, các mà Google đếm số liên kết theo kiểu phiếu bầu. Nó cũng là một hệ thống lạc hậu, khi mà tôi đã nói về nó trong bài báo Các liên kết: “Hòm phiếu” cũ nát được sử dụng bởi Google và Bing (http://marketingland.com/links-the-broken-ballot-box-used-by-google-bing-17139) trước đây.

Với dấu hiệu quan trọng thứ hai, tôi đoán rằng nó là “từ ngữ”,khi từ ngữ có thể bao gồm mọi thứ từ những từ ngữ đến việc Google xử lý từ ngữ mà mọi người điền vào hộp tìm kiếm ngoài phân tích của RankBrain.

Điều đó thành ra khá chính xác. Vào tháng Ba năm 2016, Google công bố hai yếu tố đầu tiên là nội dung và các liên kết. Hoặc các liên kết và nội dung, vì họ không nói rằng thứ gì là nhất. Để thêm thông tin, hãy xem bài báo sau của chúng tôi: http://searchengineland.com/now-know-googles-top-three-search-ranking-factors-245882.

Chính xác là RankBrain làm gì?

Từ việc viết thư cho Google, tôi thu thập thông tin rằng RankBrain được sử dụng chính như một cách xử lý các tìm kiếm mà mọi người điền vào để tìm các trang web mà không có các từ ngữ chính xác như được tìm kiếm.

Không phải là Google đã có các cách để tìm trang mà không cần truy vấn chính xác được điền vào?

Đúng, Google đã và đang tìm kiếm các trang mà không cần các cụm chính xác được điền vào trong một thời gian dài. Ví dụ, hàng năm trước đây, nếu bạn điền vào thứ gì đó như “shoe”, Google có lẽ không tìm thấy các trang có nói đến “shoes”, bởi vì chúng thực sự là hai từ khác nhau. Nhưng việc “bóc tách” cho phép Google thông minh hơn, để hiểu được rằng shoes là một biến thể khác của shoe, giống như là “running” là một biến thể của “run”.

Google cũng thông minh hơn với việc nhận biết đồng nghĩa, vì thế nếu bạn tìm kiếm “sneakers” nó có thể hiểu bạn cũng có ý nói đến “running shoes”. Nó thậm chí cũng thông minh hơn về mặt khái niệm, khi hiểu được những trang về “Apple” công ty công nghệ khác với “apple” trái cây.

Knowledge Graph thì sao?

Knowledge Graph được ra mắt vào năm 2012, là cách mà Google lớn mạnh thông minh hơn về các kết nối giữa từ ngữ. Quan trọng hơn, nó học các làm thế nào tìm kiếm cho “vật chứ không phải chuỗi” như Google đã mô tả.

Các chuỗi có nghĩa là chỉ tìm kiếm cho các chuỗi ký tự, như là các trang phù hợp với chuỗi “Obama”. Vật có nghĩa là thay vì thế, Google hiểu được ai đó tìm kếm “Obama” thì ý họ là tổng thống Mỹ Barack Obama, một con người thực sự có các liên kết tới những người, địa điểm và những thứ khác.

Knowledge Graph là một bộ dữ liệu về những sự vật trên thế giới và mối liên hệ giữa chúng với nhau. Nó trả lời tại sao bạn tìm kiếm “vợ của Obama sinh lúc nào” và nhận được câu trả lời về Michele Obama như ở dưới, mà không cần sử dụng tên bà ấy:

when_was_the_wife_of_obama_born_-_Google_Search-800x573

RankBrain giúp cho việc tinh chỉnh các truy vấn thế nào?

Các phương thức Google sử dụng để tinh chỉnh các truy vấn thường là đưa trả về cho ai đó ở đâu đó làm việc này, hoặc là tạo ra các danh sách bóc tách hoặc danh sách đồng nghĩa hoặc tạo các cơ sở kết nối giữa các sự vật. Chắc chắn là có quá trình tự động nào đó tham gia vào đây. Nhưng phần lớn nó phụ thuộc vào con người.

Vấn đề là Google xử lý ba tỷ tìm kiếm một ngày. Năm 2007, Google nói rằng 20 phần trăm đến 25 phần tram các truy vấn đó chưa từng được thấy trước đây. Năm 2013, họ đưa con số đó xuống 15 phần trăm, con số được sử dụng trong bài báo của Bloomberg hôm qua và là con số Google xác nhận lại với chúng tôi. Nhưng 15 phần trăm của ba tỷ vẫn là một con số truy vấn lớn chưa bao giờ được nhập bởi bất cứ một người tìm kiếm nào – 450 triệu một ngày.

Trong số chúng có thể là các truy vấn phức tạp, nhiều từ ngữ, còn gọi là truy vấn “đuôi dài”. RankBrain được thiết kế để giúp xử lý các truy vấn đó tốt hơn và biên dịch chúng hiệu quả, theo cách hoạt động phía sau, để tìm ra những trang tốt nhất cho người tìm kiếm.

Như Google nói với chúng tôi, họ có thể thấy các khuôn mẫu giữa những người tìm kiếm phức tạp dường như không có liên quan, để hiểu được làm thế nào mà chúng thực sự có điểm tương tự nhau. Sự học hỏi này cho phép họ hiểu rõ hơn về các tìm kiếm phức tạp tương lai và chúng có liên quan đến các chủ đề cụ thể hay không. Quan trọng nhất từ những gì Google nói với chúng tôi, họ có thể kết hợp các nhóm tìm kiếm đó với các kết quả mà họ nghĩ rằng người tìm kiếm sẽ thấy hài lòng nhất.

Google đã không đưa ra các ví dụ về những nhóm tìm kiếm hoặc đưa ra chi tiết về việc làm thế nào RankBrain đoán được đâu là trang tốt nhất. Nhưng việc thứ hai là có thể vì nếu nó có thể biên dịch một tìm kiếm mơ hồ thành thứ gì đó cụ thể hơn, nó có thể đem lại câu trả lời tốt hơn.

Một ví dụ thì thế nào?

Trong khi Google không đưa ra những nhóm tìm kiếm, bài báo trên Bloomberg đã đưa ra một ví dụ về một tìm kiếm mà RankBrain có thể đã trợ giúp. Đó là:

What’s the title of the consumer at the highest level of a food chain (Tên của loài tiêu thụ ở mức độ cao nhất của chuỗi thức ăn).

Với người như tôi thì “consumer” nghe giống như là liên quan đến ai đó mua thứ gì đó. Tuy nhiên nó là một cụm từ khoa học cho thứ gì đó tiêu thụ thức ăn. Cũng có các cấp độ của loài tiêu thụ trong một chuỗi thức ăn. Loài tiêu thụ ở mức cao nhất? Tên của chúng là “động vật ăn thịt”.

Gõ truy vấn đó vào Google đưa ra các câu trả lời tốt, mặc dù bản thân truy vấn nghe có vẻ khá kỳ lạ:

Hãy tưởng tượng rằng RankBrain kết nối truy vấn dài và phức tạp ban đầu đến với truy vấn ngắn hơn nhiều, có lẽ là thứ thường được sử dụng. Nó hiểu rằng chúng giống nhau. Kết quả là Google có thể tận dụng tất cả những gì họ biết về việc có câu trả lời cho truy vấn thông thường hơn để giúp cải thiện những gì họ cung cấp cho những truy vấn không thông thường.

Hãy để tôi nhấn mạnh rằng tôi không biết rằng RankBrain kết nối hai tìm kiếm đó. Tôi chỉ biết rằng Google đưa ra ví dụ đầu tiên. Đây đơn giản là một phác hoạ về việc RankBrain có thể kết nối một tìm kiếm không thông thường với một tìm kiếm thông thường như thế nào để cải thiện mọi thứ.

Bing có thể làm điều này không, với RankNet?

Vào năm 2005, Microsoft bắt đầu sử dụng hệ thống máy-học của họ gọi là RankNet như là một phần của thứ trở thành công cụ tìm kiếm Bing ngày nay. Thực tế thì người lãnh đạo nghiên cứu và xây dựng RankNet được vinh danh gần đây. Nhưng theo thời gian thì Microsoft càng nói rất ít về RankNet.

Bạn có thể cho rằng điều đó có khả năng thay đổi. Cũng thú vị khi tôi điền tìm kiếm trên vào Bing, khi biết rằng ví dụ trên cho thấy RankBrain tuyệt thế nào, Bing cho tôi các kết quả tốt, gồm một danh sách mà Google cũng trả về:

Một ví dụ không có nghĩa là RankNet của Bing tốt như RankBrain của Google hoặc ngược lại. Thật không may là rất khó để đưa ra một danh sách để làm so sánh kiểu như vậy.

Có ví dụ nào nữa không?

Google đã đưa cho chúng ta một ví dụ mới: “Có bao nhiêu chiếc thìa trong một cái cốc?”. Google nói RankBrain ưu thích những kết quả khác nhau tại Úc so với Mỹ cho truy vấn này vì đơn vị đo ở mỗi nước là khác nhau, mặc cho tên giống nhau.

What’s_the_title_of_the_consumer_at_the_highest_level_of_a_food_chain_-_Bing-800x585

Tôi đã thử điều này bằng cách tìm kiếm ở Google.com so với Google Úc. Bản thân tôi không thấy nhiều khác biệt. Thậm chí không có RankBrain, các kết quả sẽ thường khác nhau chỉ vì các biện pháp “cũ” ưu tiên các trang web từ các trang web tại Úc cho những người tìm kiếm sử dụng Google Úc.

What’s_the_title_of_the_consumer_at_the_highest_level_of_a_food_chain_-_Google_Search-794x600

RankBrain có thực sự hữu ích không?

Dù cho hai ví dụ trên của tôi không thể là minh chứng cho sự tuyệt vời của RankBrain, tôi thực sự tin rằng nó có thể đang tạo ra một tác động lớn, như Google tuyên bố. Công ty này khá thận trọng với những gì thuộc về thuật toán xếp hạng của mình. Họ tiến hành các thử nghiệm nhỏ vào mọi lúc. Nhưng họ chỉ phát hành các thay đổi lớn khi họ đủ độ tự tin.

Tích hợp RankBrain, đến một mức độ mà nó được cho là dấu hiệu quan trọng thứ ba, là một thay đổi lớn. Nó không phải là thứ Google sẽ làm trừ khi họ thực sự tin rằng nó sẽ giúp ích.

What’s_the_title_of_the_consumer_at_the_highest_level_of_a_food_chain_-_Google_Search-794x600

RankBrain đã bắt đầu lúc nào?

Google nói với chúng tôi rằng đã có một sự khởi động dần dần của RankBrain vào đầu 2015 và nó đã hoàn toàn hoạt động trên phạm vi toàn cầu đến giờ đã là vài tháng.

Những truy vấn nào bị ảnh hưởng?

Vào tháng Mười 2015, Google nói với Bloomberg rằng “một phần rất lớn” của 15 phần trăm truy vấn thường chưa bao giờ được thấy trước đây được xử lý bởi RankBrain. Tóm lại là 15 phần trăm hoặc ít hơn.

Vào tháng Sáu 2016, các tin tức cho biết RankBrain được sử dụng cho mọi truy vấn mà Google xử lý. Xem bài báo của chúng tôi về chuyện đó: http://searchengineland.com/google-loves-rankbrain-uses-for-every-search-252526.

RankBrain có luôn học hỏi không?

Tất cả những học hỏi của RankBrain đều là không trực tuyến, Google đã nói vậy với chúng tôi. Nó được nạp các tập lịch sử tìm kiếm và học để dự đoán từ những thứ đó.

Các dự đoán đó được thử nghiệm, và nếu được chứng minh là tốt, thì phiên bản mới nhất của RankBrain được đưa trực tuyến. Sau đó thì vòng lặp học-không-trực-tuyến-và-thử-nghiệm sẽ được lặp lại.

RankBrain có làm gì hơn ngoài tinh chỉnh truy vấn không?

Thông thường thì việc một truy vấn được tinh chỉnh – qua việc bóc tách, tìm đồng nghĩa hay giờ là RankBrain – không được cho là một yếu tố hoặc dấu hiệu xếp hạng.

Các dấu hiệu là các yếu tố thông thường được gắn với nội dung, như là các từ ngữ trên một trang, các liên kết trỏ về một trang, một trang web có ở trên một máy chủ an toàn hay không và tương tự thế.

Vậy khi Google nói về RankBrain như là một dấu hiệu quan trọng thứ ba, ý họ có thực sự là một dấu hiệu xếp hạng? Đúng vậy. Google tái khẳng định với chúng tôi là có một thành phần mà RankBrain đóng góp trực tiếp bằng cách nào đó vào việc xếp hạng một trang web?

Chính xác là thế nào? Có phải là có kiểu “điểm số RankBrain” mà nó đánh giá chất lượng không? Có lẽ vậy, nhưng dường như RankBrain bằng cách nào đó đang trợ giúp Google phân loại các trang web tốt hơn dựa trên nội dung mà chúng chứa đựng. RankBrain có khả năng tổng kết tốt hơn về nộ dung trang hơn là những hệ thống hiện tại của Google. Hoặc không như thế. Google không nói gì ngoài việc một thành phần xếp hạng có liên quan.

Tôi có thể tìm hiểu thêm về RankBrain thế nào?

Google nói với chúng tôi mọi người muốn tìm hiểu về từ “vectors” – cách mà các từ ngữ và cụm từ có thể liên kết theo toán học – có thể đọc bài viêc blog này (http://google-opensource.blogspot.com/2013/08/learning-meaning-behind-words.html), nó nói về việc làm thế nào hệ thống (không được gọi là RankBrain trong bài viết) học hỏi về khái niệm của các thành phố thủ đô của các đất nước chỉ bằng cách quét các bài tin tức:

image00-800x593

Có một bài nghiên cứu dài hơn mà bài này dựa trên ở đây (http://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf). Bạn có thể tạo dự án máy-học của riêng mình sử dụng công cụ word2vec của Google. Thêm vào đó Google có một khu vực riêng dành cho các bài nghiên cứu về AI và máy-học, cũng như Microsoft (http://research.google.com/pubs/ArtificialIntelligenceandMachineLearning.html).Đồng thời hãy xem bài báo của chúng tôi: http://marketingland.com/how-machine-learning-works-150366.

Lưu ý: Bài báo này đã được chỉnh sửa so với bản ban đầu phát hành tháng Mười 2015 để cập nhật thông tin mới nhất.

Nguồn: http://searchengineland.com/