Google đã thông minh hơn trong việc nhận biết được các cách cách viết khác nhau về cùng một thực thể, tuy nhiên nhà báo Paul Shapiro nhận thấy nó chưa hẳn đã hoàn hảo. Vợ tôi có một vấn đề hỏi tôi. Cô ấy muốn mấy bộ đồ ngủ phù hợp với Hanukkah (lễ hội truyền thống của người Do Thái). Nhưng không có đủ lựa chọn trong Google khi gõ vào tìm kiếm ngày lễ này, vì thế cô ấy nói với tôi là cô ấy đã tiến hành tất cả các các viết để thu thập danh sách mua sắm của mình. Tôi khá bất ngờ với điều này – tôi kỳ vọng là Google sẽ đủ thông minh để nhận ra được là có các cách viết khác nhau về cùng một thứ, đặc biệt là thời kỳ hậu Hummingbird. Rõ ràng trường hợp này không như thế. Vài kiến thức cơ bản cho những ai không biết: Hanukkah thực tế là một từ chuyển ngữ từ tiếng Do Thái. Do tiếng Do Thái có bảng chữ cái riêng, nên có nhiều cách viết mà người ta có thể dùng khi nói đến nó: Hanukkah, Chanukah, và Channukah là các cách viết được chấp nhận về ngày lễ này. Vì vậy khi ai đó tìm kiếm về “đồ ngủ Hanukkah” hay “đồ ngủ Chanukah”, Google nên đủ thông minh để hiểu được chúng là các cách viết khác nhau về cùng một khái niệm và cung cấp các kết quả gần giống nhau. Nhưng Google đã không thế! Tôi tưởng tượng rằng điều này xảy ra với các ngày lễ và các cái tên khác trong các nền văn hóa khác nhau, và tôi rất muốn biết xem có bạn đọc nào gặp phải cùng vấn đề như thế không. Tại sao tôi ngạc nhiên khi Google trả về các kết quả khác nhau với các cách viết khác nhau? Vì với sự giới thiệu Knowledge Graph (và Hummingbird), Google đã báo hiệu về một sự thay đổi với SEO. Hơn lúc nào hết, ta phải nghĩ về các tìm kiếm không chỉ đơn giản là các chuỗi ký tự, mà còn là các khái niệm thực tế có tương quan lẫn nhau. Điều này có nghĩa gì? Khi ai đó tìm kiếm về “Abraham Lincoln”, họ có nhiều khả năng tìm kiếm về tổng thống thứ 16 của Mỹ, hơn là các từ “Abraham” hay “Lincoln” riêng lẻ, hay là tên ông chú của họ, người cũng có tên là Abraham Lincoln. Và nếu họ tìm kiếm “đảng (party) Lincoln”, Google hiểu rằng nhiều khả năng họ nói về các đảng chính trị, thay vì các bữa tiệc tại thị trấn Lincoln, Massachusetts, vì đây là một khái niềm gần gũi với nhân vật lịch sử Abraham Lincoln. Tương tự thế, Google chắc chắn hiểu được rằng khi ta sử dụng từ khóa Hanukkah, là liên quan tới ngày lễ và các cách viết khác của nó cũng liên quan tới cùng một sự việc. Dù có cách viết khác nhau, thì các tìm kiếm đó cũng có nghĩa về một thứ. Nhưng chúa ơi, trường hợp của vợ tôi cho thấy cần phải chạy các tìm kiếm khác nhau với mỗi cách viết để tìm được hết các lựa chọn đồ ngủ, thì Google đã không làm tốt. Vậy vấn đề tìm kiếm Chanukah/Hanukkah/Chanukkah đến mức thế nào? Sau đây là vài kết quả tìm kiếm cho Chanukah:

hanu1

chanukah-pajams-530x400

Như bạn thấy ở ảnh chụp màn hình đầu tiên thì các nhà bán lẻ lớn như Target, Macy’s hay JCPenney được xếp ở trang đầu của Google. Với ảnh chụp màn hình thứ hai, họ biến mất – và các trang như PajamaGram và Etsy thống trị với các viết khác nhau trong trang kết quả tìm kiếm. Điều này nghĩa là các cửa hàng nhắm tới các khách hàng Hanukkah thực tế đã giảm thiểu số lượng khách hàng tiềm năng của mình vì chỉ sử dụng một cách viết trên trang của họ. (Thực tế theo công cụ từ khóa của tôi, mặc dù “Hanukkah” có lượng tìm kiếm lớn nhất trong các biến thể là 301,100 tìm kiếm mỗi tháng toàn cầu, thì cá cách viết khác kết hợn vẫn có lượng tìm kiếm 55,500 – có nghĩa là các nhà bán lẻ tối ưu cho cả hai cụm từ có thể thấy truy cập tăng 18%). Khảo sát về các biến thể Vì tôi là người tò mò, nên tôi muốn khảo sát vấn đề này hơn một chút. Tôi xây dựng một công cụ nhỏ và đơn giản cho thấy các trang kết quả tìm kiếm có mức độ tương tự nhau thế nào với hai truy vấn khác nhau bằng cách phân tích danh sách xuất hiện trên cả hai trang tìm kiếm. Nếu ta xem xét 5 cách viết của Hanukkah, ta sẽ thấy như sau:

chaku

Công cụ này cho thấy điều khá thú vị: Không chỉ các kết quả khác nhau, và phụ thuộc vào cách viết, các kết quả có thể chỉ có 20% tương tự, nghĩa là 8 trên 10 kết quả ở trang 1 hoàn toàn khác nhau. Tôi sau đó thấy tò mò về việc tại sao các cụm từ không giống nhau, vì thế tôi xem Wikodata, một trong những nguồn chính mà Google sử dụng cho Knowledge Graph. Hóa ra là có một thực thể với mọi biến thể:

hanu2

  Sau đó tôi kiểm tra Google Knowledge Graph Search API, và rõ ràng là Google có thể đã nhầm lẫn:

chaku1

Giá trị điểm kết quả - theo tài liệu của API, nó chỉ báo “thực thể đó phù hơp với truy vấn thế nào” – là rất thấp. Trong trường hợp này, thực thể đó phù hợp tốt. Điều này đúng với các kết quả khác nhau nếu không có thực tế là Knowledge Graph đang trả lại với các cách viết khác nhau với Freebase ID /m/022w4 – khác với những gì được trả lại từ Knowledge Graph API. Vì vậy trong trường hợp này, dường như API không phải phương thức đáng tin cậy để giải quyết vấn đề. Hãy chuyển sang một phát hiện khác. Điều thú vị cần lưu ý là khi tìm kiếm Channukah, Google đẩy người dùng tới các kết quả Chanukah. Khi tìm kiếm Hannukah và Hannukkah, Google đẩy người dùng tới kết quả Hanukkah. Vì vậy Google dường như nhóm các cách viết Hanukkah vào với nhau dựa trên việc chúng bắt đầu với “H” hay “Ch”. Chanukah, Hannukah, and Hanukkah cũng là các biến thể duy nhất nhận được sự chăm sóc đặc biệt với hình ảnh Hanukkah:

hanu3

  Nhà bán lẻ sản phẩm Hanukkah nên làm gì Rõ ràng là nếu ta muốn tầm phủ đầy đủ các cụm từ, ta không thể dựa chỉ trên việc tối ưu cho biến thể có lượng tìm kiếm cao nhất của từ khóa, khi Google dường như không xem mọi biến thể là như nhau. Chắc chắn nhất là bạn bổ sung dòng chữ với mỗi cách viết ở đâu đó trên trang, thay vì việc dựa vào Google hiểu được chúng như là cùng một thứ. Nếu bạn ở quy mô nhỏ hơn, sẽ có ý nghĩa khi ưu tiên việc tối ưu với các cách viết kém phổ biến hơn, vì sự cạnh tranh có thể không đáng kể. (Tất nhiên điều này không ngăn việc bạn sử dụng các cách viết khác để giành phần thắng trong nhiều biến thể về cách viết. Tối thiểu là bạn có thể bổ sung một cách viết bắt đầu với H- và Ch- và hy vọng rằng Google sẽ điều hướng người dùng tới cùng một trang kết quả tìm kiếm trong hầu hết các trường hợp. Thử nghiệm sắp tới Tôi đã bắt đầu một thử nghiệm để xem rằng việc bổ sung dữ liệu cấu trúc với các thuộc tính sameAs (tương tự) có thể khiến Google hiểu một các viết duy nhất là một thực thể, loại trừ đi việc cần phải bổ sung các cách viết khác nhau. Hiện tại thì quá sớm để biết được kết quả của thử nghiệm này, và chúng không thể kết luận được, nhưng tôi mong muốn chia sẻ các kết quả này trong tương lai. Nguồn: https://searchengineland.com/