Có các vấn đề với việc trùng lặp nội dung? Gặp các vấn đề với các thẻ canonical của bạn? Nhà báo Marcus Miller giải thích tại sao các vấn đề này lại xảy ra và làm thế nào để sửa chữa chúng.

https-canonical-urls-and-301-redirects

Các công cụ tìm kiếm đang trở nên thông minh hơn. Không có gì nghi ngờ về điều đó. Tuy nhiên trong một môi trường web được thúc đẩy bởi CMS (hệ thống quản lý nội dung) nơi mà các nội dung có thể tồn tại trên vài đường dẫn, luôn luôn không rõ ràng là đường dẫn nào là tin cậy với một nội dung cho trước. Đồng thời, có nội dung trên vài đường dẫn có thể dẫn đến các vấn đề với liên kết và các tín hiệu xếp hạng bị chia tách qua nhiều biến thể của một nội dung. Cũng đã đủ khó khăn để nổi bật trong lĩnh vực tìm kiếm siêu cạnh tranh, vì thế bạn thường tưởng tượng rằng hầu hết các doanh nghiệp đều có các vấn đề SEO cơ bản trong tầm kiểm soát. Thật không may, kinh nghiệm của chúng tôi không cho thấy như thế. Thực tế thì dường như trong làn sóng các trang chuyển sang HTTPS để có thứ hạng hứa hẹn, chúng ta đang thấy càng hiều vấn đề về trùng lặp nội dung trên cơ sở đường dẫn hơn trước đây. May mắn là ta có thẻ canonical (thẻ tránh trùng lặp nội dung). Với dòng rel=canonical, ta có thể dễ dàng mô tả đường dẫn uy tín cho bất cứ nội dung nào. Google và các công cụ tìm kiếm khác sau đó sẽ củng cố liên kết và các tín hiệu xếp hạng cho tất cả các biến thể của nội dung này vào một đường dẫn duy nhất. Điều này xảy ra tất nhiên chỉ khi thẻ rel=canonical được thực thi đúng. Trong bài báo này, tôi sẽ xem xét việc thực thi không đúng các đường dẫn canonical có thể làm trầm trọng thêm vấn đề nội dung trùng lặp với cơ sở là đường dẫn như thế nào. Tôi cũng chia sẻ một ví dụ về một cửa hàng thương mại điện tử ở Anh gần đây đã thấy trang chủ của họ bị dừng lập chỉ mục (chỉ với trang chủ) vì một vấn đề mà cuối cùng dường như là các đường dẫn canonical. Sao chép tinh quái Cũng là bình thường khi một nội dung nào đó tồn tại ở nhiều đường dẫn. Nó có thể ở một trang web hoặc nhiều trang web. Nó có thể vì các tên miền phụ. Nó có thể vì hệ thống quản lý nội dung của bạn tạo ra nhiều lối vào cho một nội dung. Nó cũng có thể vì việc chạy trang của bạn với HTTPS theo các khuyến nghị mới nhất từ Google. Có nhiều tình huống có thể dẫn tới việc một nội dung tồn tại trên nhiều đường dẫn, nhưng những tình huống thường gặp nhất là: • Đường dẫn động - ví dụ như http://example.com/?post=1&var=2&var=3 • Các trang di đọng - ví dụ như m.example.com and www.example.com • Các trang quốc tế không có vị trí địa lý đúng • Các vấn đề với www và tên miền phụ - ví dụ như www.example.com or example.com • Hệ thống quản lý nội dung tạo ra nhiều đường dẫn • Cung cấp nội dung trên các trang blog khác • Chạy trang của bạn với cả HTTP và HTTPS Chúng ta cũng thường thấy một tập hợp của các vấn đề này, và cũng không lạ gì khi thấy các trang chạy HTTP và HTTPS và có nội dung trên các phiên bản www và không-www của trang. Điều này có thể nhanh chóng tạo ra một tình huống mà cùng một nội dung (hoặc trang chủ) có thể tồn tại trên vài đường dẫn khác nhau. Ví dụ chỉ với việc chạy trang có và không có www, và trên HTTP và HTTPS, ta có thể thạo ra bốn đường dẫn cho mọi nội dung trên trang: • http://example.com/page • http://www.example.com/page • https://example.com/page • https://www.example.com/page Hỗn loạn với thẻ canonical Trường hợp lý tưởng thì đường dẫn canonical sẽ giải quyết được điều này, và mỗi đường dẫn trong bốn đường dẫn trên sẽ có cùng đường dẫn canonical. Nó có thể là bất cứ đường dẫn nào ở trên, nhưng nếu bạn có HTTPS, bạn cũng có thể chạy với HTTPS, vì thế ví dụ là đường dẫn canonical của bạn là https://www.example.com. Bạn chèn dòng lệnh này vào đầu HTML của tất cả các phiên bản: <link rel="canonical" href="https://www.example.com" /> Tôi đã thấy các tranh luận về việc liệu trang canonical thực sự có hợp chuẩn với chính nó hay không - trong thực tế ta làm, tôi đã thấy ý kiến này được nói lại bởi nhiều người làm SEO khác trong nhiều năm (và chưa bao giờ gặp bất cứ vấn đề nào khi làm thế). Không may là những gì ta thấy gần đây là thẻ canonical hiện diện, nhưng mỗi trang có một canonical trùng với đường dẫn hiển thị trong cửa số trình duyệt. • http://example.com/page canonical = http://example.com/page • http://www.example.com/page canonical = http://www.example.com/page • https://example.com/page canonical = https://example.com/page • https://www.example.com/page canonical = https://www.example.com/page Rõ ràng điều này không ổn. Thẻ canonical được thiết kế để giải quyết các vấn đề này, nhưng với ví dụ trên, nó càng làm trầm trọng vấn đề thêm. Mỗi đường dẫn đều nói “Tôi, tôi, hãy lập chỉ mục cho tôi!!!”. Công cụ tìm kiếm sau đó phải làm những gì mà nó có thể với mớ hỗn độn này. Các vấn đề như vậy ảnh hưởng đến tín nhiệm. Tín nhiệm ảnh hưởng đến thứ hạng. Thứ hạng thấp ảnh hưởng đến doanh nghiệp bạn. Điều đó giống như là một bậc thầy SEO nói vậy, nhưng thực tế là thẻ canonical lỗi sẽ chỉ tác động đến các kết quả của bạn theo cách tiêu cực. Gần đây chúng tôi có làm việc với một doanh nghiệp Anh, họ thấy trang chủ của họ bị dừng lập chỉ mục một cách bí ẩn, và ảnh hưởng lớn đến các từ khóa lớn mà họ đang nhắm đến. Họ thường đứng cùng với amazon.co.uk và các thương hiệu lớn khác trong top 3, vì vậy không có chỗ cho các vấn đề này. Sau khi kiểm tra tất cả các nghi vấn, chúng tôi xác định các vấn đề đó là do thực thi thẻ canonical - điều này đã được sử, trang web đã được thu thập dữ liệu, và trang chủ xuất hiện lại như cũ. Tôi đã kinh ngạc, nhưng nó cho thấy sự quan trọng của kỹ thuật SEO bền vững. Rất may là điều này xảy ra và chúng tôi giải quyết được nó chỉ trước kỳ lễ Giáng Sinh - nhưng nếu các vấn đề này xảy ra bây giờ thì tác động tài chính có thể tệ hơn nhiều. HTTP và HTTPS Thay đổi chuyển sang HTTPS nhìn chung là một điều tốt. Các vấn đề bảo mật. Và trang web nhanh hơn trước. Tuy nhiên ta thấy có nhiều vấn đề ở đây, thường vì trang web được lập chỉ mục ở cả biến thể HTTP và HTTPS. Không may là ta cũng thường thấy các thẻ canonical sử dụng cả HTTP và HTTPS, điều một lần nữa làm trầm trọng hơn vấn đề mà thẻ canonical cần phải giải quyết. Tại sao điều này xảy ra Tôi tin rằng có vài lý do mà ta thấy các vấn đề này: 1. Trang web chạy trên HTTP và HTTPS, và hệ thống quản lý nội dung không có cách nào để gán giao thức hoặc tên miền phụ cho các đường dẫn canonical. 2. Các nhà phát triển có hướng tiếp cận từng bước với SEO, thực thi thẻ canonical mà không thực sự hiểu được nó để làm gì và sử dụng nó với thanh địa chỉ đường dẫn. Khắc phục các thẻ canonical của bạn Trong phần lớn các trường hợp, các vấn đề trùng lặp nội dụng có thể được giải quyết khá dễ dàng. Sửa thẻ canonical là một cách, nhưng điều này có thể khó khăn với vài phần mềm quản lý nội dung web, vì vậy ta có thể sử dụng chuyển hướng HTTP vĩnh viễn 301. Điều này thông thường là cách nhanh nhất và logic nhất để biến thể trang không được thu thập dữ liệu và Google khoogn cần phải phân tích nhiều trang - họ chỉ đơn giản đi theo các chuyển hướng. 1. Chuyển hướng 301. Nếu bạn có thể chuyển hướng thì hãy làm chuyển hướng. Đây là cách nhanh và được ưu dùng hơn, hư John Mueller từ Google đã nói. Chuyển hướng đến tên miền phụ bạn muốn. Chuyển hướng đến giao thức bạn muốn. Thường thì bạn có thể thực thi một quy tắc chuyển hướng đơn giản trên toàn bộ trang có thể đối phó với 90 phần trăm chúng trong một lần. 2. Khắc phục các thẻ canonical. Ở chỗ có yêu cầu thẻ canonical, bạn cần thực thi một thẻ canonical ở mức độ trang lẻ, hết biến thể này đến biến thể khác. Như ở trên thì hãy xác định tên miền phụ và giao thức chính của bạn, và đảm bảo tất cả các trùng lặp có một thẻ canonical trỏ đến trang chính. Đó là tất cả - hãy luôn dùng chuyển hướng nếu có thể, vì nó giải quyết vấn đề trùng lặp nội dung nhanh nhất và hiệu quả nhất (dưới góc độ khối lượng công việc và thứ hạng). Sau đó, ở chỗ mà không thể hoặc không mong muốn, hãy thực thi các thẻ canonical ở mức độ trang lẻ. Điều này có lẽ cần hỗ trợ từ các nhà phát triển. Với WordPress có một cách sửa đơn giản sử dụng bộ lọc wpseo_canonical từ công cụ mở rộng SEO của WordPress. Nó cho phép bạn gán HTTP hoặc HTTPS hoặc tên miền phụ với vài PHP khá đơn giản. Các nhà phát triển của bạn có thể thường xuyên làm điều đó để giúp bạn với các phiên bản hệ thống quản lý nội dung. Điều đó không quá phức tạp - nó đòi hỏi một hiểu biết rõ ràng về việc tại sao thẻ canonical lại tồn tại. Thống trị bằng một đường dẫn Cũng là một điều bình thường khi thấy một nội dung xuất hiện trên nhiều đường dẫn. Không có một án phạt về trùng lặp nội dung hay điều tương tự thế. Tuy nhiên để cho một công cụ tìm kiếm tự tin 100 phần trăm vào một đường dẫn đúng để trả về và bảo đảm sự công bình của một phiên bản chish của trang web, ta cần đến các chuyển hướng và các đường dẫn canonical đúng. Việc đơn giản bổ sung công cụ mở rộng SEO hoặc để các nhà phát triển làm việc với các đường dẫn canonical là không đủ - nó phải được thực thi theo cách đảm bảo rằng mỗi nội dụng có một đường dẫn tin cậy. Thống trị bằng một đường dẫn. Tìm kiếm bằng một đường dẫn. Đem đến tất cả bằng một đường dẫn và gắn nó vào trong các kết quả tìm kiếm. Nguồn: http://searchengineland.com/