5 cách để thu thập dữ liệu từ một máy chủ thử nghiệm (staging server) trước khi các thay đổi quan trọng của trang web diễn ra (để cứu lấy SEO)

Bạn có thể phát hiện rất nhiều vấn đề SEO tiềm tàng bằng cách thu thập dữ liệu toàn diện trong môi trường thử nghiệm, nhưng nếu điều đó không dễ dàng tiếp cận thì sao? Nhà báo Glenn Gabe chia sẻ một số lời khuyên của mình.

security-lock-computers-staging-lg-800x450

Bạn đang đến gần với một sự thay đổi thiết kế lớn hoặc sự di chuyển hệ thống quản lý nội dung CMS, và bạn đã sẵn sàng tiến hành thu thập dữ liệu của một trang web mới trong một môi trường thử nghiệm. Bạn sử dụng công cụ thu thập yêu thích của mình và bắt đầu quá trình thu thập… và nó chỉ kéo dài ba giây.

Đúng vậy, ở đây rõ ràng có một vấn đề. Máy chủ thử nghiệm đang được bảo vệ và đằng sau là một vài biện pháp an ninh đang ngăn cản bạn thu thập dữ liệu một cách tự do. Mồ hôi lúc này sẽ lấm tấm trên trán của bạn khi bạn băn khoăn làm sao có thể hoàn thành quá trình thu thập dữ liệu.

Lúc này bạn có thể chọn cách kiểm tra thủ công tất cả các trang web, nhưng có lẽ cuối cùng bạn sẽ về phòng và lẩm bẩm về các mã lệnh.

Hoặc bạn có thể tiếp tục nhấn vào “thu thập” và liên tục thu thập dữ liệu từ một trang đăng nhập, nhưng điều đó cũng không giúp ích gì. Hoặc bạn có thể bỏ qua và tìm ra cách để thu thập dữ liệu từ một trang trong môi trường thử nghiệm, điều này sẽ giúp bạn có thể phân tích các dữ liệu thu thập và cứu lấy SEO. Đúng, đây chính là chìa khóa.

Vài người trong số các bạn sẽ nói “Điều này thì dễ dàng thôi!”. Điều quan trọng là phải hiểu đôi lúc điều này sẽ không dễ dàng lắm. Theo kinh nghiệm của tôi, tôi đã giúp nhiều khách hàng khi họ sử dụng một thiết lập môi trường thử nghiệm mà không hề dễ dàng truy cập và thu thập dữ liệu. Và trong các tình huống đó, bạn cần phải sử dụng các phương pháp thay thế.

Làm thế nào để thu thập dữ liệu từ một máy chủ thử nghiệm

Ở phần dưới đây, tôi sẽ nói đến năm phương pháp để thu thập dữ liệu từ một máy chủ thử nghiệm từ việc sử dụng việc xác thực cơ bản đến truy cập VPN để tạo ra các phần mềm người dùng có tùy chỉnh. Tôi sẽ kết thúc với việc đưa ra các lời khuyên. Hãy bắt đầu nào!

1. Xác thực cơ bản

Nếu máy chủ thử nghiệm đang sử dụng xác thực cơ bản, bạn sẽ vui khi biết được là các công cụ thu thập dữ liệu hàng đầu có hỗ trợ phương pháp này khi thiết lập thu thập.

Lấy ví dụ như các công cụ thu thập dữ liệu ưa thích của tôi là DeepCrawl (khi tôi ở diễn đàn tư vấn khách hàng) và Screaming Frog. Cả hai công cụ này đều cung cấp tùy chọn để điền thông tin đăng nhập để bạn có thể thu thập dữ liệu.

Xác thực cơ bản trong DeepCrawl:

crawl-staging-basic-auth-dc

Lựa chọn thiết lập “Yêu cầu xác thực” (“Request Authentication”) trong Screaming Frog:

crawl-staging-basic-auth-sf

2. Truy cập VPN

Tôi có vài khách hàng đặt các máy chủ thử nghiệm của họ sau tưởng lửa (chỉ trên mạng công ty họ và không công khai). Trong trường hợp như thế, tôi thỉnh thoảng truy cập VPN để có thể thu thập dữ liệu từ máy chủ. Khi tôi kết nối qua VPN, tôi có thể thu thập dữ liệu với bất cứ nội bộ công cụ (làm việc ở trên các hệ thống trong văn phòng của tôi).

Ưu điểm là bạn có thể thu thập dữ liệu trong môi trường thử nghiệm với công cụ nội bộ. Nhược điểm là bạn không thể sử dụng các trình thu thập dữ liệu cấp doanh nghiệp không được đặt trên mạng lưới của bạn. Và điều này có thể là quan trọng, đặc biệt nếu đó là một trang web quy mô lớn.

Truy cập một máy chủ thử nghiệm qua VPN:

crawl-staging-vpn-access

3. Giữ địa chỉ IP trong whitelist (danh sách trắng)

Tôi cũng có vài khách hàng sử dụng một nền tảng thử nghiệm mà nó chuyển tiếp tất cả người dùng đến trang đăng nhập thông thường, sau đó chuyển tiếp bạn lại về với máy chủ thử nghiệm cụ thể mà bạn muốn truy cập. Đáng tiếc là nhiều công cụ hỗ trợ xác thực cơ bản hoặc biến đổi sẽ không có tác dụng gì ở đây, vì quá trình chuyển tiếp sẽ ngăn cản chúng.

Nhưng bạn có thể yêu cầu nền tảng thử nghiệm thêm địa chỉ IP của bạn vào whitelist với máy chủ thử nghiệm và bạn đang muốn truy cập. Khách hàng của bạn đơn giản sẽ cấp truy cập cho địa chỉ IP cụ thể của bạn với máy chủ thử nghiệm trong một thời gian ngắn – ví dụ như một ngày, hoặc vài ngày truy cập – trong khi loại bỏ truy cập của tất cả các IP khác.

crawl-staging-whitelist-ip

4. Tạo ra một phần mềm người dùng có tùy chỉnh

Bạn đã nghe nói đến trình thu thập Googlebot và Bingbot, nhưng bạn có nghe nói đến GSQiBot? Đó là một trong những phần mềm người dùng tùy chỉnh mà tôi thiết lập cho khách hàng để thu thập dữ liệu. Sử dụng các công cụ thu thập hàng đầu, bạn có thể tạo ra một phần mềm người dùng tùy chỉnh mà bạn có thể đưa cho khách hàng.

Sau đó họ có thể giữ phần mềm cụ thể đó trong whitelist trong khi chặn tất cả các truy cập khác. Nó tương tự như phương pháp sử dụng địa chỉ IP, nhưng đây là whitelist của phần mềm người dùng và whitelist của địa chỉ IP.

Thiết lập một phần mềm người dùng tùy chỉnh trong DeepCrawl:

crawl-staging-custom-user-agent-dc

Thiết lập một phần mềm người dùng tùy chỉnh trong Screaming Frog:

crawl-staging-custom-user-agent1

5. IRL – đi theo cách truyền thống

Bạn đọc đúng đấy. Trong các trường hợp cụ thể, tôi phải đi theo cách truyền thống và thực sự là đến thăm khách hàng IRL (in real life: trong đời thực). Thật kinh dị!

Nếu môi trường thử nghiệm không truy cập được từ bên ngoài, và khách hàng của bạn không mở truy cập vì lý do nào đó, thì bạn phải đến thăm văn phòng của họ.

Khi làm thế, bạn có thể thu thập từ bên trong mạng lưới của họ. Điều này dĩ nhiên có vài hạn chế về địa lý, nhưng tôi đã làm điều này trước đây với một khách hàng ở vùng Đông Bắc (tôi ở Princeton, New Jersey).

Những điều rút ra & các lời khuyên

Sau khi trình bày năm cách khác nhau để thu thập dữ liệu từ một máy chủ thử nghiệm, tôi sẽ đưa ra vài điểm chính rút ra được và các lời khuyên dựa trên kinh nghiệm của mình khi giúp đỡ khách hàng.

• Đừng bỏ qua việc thu thập dữ liệu. Điều này quá quan trọng để bỏ quên. Có rất nhiều vấn đề bạn có thể nhìn ra với việc thu thập dữ liệu của môi trường thử nghiệm. Và điều đó có nghĩa là bạn có thể kết thúc các vấn đề SEO nghiêm trọng. Nhấn mạnh về tầm quan trọng của thu thập dữ liệu với khách hàng, đội marketing kỹ thuật số và đội phát triển của họ.

• Hãy linh hoạt và làm việc với đội phát triển của khách hàng để có được truy cập. Đừng đòi hỏi một phương pháp cụ thể nào. Hãy hiểu tình hình của họ và làm việc để đi tới việc có được quyền truy cập. Mục tiêu là thu thập dữ liệu ở môi trường thử nghiệm để có được tín hiệu đèn xanh cho việc tiếp theo. Nó không phải để làm bạn tự mãn.

• Khi bạn có được quyền truy cập, hãy tiến hành ngay. Thực hiện cả các thu thập cấp độ doanh nghiệp và thu thập nội bộ (nếu có thể). Hãy chuẩn bị những gì bạn cần phải làm và thu thập nào bạn muốn thực hiện. Bạn có thể chỉ có truy cập trong một hoặc hai ngày, vì thế hãy tận dụng triệt để nó. Một lần nữa, tôi thích sử dụng DeepCrawl cho thu thập dữ liệu ở mức độ doanh nghiệp và Screaming Frog cho thu thập nội bộ.

• Kiểm tra kỹ các dữ liệu thu thập của bạn trước khi mất truy cập vào môi trường thử nghiệm. Đảm bảo là bạn có được dữ liệu mà bạn cần để hoàn thành phân tích. Nếu vì vài lý do mà dữ liệu thu thập ban đầu không đủ, hãy tinh chỉnh thiết lập của bạn và thu thập dữ liệu lại. Ví dụ như loại bỏ các thư mục không quan trọng cản trở việc thu thập, sử dụng các đường dẫn URL khác nhau, bảo đảm các hạn chế thu thập được thiết lập, đảm bảo các tùy chỉnh báo cáo đúng được lựa chọn và các việc tương tự thế.

• Đảm bảo rằng khách hàng của bạn hiểu rằng sẽ có những thay đổi được thực thi dựa trên các phân tích thu thập dữ liệu từ môi trường thử nghiệm, và họ phải dành thời gian cho đội phát triển để tiến hành các thay đổi đó. Đây không phải là một quá trình “thu thập dữ liệu một lần sau đó thay đổi” (mặc dù nó có thể xảy ra trong trường hợp tốt nhất). Nó giống như một quá trình “thu thập dữ liệu, tìm các vấn đề, sửa lỗi và thu thập dữ liệu lần nữa”. Bạn sẽ không muốn đưa SEO có các vấn đề ra vận hành thực tế. Googlebot có lẽ sẽ không hoạt động một cách thân thiện như GSQibot.

crawl-staging-meeting-room

Kết luận: Có nhiều cách để truy cập vào môi trường thử nghiệm

Như tôi đã giải thích từ trước, thu thập dữ liệu từ môi trường thử nghiệm trước khi các thay đổi chính được đưa ra vận hành là rất quan trọng. Bạn có lẽ sẽ tìm ra được các vấn đề kỹ thuật SEO trong quá trình thu thập dữ liệu mà sẽ gây ra các vấn đề nghiêm trọng nếu như được đưa ra vận hành thực tế.

Lời khuyên của tôi là có được quyền truy cập tới môi trường thử nghiệm bằng mọi giá. Tin tốt là có nhiều phương pháp để bạn lựa chọn, như tôi đã liệt kê ở trên. Làm việc với khách hàng, và với đội phát triển của họ, để có được quyền truy cập. Đó là cách để bạn có được thành công. Giờ thì hãy tiến hành thu thập dữ liệu đi nào.

Nguồn: http://searchengineland.com/