Qui trình index của Google
- Discovery :
Đây là quá trình khai phá các trang web mới. Quá trình này được thực hiện thường xuyên. Tuy nhiên các con bọ không phải chạy theo các liên kết 1 cách lung tung hết từ trang web này nhảy qua trang web khác mà đi theo 1 thứ tự ưu tiên: Google trước hết sẽ ‘mò’ ra 1 bộ các trang web ‘nổi tiếng’ (cái này chắc nghĩa là PR cao), xong sẽ róc toàn bộ các liên kết ngoài từ các trang web nổi tiếng đó, cho vào 1 sọt riêng cấp1. Các trang web cấp 1 này lại được róc tiếp toàn bộ liên kết ngoài cho sọt cấp 2. Đám url cấp trên hết sẽ được ưu tiên quăng sang quá trình tiếp theo là Spam Filter.
- Sitemaps:
song song quá trình Discovery, Google cũng phát hiện web mới bằng cách xem xét các url được submit lên từ các qui trình submit Sitemaps, ví dụ như bằng robot.txt files, HTTP request hay Google Webmaster Tool.
- Spam Filter :
kết quả từ 2 quá trình trên đều được đưa vào bộ lọc spam, có nhiệm vụ phát hiện và loại bỏ các liên kết spam từ các bộ liên kết nhận được rồi mới chuyển sang quá trình kế tiếp.
- Web Crawler :
các con bọ của google sẽ nhận được bộ url sạch từ spam filter chuyển qua, tạo ra các HTTP request theo yêu cầu ping Google của các website rồi bắt đầu thực hiện quá trình thu (retrieve) dữ liệu trên các trang đó. Lúc này các links lại tiếp tục được róc ra cho vào các sọt thứ cấp chuyển trở lại bước Discovery. Tại đây con bọ web cũng bảo đảm sẽ quay trở lại update trang web đã crawl theo yêu cầu về mặt tần suất.
- Indexer/Server :
Tại đây, bộ phận index sẽ chịu trách nhiệm phân các trang được đưa sang thành từng nhóm khác nhau dựa trên các thông số chất lượng và xây dựng nên dữ liệu index cho các trang này.
- Server:
Các dữ liệu index sẽ được lưu trữ tại đây để phục vụ cho yêu cầu của người dùng khi họ truy cập và tìm kiếm 1 từ khóa. Ta rút ra được gì từ bài viết này của Google nhỉ? Theo tôi thì rất rất nhiều! Đây chỉ mới là một đoạn ngắn trong báo cáo kết quả nghiên cứu “Sitemaps : above and beyond the crawl duty” – một bài thật hấp dẫn!