I. Tổng Quan Về Công Nghệ Hệ Thống Phân Tán Hiện Nay
Công nghệ hệ thống phân tán đóng vai trò quan trọng trong sự phát triển của WWW. Khả năng tìm kiếm nội dung mong muốn giữa lượng dữ liệu khổng lồ giúp ích rất nhiều trong mọi lĩnh vực. Một thành phần quan trọng trong công nghệ này chính là quá trình thu thập thông tin hay còn gọi là khảo duyệt web. Quá trình khảo duyệt chính là quá trình xem xét WWW bằng cách lần theo các hyperlink và lưu trữ các trang web đã tải về. Hiện nay, hầu hết các hệ thống khảo duyệt web hiện nay như Google đều sử dụng mô hình client/server. Với mô hình này, việc khảo duyệt được thực hiện thông qua một hoặc nhiều máy có liên hệ chặt chẽ để phân chia công việc thu thập và kết quả thu được sẽ được quản lý trong hệ thống tập trung.
1.1. Mô Hình Client Server Trong Hệ Thống Phân Tán
Mô hình client/server có nhiều ưu điểm, bao gồm ưu điểm nổi trội là mọi xử lý đều nằm trên server do đó sẽ tránh cho client những tính toán nặng nề, và phía client không cần có cấu hình mạnh. Tuy nhiên, với chế độ hoạt động theo kiểu client chỉ đóng vai trò thụ động, là yêu cầu dịch vụ từ server mà không cung cấp dịch vụ cho các client khác, thì chính ưu điểm trên lại trở thành nhược điểm của mô hình này. Với tốc độ phát triển Internet như hiện nay, số lượng client tăng nhanh liên tục gây ra sự quá tải và tắc nghẽn tại các server.
1.2. Ưu Điểm Của Hệ Thống Phân Tán Dựa Trên P2P
Với sự phát triển thành công của các ứng dụng như Gnutella, Kazaa, và Freenet,… công nghệ mạng ngang hàng đã được nhìn nhận lại ở tầm cao hơn trong một vài năm qua. Các hệ thống ngang hàng là các hệ thống tính toán phân tán mà trong đó các nút tham gia kết nối trực tiếp với nhau để thực hiện nhiệm vụ phân phối hoặc trao đổi thông tin hoặc thực thi nhiệm vụ. Mạng ngang hàng dựa trên DHT là một trong các hệ thống ngang hàng có cấu trúc và đóng vai trò quan trọng trong quá trình định tuyến.
II. Thách Thức Bài Toán Hệ Thống Phân Tán Trong Giáo Dục
Kiến trúc mạng ngang hàng dựa trên DHT như Chord, CAN, Tapestry, Pastry có một số đặc điểm đối lập so với kiến trúc client/server truyền thống, vì kiến trúc này có khả năng mở rộng trên phạm vi rộng lớn, nên các ứng dụng có được các đặc tính mong muốn như khả năng mở rộng, tự quản lý, tự tổ chức… Mặc dù các ứng dụng như tên miền chia sẻ file và hệ thống lưu trữ đã thu được nhiều lợi ích từ việc sử dụng kiến trúc mạng ngang hàng nhưng vẫn chưa đạt đến thành các ứng dụng cốt lõi và nhiều dịch vụ sử dụng công nghệ ngang hàng ở quy mô toàn cầu.
2.1. Vấn Đề Cân Bằng Tải Trong Hệ Thống Phân Tán
Lý do chính ở đây là các hệ thống khó đáp ứng được cả hai yêu cầu: khả năng mở rộng, và thông tin gần kề vị trí. Cân bằng hệ thống là điều kiện cần thiết cho khả năng mở rộng trên mạng dựa trên DHT gồm cân bằng định tuyến và cân bằng tải. Tính năng cân bằng tải của hệ thống DHT đã được giới thiệu trong khá nhiều các nghiên cứu. Với yêu cầu thứ hai là khái niệm gần kề vị trí được hiểu là nút trong hệ thống DHT phải được phân bố theo cấu trúc topo mạng.
2.2. Tối Ưu Hóa Vị Trí Địa Lý Trong Hệ Thống Phân Tán
Các nút trong mạng phủ được bố trí làm sao có thể phản ánh chính là mô hình trên mạng vật lý thật. Để làm được điều này, mạng phủ cần có thông tin về về vị trí và không gian giữa các nút kề nhau. Khái niệm về gần kề vị trí cũng đã được đề cập trong [4] được gọi là LDHT. Tác giả [4] thay vì gán ngẫu nhiên định danh nút trong mô hình DHT truyền thống đã sử dụng ASN để thực hiện gán định danh nút theo vị trí địa lý mạng. Theo cách này, các nút gần nhau về mạng vật lý cũng sẽ gần nhau trong không gian khóa.
III. Phương Pháp Nghiên Cứu Hệ Thống Phân Tán Dựa Trên DHT
Đã có một số bài báo nghiên cứu cơ chế kết hợp cả hai yêu cầu về khả năng mở rộng và thông tin gần kề vị trí. Như trong bài báo [2] đã đề xuất một kiến trúc dựa trên DHT đáp ứng được yêu cầu về liền kề vị trí trong mạng phủ mà không mất đi thuộc tính cân bằng tải hệ thống. Tác giả [2] đã áp dụng xây dựng trên mô hình CAN và đưa ra hai mạng phủ, V-CAN dùng để duy trì cân bằng hệ thống và L-CAN dùng để phản ánh mô hình mạng sử dụng thông tin gần kề vị trí. Theo tác giả [2] hệ thống này có thể được sử dụng hiệu quả cho các ứng dụng mạng trong phạm vi rộng lớn.
3.1. Kiến Trúc D Chord Trong Hệ Thống Phân Tán
Tuy nhiên bài báo cũng mới chỉ đề ra kiến trúc nền tảng mà chưa đưa ra cách thức xây dựng L-CAN phản ánh được mô hình mạng vật lý thật. Chính nhờ vào những ưu điểm nổi bật của mạng ngang hàng mà đặc biệt là mạng ngang hàng dựa trên DHT, nên đã có khá nhiều hệ thống khảo duyệt web dựa trên mạng ngang hàng như Ap0idea [3], 0dissea, UbiCrawler. Hệ thống khảo duyệt Ap0idea do có mô hình gần giống với mạng Chord nên đã đáp ứng được các yêu cầu của hệ thống khảo duyệt web trên mạng ngang hàng như cân bằng tải giữa các nút, hiệu quả trong việc tìm kiếm nút chịu trách nhiệm, có tính mở rộng và khả năng chịu lỗi.
3.2. Ứng Dụng Thông Tin Vị Trí Trong Hệ Thống Phân Tán
Tuy nhiên [3] mới chỉ đề cập vấn đề gần kề về mặt địa lý của các nút sau khi các nút này đã được phân bố trên không gian định danh nên rất có thể việc phân bố ngẫu nhiên đó có thể cho kết quả là các nút khảo duyệt tên miền không gần nhau về mặt địa lý với server được khảo duyệt, trong khi đó có nhiều nút khác gần hơn có thể khảo duyệt tốt hơn. Vì vậy vấn đề đặt ra ở đây là làm sao có thể áp dụng thông tin gần kề vị trí để cải tiến về tốc độ khảo duyệt web và tốc độ tìm kiếm của hệ thống Ap0idea?
IV. Giải Pháp Ứng Dụng Hệ Thống Phân Tán Trong Đại Học
Với ý tưởng này, chúng tôi đề xuất một mô hình kiến trúc có thể phản ánh được thuộc tính liền kề vị trí mà không làm mất đi tính cân bằng tải của hệ thống, để từ đó áp dụng mô hình kiến trúc này vào hệ thống khảo duyệt web Ap0idea. Trong báo cáo luận văn này, chúng tôi xin đề xuất một kiến trúc dựa trên DHT đáp ứng được yêu cầu về liền kề vị trí trong mạng phủ mà không mất đi thuộc tính cân bằng tải hệ thống mà chúng tôi gọi là D-Chord (Double Chord).
4.1. Mô Hình Mạng Phủ D Chord Cải Tiến
Nút trong hệ thống D-Chord được gắn kết với hai mạng phủ. Mạng phủ đầu tiên được gọi là V-Chord (Virtual Chord), đúng như tên gọi, là một không gian khóa ảo và không có bất cứ kết nối gì giữa các nút trên mạng phủ này. V-Chord đóng vai trò đảm bảo tính cân bằng tải của hệ thống, và bất kỳ thuật toán băm nào đảm bảo tính cân bằng tải đều có thể áp dụng cho vòng V-Chord.
4.2. Ứng Dụng L Chord Cho Tìm Kiếm Trong Hệ Thống Phân Tán
Mạng phủ thứ hai mà chúng tôi đề xuất gọi tên là L-Chord (Locality Chord) được dựa trên mô hình mạng phủ LDHT [4], qua đó tận dụng được những ưu điểm của mạng phủ LDHT như phản ánh được cấu trúc mạng vật lý, từ đó cung cấp sự tính toán tính liền kề tuyệt đối. Chúng tôi sử dụng mạng phủ L-Chord để thực hiện tất cả các chức năng tìm kiếm của hệ thống khảo duyệt web, ngoài ra còn sử dụng để tìm kiếm nút tốt nhất để khảo duyệt một tên miền nào đó.
V. Ứng Dụng Hệ Thống Phân Tán D Ap0idea Kết Quả Nghiên Cứu
Về mặt thiết kế, hệ thống D-Chord mới này hoạt động như một framework cho bất kỳ thuật toán nào đảm bảo tính cân bằng tải áp dụng cho V-Chord, mà không ảnh hưởng đến tính chất liền kề tuyệt đối của vòng L-Chord. Với phương thức như vậy, chúng tôi đã tạo ra sự kết hợp tốt nhất giữa việc khai thác cấu trúc mạng vật lý với việc cân bằng tải. Từ thiết kế D-Chord mới này, chúng tôi đề xuất một hệ thống khảo duyệt cải tiến mới từ Ap0idea [1] là D-Ap0idea.
5.1. Tổng Quan Về Hệ Thống Phân Tán D Ap0idea
Hệ thống D-Ap0idea là hệ thống khảo duyệt web theo mô hình mạng ngang hàng, sử dụng mô hình mạng phủ D-Chord và là sự kết hợp giữa hệ thống Ap0idea [1] và bảng băm phân tán LDHT [4]. Hệ thống D-Ap0idea áp dụng bảng băm phân tán LDHT cho vòng L-Chord để phản ánh được cấu trúc mạng vật lý, và áp dụng mô hình mạng Ap0idea cho vòng V-Chord.
5.2. Cơ Chế Lựa Chọn Nút Trong D Ap0idea
Hệ thống D-Ap0idea tổng hợp các ưu điểm của hệ thống Ap0idea và mô hình mạng phủ LDHT, đồng thời dựa vào mô hình mạng phủ D-Chord mà chúng tôi thiết kế, chúng tôi đưa ra cơ chế lựa chọn nút chịu trách nhiệm khảo duyệt nhằm tăng tốc độ khảo duyệt web của hệ thống. Xin lưu ý báo cáo luận văn chỉ tập trung vào việc áp dụng tin gần kề vị trí trong khảo duyệt web theo phương thức mạng ngang hàng mà không tập trung vào đặc điểm cân bằng tải và xây dựng máy tìm kiếm hoàn thiện.
VI. Kết Luận Hướng Phát Triển Hệ Thống Phân Tán
Báo cáo luận văn gồm 5 chương và nội dung cụ thể của từng chương như sau: - Chương 1: Giới thiệu tổng quan mạng ngang hàng có cấu trúc sẽ đề cập về mạng ngang hàng, mạng ngang hàng có cấu trúc, giao thức Chord. - Chương 2: Trình bày sâu về kiến trúc khảo duyệt web dựa trên mạng ngang hàng, mô hình khảo duyệt web ngang hàng phi tập trung và hệ thống khảo duyệt Ap0idea. - Chương 3: Trình bày về khái niệm gần kề vị trí trong mạng ngang hàng và các vấn đề liền kề vị trí LDHT trong kiến trúc khảo duyệt web.
6.1. Tóm Tắt Các Giải Pháp Đã Đề Xuất
- Chương 4: Dựa trên việc phân tích về khảo duyệt duyệt web và liền kề vị trí theo phương thức ngang hàng đã trình bày trong chương 2 và 3, chương 4 sẽ trình bày về giải pháp sử dụng thông tin gần kề vị trí trong khảo duyệt web theo kiến trúc mạng ngang hàng, ngoài ra có xây dựng chương trình khảo duyệt web, và đánh giá hiệu giải pháp dựa trên chương trình mô phỏng. - Chương 5: Cuối cùng là kết luận và hướng nghiên cứu trong tương lai.
6.2. Hướng Nghiên Cứu Tương Lai Cho Hệ Thống Phân Tán
Định nghĩa mạng ngang hàng Hầu như các dịch vụ trên Internet ngày nay đều dựa trên mô hình client/server. Theo mô hình này, các máy client kết nối với một máy server thông qua một giao thức nhất định như WWW, FTP, Telnet, email. Tài nguyên tập trung tại server hoặc một số nút để cung cấp cho các client truy cập 24/7. Mô hình client/server có nhiều ưu điểm bao gồm ưu điểm nổi trội là mọi xử lý đều nằm trên server do đó sẽ tránh cho client những tính toán nặng nề, và phía client không cần có cấu hình mạnh.