Đại học Gia Hà Nội: Nghiên cứu và Phát triển Hệ thống Dữ liệu

Trường đại học

Đại học Gia Hà Nội

Chuyên ngành

Luận án tiến sĩ

Người đăng

Ẩn danh

Thể loại

Luận án

2019

267
0
0

Phí lưu trữ

40.000 VNĐ

Tóm tắt

I. Tổng Quan Về Nghiên Cứu Hệ Thống Dữ Liệu Đại Học Gia Định

Internet đã phát triển từ những năm giữa thế kỷ 20, ban đầu với phạm vi hạn chế và dịch vụ đơn giản. Đến năm 1980, giao thức TCP/IP ra đời, đánh dấu bước phát triển mới cho việc trao đổi thông tin toàn cầu. TCP/IP là giao thức chuẩn được cài đặt trên mọi máy tính kết nối Internet, giúp chúng trao đổi dữ liệu dễ dàng. Với khả năng kết nối mở, Internet trở thành mạng lớn nhất thế giới, với 4,4 tỷ người dùng tính đến tháng 6/2019. Các dịch vụ và ứng dụng trên Internet không ngừng phát triển, xuất hiện trong thương mại, chính trị, quân sự, nghiên cứu, giáo dục, văn hóa, xã hội. Ban đầu, các ứng dụng phát triển theo mô hình Client/Server, với máy chủ và máy khách. Máy khách gửi yêu cầu đến máy chủ, máy chủ xử lý và trả kết quả. Các ứng dụng tiêu biểu bao gồm File Server, Print Server, Web Server, và Database Server. Mạng Client/Server có ưu điểm như quản lý tài nguyên tập trung, dễ chia sẻ và bảo mật, tốc độ xử lý nhanh. Tuy nhiên, nó cũng có nhược điểm như khả năng mở rộng kém, nghẽn cổ chai khi số lượng người dùng tăng, và không tận dụng được tài nguyên chia sẻ của người dùng.

1.1. Lịch Sử Phát Triển Hệ Thống Dữ Liệu Mạng Internet

Internet khởi nguồn từ những năm giữa thế kỷ 20, ban đầu chỉ là một mạng lưới nhỏ với các dịch vụ đơn giản. Sự ra đời của giao thức TCP/IP vào năm 1980 đã tạo nên một cuộc cách mạng, cho phép các máy tính trên toàn thế giới kết nối và trao đổi dữ liệu một cách dễ dàng. Giao thức này trở thành tiêu chuẩn cho mọi thiết bị kết nối Internet, mở ra kỷ nguyên của sự phát triển vượt bậc về số lượng người dùng và các ứng dụng trực tuyến. Đến nay, Internet đã trở thành một phần không thể thiếu trong cuộc sống hàng ngày, với hàng tỷ người sử dụng và vô số dịch vụ đa dạng.

1.2. Ưu Điểm và Hạn Chế của Mô Hình Client Server

Mô hình Client/Server có nhiều ưu điểm như quản lý tài nguyên tập trung, dễ dàng chia sẻ dữ liệu và bảo mật thông tin. Tuy nhiên, nó cũng tồn tại những hạn chế nhất định, đặc biệt là khả năng mở rộng kém và nguy cơ nghẽn mạng khi số lượng người dùng tăng cao. Ngoài ra, mô hình này không tận dụng được tài nguyên chia sẻ từ người dùng, gây lãng phí tiềm năng của mạng lưới. Do đó, các mô hình mạng ngang hàng (P2P) đã ra đời để khắc phục những nhược điểm này.

II. Thách Thức Quản Trị Dữ Liệu Lớn Tại Đại Học Gia Định

Trong bối cảnh đó, các mạng ngang hàng (P2P) đóng vai trò quan trọng để truyền tải nội dung đa phương tiện và mở rộng phạm vi mạng đến nhiều người dùng khác nhau, khắc phục nhược điểm của mô hình Client/Server. Mạng ngang hàng là một kiến trúc máy tính phân tán xây dựng trên Internet, cho phép các máy tính riêng lẻ (các nút) trao đổi thông tin và dịch vụ trực tiếp với nhau mà không cần qua máy chủ trung tâm. Mỗi nút hoạt động như một máy chủ và một máy khách, sử dụng dịch vụ của các nút khác và cung cấp dịch vụ cho các nút khác. Các nút trao đổi trực tiếp với các nút láng giềng có liên kết với nó để gửi và phục vụ các yêu cầu. Trong mạng ngang hàng, không có thực thể trung tâm kiểm soát, tổ chức, quản lý hoặc duy trì toàn bộ hệ thống. Đã có nhiều ứng dụng phát triển trên nền tảng công nghệ mạng ngang hàng bao gồm các ứng dụng chia sẻ tệp tin, tính toán lưới, và truyền thông.

2.1. Vai Trò Của Mạng Ngang Hàng P2P Trong Quản Lý Dữ Liệu

Mạng ngang hàng (P2P) đóng vai trò quan trọng trong việc truyền tải nội dung đa phương tiện và mở rộng phạm vi mạng đến nhiều người dùng khác nhau. Khác với mô hình Client/Server truyền thống, P2P cho phép các máy tính riêng lẻ (các nút) trao đổi thông tin và dịch vụ trực tiếp với nhau mà không cần qua máy chủ trung tâm. Điều này giúp giảm tải cho máy chủ, tăng tính linh hoạt và khả năng mở rộng của hệ thống.

2.2. Các Ứng Dụng Tiêu Biểu Của Mạng P2P Trong Thực Tế

Mạng P2P đã được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm chia sẻ tệp tin (ví dụ: uTorrent, BitTorrent), tính toán lưới (grid computing), và truyền thông (ví dụ: Skype, WhatsApp). Các ứng dụng này cho phép người dùng chia sẻ, tìm kiếm và thu thập các tệp tin đa phương tiện, trao đổi thông tin trực tuyến, và sử dụng sức mạnh tính toán của nhiều máy tính để giải quyết các bài toán phức tạp.

III. Phương Pháp Cân Bằng Tải Hệ Thống Dữ Liệu Đại Học Gia Định

Từ khi ra đời, mạng ngang hàng đã trải qua ba thế hệ. Mạng ngang hàng thế hệ thứ nhất chủ yếu được sử dụng vào mục đích chia sẻ tệp tin với quy mô nhỏ như Napster. Trong hệ thống có một số nút đặc biệt (máy chủ) làm nhiệm vụ lưu trữ vị trí của các tệp tin. Khi cần tìm kiếm tệp tin, nút tìm kiếm liên hệ với máy chủ để xác định nút chứa tệp tin. Tiếp theo, nút tìm kiếm và nút chứa tệp tin sẽ kết nối trực tiếp với nhau để trao đổi dữ liệu. Mạng ngang hàng thế hệ thứ nhất cho phép tìm kiếm thông tin nhanh chóng, tuy nhiên khả năng mở rộng mạng bị hạn chế do máy chủ bị quá tải khi có nhiều nút tham gia mạng gửi yêu cầu tìm kiếm đến máy chủ. Mạng ngang hàng thế hệ thứ hai khắc phục được điểm yếu của thế hệ thứ nhất. Trong mạng ngang hàng thế hệ thứ hai các nút có vai trò như nhau, không có nút nào đóng vai trò là máy chủ.

3.1. So Sánh Các Thế Hệ Mạng Ngang Hàng P2P

Mạng P2P đã trải qua ba thế hệ phát triển, mỗi thế hệ có những đặc điểm và ưu nhược điểm riêng. Thế hệ thứ nhất (ví dụ: Napster) sử dụng máy chủ trung tâm để quản lý vị trí các tệp tin, cho phép tìm kiếm nhanh chóng nhưng khả năng mở rộng kém. Thế hệ thứ hai (ví dụ: Gnutella) loại bỏ máy chủ trung tâm, các nút có vai trò ngang nhau, nhưng lại gặp vấn đề về khả năng mở rộng do sử dụng kỹ thuật tìm kiếm phát tràn. Thế hệ thứ ba (mạng P2P có cấu trúc) ra đời để giải quyết các vấn đề này, sử dụng các cơ chế tốt hơn để đáp ứng số lượng người dùng ngày càng tăng.

3.2. Kỹ Thuật Tìm Kiếm Phát Tràn Flooding Trong Mạng P2P

Kỹ thuật tìm kiếm phát tràn (flooding) là một phương pháp được sử dụng trong mạng P2P thế hệ thứ hai. Khi một nút cần tìm kiếm một tệp tin, nó sẽ gửi yêu cầu tìm kiếm đến tất cả các nút khác trong mạng. Các nút này tiếp tục chuyển yêu cầu đến các nút lân cận, cho đến khi nút chứa tệp tin được tìm thấy. Mặc dù đơn giản, kỹ thuật này tạo ra lượng lớn lưu lượng mạng, gây ảnh hưởng đến khả năng mở rộng của mạng.

IV. Ứng Dụng Bảng Băm Phân Tán DHT Trong Hệ Thống Dữ Liệu

Khi cần tìm kiếm tệp tin, nút tìm kiếm gửi câu truy vấn tới tất cả các nút tham gia mạng theo kiểu phát tràn (flooding) cho đến khi nút chứa tệp tin được tìm thấy. Sau đó nút nguồn và nút chứa tệp tin kết nối trực tiếp với nhau để trao đổi dữ liệu. Kỹ thuật tìm kiếm theo kiểu phát tràn sinh ra nhiều lưu lượng mạng làm cho khả năng mở rộng mạng của thế hệ thứ hai kém hơn thế hệ thứ nhất. Mạng ngang hàng điển hình cho thế hệ thứ hai là Gnutella. Để giải quyết vấn đề mở rộng phạm vi mạng và khắc phục các điểm yếu của mạng ngang hàng thế hệ thứ nhất và thứ hai (các mạng ngang hàng không có cấu trúc), mạng ngang hàng thế hệ thứ ba (mạng ngang hàng có cấu trúc) đã ra đời. Mạng ngang hàng thế hệ thứ ba có các cơ chế tốt hơn để đáp ứng số lượng người dùng ngày càng tăng trong mạng P2P.

4.1. Ưu Điểm Của Mạng P2P Có Cấu Trúc So Với Mạng Không Cấu Trúc

Mạng P2P có cấu trúc (thế hệ thứ ba) được thiết kế để giải quyết các vấn đề về khả năng mở rộng và hiệu suất của các mạng P2P không cấu trúc (thế hệ thứ nhất và thứ hai). Bằng cách sử dụng các cấu trúc dữ liệu có tổ chức như bảng băm phân tán (DHT), mạng P2P có cấu trúc cho phép tìm kiếm và truy xuất dữ liệu một cách hiệu quả hơn, đồng thời giảm thiểu lưu lượng mạng.

4.2. Bảng Băm Phân Tán DHT và Cơ Chế Hoạt Động

Bảng băm phân tán (DHT) là một kỹ thuật quan trọng trong mạng P2P có cấu trúc. DHT cung cấp một cơ chế phân tán, có khả năng mở rộng, độ tin cậy cao và khả năng chịu lỗi. Trong DHT, dữ liệu được lưu trữ dưới dạng cặp khóa/giá trị (key/value). Mỗi mục dữ liệu có một định danh duy nhất, và các nút trong mạng chịu trách nhiệm quản lý một số lượng khóa nhất định.

V. Giải Pháp Nâng Cao Hiệu Năng Hệ Thống Dữ Liệu Đại Học Gia Định

Các mạng ngang hàng có cấu trúc được phát triển dựa trên cấu trúc bảng băm phân tán (DHT) và sử dụng kỹ thuật tìm kiếm theo cơ chế của bảng băm phân tán DHT. Bảng băm phân tán ra đời để cung cấp cơ chế chỉ mục phân tán, khả năng mở rộng, độ tin cậy và khả năng chịu lỗi. Các mạng ngang hàng có cấu trúc tiêu biểu là: Chord, CAN, Pastry, Tapestry. Trong mạng ngang hàng có cấu trúc, các nút tham gia mạng được tổ chức chặt chẽ. Mỗi nút tham gia mạng được gán một định danh. Định danh của một nút là giá trị băm thông tin đặc trưng của nút đó như: địa chỉ IP, địa chỉ cổng TCP/IP. Cơ chế định tuyến và quản lý của DHT tạo ra các liên kết ảo (liên kết logic) giữa các nút trong mạng, các liên kết ảo này hình thành một mạng phủ ảo (Overlay Network). Truyền thông trực tiếp giữa hai nút tham gia mạng được thực hiện dựa trên các liên kết vật lý của mạng lớp phía dưới (ví dụ mạng Internet).

5.1. Các Yếu Tố Ảnh Hưởng Đến Hiệu Năng Mạng P2P Có Cấu Trúc

Hiệu năng của mạng P2P có cấu trúc bị ảnh hưởng bởi nhiều yếu tố, bao gồm tính sẵn sàng (availability), thông lượng (throughput), thời gian đáp ứng (response time), thời gian trễ (delay), độ tin cậy (reliability), và tỉ suất lỗi (error rate). Các yếu tố này có thể liên quan đến hệ thống mạng vật lý bên dưới hoặc đặc điểm của mạng P2P có cấu trúc.

5.2. Tính Sẵn Sàng Của Dữ Liệu Trong Mạng P2P

Tính sẵn sàng của dữ liệu là một yếu tố quan trọng ảnh hưởng đến hiệu năng của mạng P2P. Các yếu tố ảnh hưởng đến tính sẵn sàng của dữ liệu bao gồm: sự không đồng nhất của các nút tham gia mạng (về băng thông, khả năng xử lý, năng lực lưu trữ, thời gian kết nối), phân bố không đều của định danh nút và dữ liệu, và việc các nút thường xuyên ra vào mạng mà không thông báo trước.

VI. Đề Xuất Giải Pháp Cải Thiện Hệ Thống Dữ Liệu Đại Học Gia Định

Ngoại những ưu điểm trên, DHT cũng tồn tại nhiều yếu tố ảnh hưởng đến hiệu năng hoạt động của hệ thống mạng ngang hàng có cấu trúc. Theo cách hiểu thông thường, hiệu năng là một độ đo công việc mà một hệ thống thực hiện được. Đối với hệ thống mạng ngang hàng có cấu trúc, hiệu năng của hệ thống được xác định bởi sự kết hợp của các nhân tố: tính sẵn sàng (availability), thông lượng (throughput) và thời gian đáp ứng (response time), thời gian trễ (delay), độ tin cậy (reliability), tỉ suất lỗi (error rate), v. Có yếu tố liên quan đến hệ thống mạng vật lý phía dưới, có yếu tố liên quan đến đặc điểm của mạng ngang hàng có cấu trúc. Luận án này chỉ đề cập đến nhân tố tính sẵn sàng của dữ liệu liên quan đến đặc điểm của mạng P2P.

6.1. Các Hướng Nghiên Cứu Nâng Cao Tính Sẵn Sàng Dữ Liệu

Đã có nhiều nghiên cứu đề xuất các thuật toán nhằm nâng cao tính sẵn sàng của dữ liệu, qua đó nâng cao hiệu năng hoạt động của mạng ngang hàng có cấu trúc. Các hướng nghiên cứu tập trung vào hai hướng chính: (i) Nâng cao tỷ lệ thành công của các câu truy vấn dữ liệu bằng cách nâng cao khả năng cân bằng tải cho các nút. (ii) Nâng cao tính sẵn sàng của dữ liệu bằng cách sao lưu dữ liệu.

6.2. Các Thuật Toán Cân Bằng Tải Trong Mạng P2P

Các thuật toán cân bằng tải trong mạng P2P có thể được thực hiện bằng cách sử dụng khái niệm server ảo (máy chủ ảo), di chuyển định danh của các nút, hoặc điều khiển tắc nghẽn. Tuy nhiên, các thuật toán này cũng tồn tại những nhược điểm như chi phí quản lý server ảo cao, tăng tải cho hệ thống khi di chuyển dữ liệu, và giảm tốc độ truyền của mạng khi xảy ra tắc nghẽn.

05/06/2025
Luận văn nghiên cứu nâng cao hiệu năng hoạt động của mạng ngang hàng có cấu trúc
Bạn đang xem trước tài liệu : Luận văn nghiên cứu nâng cao hiệu năng hoạt động của mạng ngang hàng có cấu trúc

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Đại học Gia Hà Nội: Nghiên cứu và Phát triển Hệ thống Dữ liệu" cung cấp cái nhìn sâu sắc về các nghiên cứu và phát triển trong lĩnh vực hệ thống dữ liệu tại Đại học Gia Hà Nội. Tài liệu nhấn mạnh tầm quan trọng của việc ứng dụng công nghệ thông tin trong việc quản lý và phân tích dữ liệu, từ đó nâng cao hiệu quả trong nghiên cứu và giảng dạy. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các phương pháp nghiên cứu hiện đại, giúp mở rộng kiến thức và kỹ năng trong lĩnh vực này.

Để khám phá thêm về các ứng dụng công nghệ trong nghiên cứu và phát triển, bạn có thể tham khảo tài liệu Luận văn thạc sĩ nghiên cứu công nghệ iot và ứng dụng trong hệ thống giám sát chất lượng không khí hà nội, nơi trình bày cách công nghệ IoT có thể cải thiện chất lượng môi trường. Ngoài ra, tài liệu Luận án tiến sĩ nghiên cứu thuật toán và xây dựng chương trình xử lý số liệu gnss dạng rinex nhằm phát triển ứng dụng công nghệ định vị vệ tinh ở việt nam sẽ giúp bạn hiểu rõ hơn về các ứng dụng công nghệ định vị trong nghiên cứu. Cuối cùng, tài liệu Luận văn thạc sĩ kỹ thuật cơ điện tử điều khiển robot leo bên ngoài ống xúc tác lò reformer cung cấp cái nhìn về việc ứng dụng công nghệ robot trong các hệ thống công nghiệp. Những tài liệu này sẽ mở ra nhiều cơ hội để bạn đào sâu hơn vào các chủ đề liên quan.