Chương 1 KHÁI NIỆM VỀ CƠ SỞ DỮ LIỆU PHÂN TÁN 1. Hệ thống cơ sở dữ liệu tập trung Theo [2], hệ cơ sở dữ liệu tập trung là tất cả dữ liệu đều nằm tại một vị trí, không có sự phân tán dữ liệu. Mạng máy tính mang tính cục bộ, dữ liệu không có tính sẵn sàng như cơ sở dữ liệu phân tán. Nút 1 Nút 2 Giao tiếp mạng Nút 3 Nút 5 Nút 4 Hình 1.1: Môi trường CSDL tập trung Hình trên cho thấy có tồn tại môi trường mạng lưới, nhưng chỉ có duy nhất nút 3 lưu trữ và quản lý dữ liệu, những nút còn lại không đảm nhiệm chức năng đó.
Ưu điểm: Dữ liệu được tập trung một nơi, dễ dàng cho việc xây dựng, bảo trì. Dự phòng dữ liệu được loại bỏ, không phải lặp lại các phiên bản dữ liệu giống nhau cùng tồn tại trên các trạm. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn 8 Tiết kiệm chi phí, không phải xây dựng thêm Server để lưu trữ dữ liệu. Khuyết điểm: Khả năng tính toán của các máy tính đơn lẻ không thể đáp ứng các nhu cầu lớn của doanh nghiệp.
Độ sẵn sàng của cơ sở dữ liệu không cao khi lượng người sử dụng tăng. Mô hình tổ chức lưu trữ, xử lý dữ liệu tập trung không còn phù hợp đối với các tổ chức và doanh nghiệp có hoạt động phạm vi rộng lớn, đa quốc gia, trên nhiều vùng lãnh thổ. Giới thiệu hệ thống cơ sở dữ liệu phân tán Theo [1], cơ sở dữ liệu phân tán là tập hợp các cơ sở dữ liệu liên quan với nhau về mặt ngữ nghĩa được phân bố trên các máy tính của một mạng máy. Hệ thống cơ sở dữ liệu phân tán Hệ quản trị cơ sở dữ liệu phân tán (DDBS – Distributed Database System) là hệ thống phần mềm cho phép quản lý CSDL phân tán và đảm bảo các tính minh bạch trong CSDL phân tán đối với người dùng.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. Ứng dụng cục bộ: là ứng dụng giao tiếp giữa người dùng và dữ liệu trên một nút trong hệ CSDL phân tán và chỉ liên quan đến CSDL tại nút đó. Ứng dụng toàn cục: yêu cầu truy cập dữ liệu ở nhiều nút thông qua hệ thống mạng máy tính. Nút 1 Nút 2 Giao tiếp mạng Nút 3 Nút 5 Nút 4 Hình 1.3: Môi trường CSDL phân tán 1.
Ưu điểm, nhược điểm hệ thống cơ sở dữ liệu phân tán Nhận xét về ưu nhược điểm của hệ thống phân tán, theo [1], thấy một số khía cạnh sau: 1. Ưu điểm Có thể quản lý cơ sở dữ liệu phân tán ở các mức trong suốt khác nhau: Ví dụ như minh bạch mạng, trong suốt vị trí, trong suốt nhân bản. Dễ dàng co dãn dữ liệu. Phản ánh cấu trúc của tổ chức: các phân đoạn dữ liệu được đặt ở những chi nhánh của tổ chức mà nó liên quan đến tạo ra hệ thống dữ liệu có cấu trúc tương ứng với tổ chức công ty đó.
Có thể tự trị dữ liệu tại điạ phương của mình: một chi nhánh tổ chức có thể quản lý, điều khiển dữ liệu của họ một cách độc lập. Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn 10 Bảo vệ dữ liệu tốt: nếu có thảm họa xảy ra như cháy nổ, dữ liệu có thể được bảo vệ vì dữ liệu không ở một nơi mà được phân tán tại nhiều nơi. Tăng hiệu suất thực thi: dữ liệu được đặt gần nút mà có yêu cầu truy xuất cao nhất, và hệ thống có thể xử lý truy xuất song song (bằng cách phân nhỏ truy vấn và xử lý song song các truy vấn). Hệ thống có thể được sửa, thêm hoặc gỡ bỏ các nút khỏi CSDL phân tán mà không cần dùng hệ thống nào tương tác đến.
Các giao tác hoạt động tin cậy hơn: vì CSDL có tính bản sao. Khuyết điểm Thiết kế cơ sở dữ liệu phức tạp. Khó điều khiển tính nhất quán dữ liệu. Khó phát triển và sửa lỗi.
Thiếu chuẩn mực. Vấn đề bảo mật. Giá thành cao. Các đặc điểm của hệ thống xử lý phân tán Hai tính chất quan trọng trong CSDL phân tán: (i) Các dữ liệu ở các nút phải liên quan với nhau về mặt ngữ nghĩa; (ii) Các dữ liệu được phân tán trên các nút qua môi trường mạng máy tính, mỗi dữ liệu trên một nút là một đơn vị trong CSDL phân tán.1 không được xem là mô hình cơ sở dữ liệu phân tán vì chỉ có duy nhất nút 3 có lưu trữ và quản lý dữ liệu, những nút còn lại không đảm nhiệm chức năng đó, đây không được xem là DDBS.3 thỏa DDBS vì Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn 11 CSDL được phân tán quản lý bởi các nút ở địa lý khác nhau qua môi trường mạng.
Kiến trúc của một hệ CSDL phân tán Theo [2, 5], do sự đa dạng, và không có kiến trúc nào được công nhận chính thức. Sơ đồ dưới đây cho ta kiến trúc cơ bản để tổ chức cho một CSDL phân tán. Để dễ hình dung, ta sẽ dùng CSDL quan hệ quen thuộc làm minh họa trong CSDL phân tán trong mục này. Lược đồ tổng thể Lược đồ phân mảnh Sơ đồ định vị Sơ đồ ánh xạ địa Sơ đồ ánh xạ địa (Các vị trí khác) phương 1 phương 2 DBMS của vị trí 1 DBMS của vị trí 2 CSDL địa phương tại CSDL địa phương tại vị trí 1 vị trí 2 Hình 1.4: Sơ đồ tạo CSDL phân tán 1.
Lược đồ tổng thể: lược đồ này bao gồm tất cả dữ liệu được lưu trữ trong CSDL phân tán. Ở đây sẽ sử dụng mô hình quan hệ để hình thành nên lược đồ này. Sử dụng mô hình này, lược đồ tổng thể bao gồm định nghĩa của một tập các quan hệ tổng thể. Lược đồ phân mảnh: Mỗi quan hệ tổng thể có thể chia thành các phần dữ liệu được gọi là mảnh (fragments).
Có nhiều cách khác nhau để thực hiện việc phân chia này. Lược đồ tổng thể mô tả các ánh xạ giữa các quan hệ tổng thể và các phân đoạn được định nghĩa Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn 12 trong lược đồ phân đoạn. Ánh xạ này là một- nhiều. Có thể có nhiều phân đoạn liên kết tới một quan hệ tổng thể, nhưng mỗi phân đoạn chỉ liên kết tới nhiều nhất là một quan hệ tổng thể.
Các mảnh được chỉ ra bằng tên của quan hệ tổng thể cùng với tên của chỉ mục phân đoạn. Sơ đồ định vị: Các phân đoạn là các phần mang ngữ nghĩa của một quan hệ tổng thể được định vị trên một hoặc nhiều vị trí vật lý trên mạng. Sơ đồ định vị xác định phân đoạn nào ở các trạm nào. Lưu ý rằng, kiểu ánh xạ được định nghĩa trong sơ đồ định vị quyết định CSDL phân tán là dư thừa hay không.
Tất cả các mảnh liên kết với cùng một quan hệ tổng thể R và được định vị tại cùng một trạm j cấu thành ảnh vật lý của quan hệ tổng thể R tại trạm j. Bởi vậy, có thể ánh xạ một-một giữa một ảnh vật lý và một cặp (quan hệ tổng thể, trạm). Các ảnh vật lý có thể được chỉ ra bằng tên của một quan hệ tổng thể và một chỉ mục trạm.5: Sơ đồ quá trình tạo CSDL phân tán Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. Sơ đồ ánh xạ địa phương: Ánh xạ các ảnh vật lý tới các đối tượng được các hệ quản trị CSDL địa phương thao tác tại các trạm.
Ánh xạ này phụ thuộc vào các hệ quản trị 5. CSDL địa phương. Do vậy, trong một hệ thống không đồng nhất, phải có các kiểu ánh xạ địa phương khác nhau tại các trạm khác nhau 1. Các hệ thống phân tán 1.
Mô hình khách chủ Theo [2, 5], các hệ quản trị CSDL khách-chủ cung cấp kiến trúc 2 lớp chức năng máy chủ (server) và chức năng máy khách (client), nhằm tạo ra sự dễ dàng trong việc quản lý tính phức tạp của các hệ quản trị CSDL hiện đại và tính phức tạp của việc phân tán dữ liệu. Máy chủ thực hiện hầu hết các công việc quản lý dữ liệu. Nghĩa là tất cả mọi xử lý và tối ưu hoá truy vấn, quản lý giao dịch và quản lý lưu trữ đều được thực hiện trên máy chủ. Máy khách, ngoài ứng dụng và giao diện người sử dụng, có một module hệ quản trị CSDL máy khách trách nhiệm quản lý dữ liệu và khóa giao dịch được gửi đến máy khách.
Máy khách và máy chủ trao đổi với nhau bởi các câu lệnh SQL. Loại kiến trúc khách-chủ đơn giản chỉ có một máy chủ được truy nhập bởi nhiều máy khách, gọi là đa khách-một chủ. Việc quản lý dữ liệu không khác so với CSDL tập trung. CSDL được lưu chỉ trên máy chủ và có phần mềm quản lý nó.
Tuy nhiên, sự khác biệt quan trọng so với các hệ thống tập trung là cách thực thi giao dịch và quản lý bộ nhớ đệm (cache). Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. Hệ thống khách/ chủ Loại kiến trúc có nhiều máy chủ trong hệ thống, được gọi là đa khách- đa chủ. Có 2 chiến lược quản lý: hoặc máy khách quản lý kết nối của nó tới máy chủ hoặc máy khách chỉ biết máy chủ của nó và liên lạc với các máy khác qua máy chủ khi có yêu cầu.
Mô hình CSDL logic khách-chủ là duy nhất. Mô hình mức vật lý của nó có thể phân tán. Mô hình phân tán ngang hàng Trong mô hình xử lý ngang hàng, các hệ thống tham gia có vai trò như nhau. Chúng có thể vừa yêu cầu dịch vụ từ một hệ thống khác hoặc vừa trở thành nơi cung cấp dịch vụ.
Một cách lý tưởng, mô hình tính toán ngang hàng cung cấp cho xử lý hợp tác giữa các ứng dụng có thể nằm trên các phần cứng hoặc hệ điều hành khác nhau. Mục đích của môi trường xử lý ngang hàng là để hỗ trợ các CSDL được nối mạng. Như vậy người sử dụng hệ quản trị CSDL sẽ có thể truy cập tới nhiều CSDL không đồng nhất. Ngày nay, CSDL phân tán được hầu hết các hệ quản trị CSDL lớn hỗ trợ như Microsoft SQL Server, Oracle, DB2 … và được ứng dụng trong hầu hết các hệ thống thông tin phân tán.
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. Mô hình nhân bản chính - phụ Theo [1, 2], để hiểu được mô hình này trước tiên ta phải hiểu khái niệm “Replication” là gì. Replication có ý nghĩa là “nhân bản”, là có một phiên bản giống hệt phiên bản đang tồn tại, đang sử dụng.