Luận Văn Thạc Sĩ: Loại Bỏ Mẩu Tin Nhân Bản Thừa Trong Cơ Sở Dữ Liệu Quan Hệ

Luận văn thạc sĩ VNU UET nghiên cứu phương pháp loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ, nâng cao hiệu quả quản lý dữ liệu.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2009

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. CƠ SỞ DỮ LIỆU QUAN HỆ

1.2. PHÂN MẢNH CƠ SỞ DỮ LIỆU QUAN HỆ

1.3. LÝ THUYẾT CHẮC CHẮN

1.4. TỔNG KẾT CHƯƠNG 1

2. CHƯƠNG 2: THUẬT TOÁN LOẠI BỎ MẨU TIN NHÂN BẢN THỪA TRONG CSDL QUAN HỆ

2.1. TƯ TƯỞNG CỦA THUẬT TOÁN

2.2. TIÊU CHUẨN THẨM ĐỊNH BẢN GHI NHÂN BẢN THỪA

2.3. NỘI DUNG THUẬT TOÁN

2.4. TỔNG KẾT CHƯƠNG 2

3. CHƯƠNG 3: ỨNG DỤNG THUẬT TOÁN

3.1. HỆ THỐNG LOẠI BỎ MẨU TIN NHÂN BẢN THỪA TRONG CSDL QUAN HỆ

3.1.1. Mô tả bài toán

3.1.2. Yêu cầu đặt ra đối với hệ thống

3.1.3. Khả năng giải quyết bài toán

3.2. THIẾT KẾ HỆ THỐNG LOẠI BỎ MẨU TIN NHÂN BẢN THỪA TRONG CSDL QUAN HỆ

3.2.1. Xây dựng các lớp đối tượng

3.2.2. Biểu đồ tuần tự

3.3. KẾT QUẢ ỨNG DỤNG THUẬT TOÁN

3.3.1. Môi trường phát triển

3.3.2. Kết quả thực nghiệm

3.4. TỔNG KẾT CHƯƠNG 3

4. CHƯƠNG 4: KẾT LUẬN & HƯỚNG PHÁT TRIỂN

4.1. Kết quả thu được trong quá trình nghiên cứu đề tài

4.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Loại Bỏ Mẩu Tin Nhân Bản Thừa Trong Cơ Sở Dữ Liệu Quan Hệ

Trong thời đại số, việc quản lý dữ liệu trở nên quan trọng hơn bao giờ hết. Mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ gây ra nhiều vấn đề nghiêm trọng, từ việc làm giảm hiệu suất truy vấn đến việc ảnh hưởng đến độ chính xác của dữ liệu. Việc loại bỏ những mẩu tin này không chỉ giúp cải thiện hiệu suất mà còn nâng cao chất lượng dữ liệu. Bài viết này sẽ đi sâu vào các phương pháp và ứng dụng thực tiễn của việc loại bỏ mẩu tin nhân bản thừa.

1.1. Khái Niệm Về Mẩu Tin Nhân Bản Trong Cơ Sở Dữ Liệu

Mẩu tin nhân bản là những bản ghi giống hệt nhau trong một quan hệ. Chúng có thể xuất hiện do nhiều nguyên nhân như lỗi nhập liệu hoặc quá trình đồng bộ hóa dữ liệu không chính xác. Việc nhận diện và loại bỏ chúng là rất cần thiết để duy trì tính toàn vẹn của dữ liệu.

1.2. Tầm Quan Trọng Của Việc Loại Bỏ Mẩu Tin Nhân Bản

Việc loại bỏ mẩu tin nhân bản không chỉ giúp tiết kiệm không gian lưu trữ mà còn cải thiện tốc độ truy vấn. Dữ liệu sạch sẽ giúp các nhà phân tích đưa ra quyết định chính xác hơn, từ đó nâng cao hiệu quả kinh doanh.

II. Vấn Đề Và Thách Thức Trong Việc Loại Bỏ Mẩu Tin Nhân Bản Thừa

Mặc dù việc loại bỏ mẩu tin nhân bản thừa là cần thiết, nhưng nó cũng đối mặt với nhiều thách thức. Các vấn đề như xác định chính xác các bản ghi nhân bản, xử lý dữ liệu lớn và đảm bảo tính toàn vẹn của dữ liệu là những thách thức lớn. Bài viết này sẽ phân tích các vấn đề chính và cách giải quyết chúng.

2.1. Xác Định Các Bản Ghi Nhân Bản

Xác định các bản ghi nhân bản là một trong những thách thức lớn nhất. Các thuật toán cần phải đủ thông minh để phân biệt giữa các bản ghi thực sự giống nhau và các bản ghi khác nhau nhưng có giá trị tương tự.

2.2. Quản Lý Dữ Liệu Lớn

Khi làm việc với cơ sở dữ liệu lớn, việc loại bỏ mẩu tin nhân bản trở nên phức tạp hơn. Các thuật toán cần phải được tối ưu hóa để xử lý khối lượng dữ liệu lớn mà không làm giảm hiệu suất hệ thống.

III. Phương Pháp Loại Bỏ Mẩu Tin Nhân Bản Thừa Hiệu Quả

Có nhiều phương pháp để loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ. Các phương pháp này bao gồm sử dụng các thuật toán xác định độ chắc chắn, phân tích cú pháp và các kỹ thuật học máy. Bài viết này sẽ trình bày chi tiết về các phương pháp này.

3.1. Thuật Toán Xác Định Độ Chắc Chắn

Thuật toán xác định độ chắc chắn giúp đánh giá mức độ giống nhau giữa các bản ghi. Bằng cách sử dụng các hệ số chắc chắn, thuật toán có thể xác định được bản ghi nào là nhân bản và cần loại bỏ.

3.2. Phân Tích Cú Pháp Để Nhận Diện Mẩu Tin Nhân Bản

Phân tích cú pháp là một phương pháp hiệu quả để nhận diện các bản ghi nhân bản. Bằng cách phân tích cấu trúc và nội dung của dữ liệu, hệ thống có thể phát hiện và loại bỏ các bản ghi không cần thiết.

IV. Ứng Dụng Thực Tiễn Của Thuật Toán Loại Bỏ Mẩu Tin Nhân Bản Thừa

Việc áp dụng các thuật toán loại bỏ mẩu tin nhân bản thừa đã mang lại nhiều lợi ích cho các tổ chức. Các hệ thống quản lý dữ liệu hiện đại đã tích hợp các thuật toán này để cải thiện hiệu suất và độ chính xác của dữ liệu. Bài viết này sẽ trình bày một số ứng dụng thực tiễn.

4.1. Hệ Thống Quản Lý Dữ Liệu Trong Doanh Nghiệp

Nhiều doanh nghiệp đã áp dụng các thuật toán loại bỏ mẩu tin nhân bản để tối ưu hóa hệ thống quản lý dữ liệu. Điều này giúp giảm thiểu chi phí và nâng cao hiệu quả hoạt động.

4.2. Kết Quả Nghiên Cứu Từ Các Dự Án Thực Tế

Các nghiên cứu từ các dự án thực tế cho thấy việc loại bỏ mẩu tin nhân bản thừa đã giúp cải thiện đáng kể chất lượng dữ liệu và hiệu suất hệ thống. Những kết quả này chứng minh tính khả thi và hiệu quả của các phương pháp đã được áp dụng.

V. Kết Luận Và Hướng Phát Triển Trong Tương Lai

Việc loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ là một nhiệm vụ quan trọng và cần thiết. Các phương pháp hiện tại đã cho thấy hiệu quả, nhưng vẫn còn nhiều tiềm năng để phát triển hơn nữa. Bài viết này sẽ tóm tắt những gì đã đạt được và hướng phát triển trong tương lai.

5.1. Đánh Giá Kết Quả Nghiên Cứu

Kết quả nghiên cứu cho thấy việc loại bỏ mẩu tin nhân bản thừa đã mang lại nhiều lợi ích cho các tổ chức. Tuy nhiên, vẫn cần tiếp tục nghiên cứu để cải thiện các phương pháp hiện tại.

5.2. Hướng Phát Triển Trong Tương Lai

Trong tương lai, việc áp dụng các công nghệ mới như học máy và trí tuệ nhân tạo có thể giúp cải thiện đáng kể quy trình loại bỏ mẩu tin nhân bản thừa. Điều này sẽ mở ra nhiều cơ hội mới cho việc quản lý dữ liệu hiệu quả hơn.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của các hệ thống cơ sở dữ liệu quan hệ, chất lượng dữ liệu ngày càng trở thành yếu tố then chốt ảnh hưởng đến hiệu quả xử lý và phân tích thông tin. Theo ước tính, khoảng 5% dữ liệu trong các hệ thống thực tế là dữ liệu “bẩn” hoặc dị thường, trong đó phổ biến nhất là các bản ghi nhân bản thừa. Những bản ghi này không chỉ làm giảm độ chính xác của kết quả xử lý mà còn gây ra sự lãng phí tài nguyên và làm giảm giá trị của hệ thống phần mềm. Luận văn tập trung nghiên cứu và phát triển thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ, nhằm nâng cao chất lượng dữ liệu và hiệu quả xử lý. Nghiên cứu được thực hiện trên cơ sở dữ liệu quan hệ với số lượng bản ghi từ 50 đến 300, trong phạm vi các hệ quản trị phổ biến như Microsoft SQL Server, Oracle, MySQL và Microsoft Access. Mục tiêu cụ thể là xây dựng thuật toán dựa trên lý thuyết chắc chắn và kiến thức chuyên gia để nhận diện và loại bỏ các bản ghi nhân bản thừa một cách bán tự động, đồng thời phát triển hệ thống ứng dụng hỗ trợ người dùng trong việc xác minh và xử lý dữ liệu. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc cải thiện chất lượng dữ liệu, giảm thiểu sai sót và tăng cường độ tin cậy của các hệ thống quản lý dữ liệu lớn hiện nay.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: cơ sở dữ liệu quan hệ và lý thuyết chắc chắn.

Cơ sở dữ liệu quan hệ: Dữ liệu được tổ chức dưới dạng các bảng (quan hệ) với các thuộc tính và bộ (bản ghi). Các phép toán đại số quan hệ như phép chọn, phép chiếu, phép nối, phép hợp, giao và trừ tập hợp được sử dụng để thao tác và truy vấn dữ liệu. Phân mảnh cơ sở dữ liệu (ngang, dọc, hỗn hợp) được áp dụng để tối ưu lưu trữ và xử lý dữ liệu phân tán. Khóa chính và siêu khóa được dùng để đảm bảo tính duy nhất của bản ghi trong quan hệ.
Lý thuyết chắc chắn (Certainty Factor - CF): Được sử dụng để đánh giá độ tin cậy của dữ kiện và luật trong hệ chuyên gia. CFf biểu thị độ chắc chắn của dữ kiện, nằm trong khoảng [-1,1], với giá trị gần 1 thể hiện độ tin cậy cao. CFr là hệ số chắc chắn của luật, thể hiện mức độ tin tưởng vào luật khi áp dụng. Các quy tắc tính toán CF bao gồm kết hợp các điều kiện với AND/OR, truyền CF từ tiền đề sang kết luận, và kết hợp nhiều CF từ các luật khác nhau để đưa ra phán đoán cuối cùng.

Các khái niệm chính bao gồm: quan hệ, siêu khóa, khóa chính, phân mảnh cơ sở dữ liệu, hệ số chắc chắn cho dữ kiện và luật, các phép toán đại số quan hệ, và các quy tắc tính toán CF.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp xây dựng và kiểm thử thuật toán trên cơ sở lý thuyết đã nêu.

Nguồn dữ liệu: Dữ liệu thực nghiệm được lấy từ các cơ sở dữ liệu quan hệ với số lượng bản ghi từ 50 đến 300, bao gồm các hệ quản trị phổ biến như Microsoft SQL Server, Oracle, MySQL và Microsoft Access.
Phương pháp phân tích: Thuật toán được phát triển dựa trên việc phân mảnh ngang quan hệ theo các thuộc tính có giá trị lặp, tính toán hệ số chắc chắn cho từng bản ghi dựa trên kiến thức chuyên gia, và áp dụng tiêu chuẩn thẩm định để xác định và loại bỏ các bản ghi nhân bản thừa. Phương pháp này kết hợp lý thuyết chắc chắn với mô hình hệ chuyên gia để xử lý dữ liệu bán tự động.
Timeline nghiên cứu: Quá trình nghiên cứu bao gồm các bước: tổng hợp kiến thức lý thuyết (Chương 1), phát triển thuật toán (Chương 2), thiết kế và triển khai hệ thống ứng dụng (Chương 3), kiểm thử và đánh giá hiệu quả trên dữ liệu thực tế, kết luận và đề xuất hướng phát triển (Chương 4).

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả nhận diện bản ghi nhân bản thừa: Thuật toán xác định độ chắc chắn lặp cho từng bản ghi dựa trên các luật chuyên gia, với hệ số chắc chắn CFf được tính toán và gán cho từng bản ghi. Ví dụ, các bản ghi có cùng số chứng minh thư được gán CF = 0, tức chắc chắn là nhân bản thừa. Qua kiểm thử trên quan hệ có 50-300 bản ghi, thuật toán đã loại bỏ thành công các bản ghi nhân bản thừa, giảm thiểu sai sót dữ liệu.
Tiêu chuẩn thẩm định bản ghi nhân bản thừa: Sử dụng hai ngưỡng cận dưới (pm) và cận trên (pM) để phân loại bản ghi thành nhân bản thừa, nghi ngờ nhân bản và không nhân bản. Các bản ghi có tích độ chắc chắn nhỏ hơn pm được loại bỏ, chiếm khoảng 10-15% tổng số bản ghi trong thử nghiệm. Bản ghi có CF nằm giữa pm và pM được đưa vào diện nghi ngờ, chiếm khoảng 5-7%, cần người dùng xác minh.
Ứng dụng hệ chuyên gia trong xử lý dữ liệu: Hệ thống ứng dụng mô hình hệ chuyên gia với thành phần Rule Engine đọc và xử lý các luật từ file XML, cho phép linh hoạt cập nhật kiến thức chuyên gia. Điều này giúp hệ thống xử lý dữ liệu từ nhiều nguồn khác nhau và thích ứng với các bảng dữ liệu cụ thể.
Tính bán tự động của hệ thống: Hệ thống cho phép người dùng xác minh các bản ghi nghi ngờ nhân bản thừa trước khi quyết định loại bỏ, đảm bảo độ chính xác và giảm thiểu rủi ro mất dữ liệu quan trọng. Giao diện đơn giản, dễ sử dụng hỗ trợ người dùng trong quá trình xác minh.

Thảo luận kết quả

Nguyên nhân chính giúp thuật toán đạt hiệu quả cao là việc kết hợp chặt chẽ giữa kiến thức chuyên gia và lý thuyết chắc chắn, cho phép đánh giá chính xác mức độ nhân bản thừa của các bản ghi. So với các phương pháp làm sạch dữ liệu truyền thống chỉ dựa trên so sánh trực tiếp, phương pháp này giảm thiểu sai sót do dữ liệu không đồng nhất hoặc thiếu thông tin. Kết quả kiểm thử cho thấy tỷ lệ loại bỏ bản ghi nhân bản thừa đạt hiệu quả khoảng 85-90%, phù hợp với các nghiên cứu trong ngành về làm sạch dữ liệu. Việc sử dụng phân mảnh ngang giúp giảm thiểu phạm vi so sánh, tăng tốc độ xử lý và giảm tải bộ nhớ. Dữ liệu có thể được trình bày qua biểu đồ phân bố CF của các bản ghi, biểu đồ tỷ lệ bản ghi nhân bản thừa theo từng luật, và bảng tổng hợp số lượng bản ghi được giữ lại, loại bỏ hoặc nghi ngờ, giúp người dùng dễ dàng đánh giá chất lượng dữ liệu sau xử lý.

Đề xuất và khuyến nghị

Triển khai hệ thống làm sạch dữ liệu tự động hơn: Tăng cường khả năng tự động hóa trong việc xác minh bản ghi nghi ngờ nhân bản thừa bằng cách tích hợp các kỹ thuật học máy để giảm thiểu sự can thiệp của người dùng, hướng tới mục tiêu nâng tỷ lệ xử lý tự động lên trên 80% trong vòng 12 tháng.
Mở rộng phạm vi áp dụng thuật toán: Nghiên cứu và phát triển thuật toán loại bỏ mẩu tin nhân bản thừa cho toàn bộ cơ sở dữ liệu quan hệ, không chỉ giới hạn trong một quan hệ đơn lẻ, nhằm xử lý dữ liệu lớn và phức tạp hơn, dự kiến hoàn thành trong 18 tháng tới.
Cập nhật và mở rộng cơ sở tri thức chuyên gia: Thiết lập quy trình thu thập, đánh giá và cập nhật các luật chuyên gia thường xuyên để đảm bảo tính chính xác và phù hợp với các lĩnh vực ứng dụng khác nhau, thực hiện định kỳ mỗi 6 tháng.
Tăng cường giao diện người dùng và báo cáo: Phát triển giao diện trực quan hơn, hỗ trợ báo cáo chi tiết về quá trình làm sạch dữ liệu, giúp người dùng dễ dàng theo dõi và ra quyết định, dự kiến hoàn thiện trong 6 tháng.
Đào tạo và hướng dẫn sử dụng hệ thống: Tổ chức các khóa đào tạo cho người dùng cuối và quản trị viên hệ thống để nâng cao hiệu quả sử dụng và khai thác hệ thống, triển khai liên tục trong quá trình vận hành.

Đối tượng nên tham khảo luận văn

Chuyên gia và nhà phát triển phần mềm quản lý dữ liệu: Có thể áp dụng thuật toán và hệ thống để nâng cao chất lượng dữ liệu trong các sản phẩm phần mềm quản lý cơ sở dữ liệu, đặc biệt trong các hệ thống doanh nghiệp lớn.
Nhà nghiên cứu trong lĩnh vực khoa học dữ liệu và công nghệ phần mềm: Tham khảo để phát triển các phương pháp làm sạch dữ liệu mới, tích hợp lý thuyết chắc chắn và hệ chuyên gia trong xử lý dữ liệu phức tạp.
Quản trị viên hệ thống và kỹ sư dữ liệu: Sử dụng hệ thống để kiểm soát và cải thiện chất lượng dữ liệu trong các tổ chức, giảm thiểu rủi ro do dữ liệu sai lệch hoặc trùng lặp.
Các tổ chức và doanh nghiệp sử dụng dữ liệu lớn: Đặc biệt trong lĩnh vực ngân hàng, y tế, giáo dục và thương mại điện tử, nơi chất lượng dữ liệu ảnh hưởng trực tiếp đến quyết định kinh doanh và vận hành.

Câu hỏi thường gặp

Thuật toán loại bỏ bản ghi nhân bản thừa hoạt động như thế nào?
Thuật toán dựa trên việc phân mảnh ngang quan hệ theo các thuộc tính có giá trị lặp, tính toán hệ số chắc chắn CF cho từng bản ghi dựa trên luật chuyên gia, sau đó áp dụng tiêu chuẩn thẩm định với ngưỡng cận dưới và cận trên để xác định bản ghi nhân bản thừa hoặc nghi ngờ. Ví dụ, bản ghi có cùng số chứng minh thư được gán CF = 0, chắc chắn là nhân bản.
Hệ thống có thể xử lý dữ liệu từ những nguồn nào?
Hệ thống hỗ trợ dữ liệu từ nhiều nguồn phổ biến như Microsoft SQL Server, Oracle, MySQL, Microsoft Access và các file cơ sở dữ liệu, nhờ vào thành phần xử lý luật linh hoạt và khả năng kết nối đa dạng.
Người dùng có thể can thiệp vào quá trình loại bỏ bản ghi không?
Có, hệ thống là bán tự động, cho phép người dùng xác minh các bản ghi nghi ngờ nhân bản thừa trước khi quyết định loại bỏ, giúp giảm thiểu sai sót và bảo đảm tính chính xác.
Làm thế nào để cập nhật các luật chuyên gia trong hệ thống?
Luật được lưu trữ dưới dạng file XML, người dùng hoặc chuyên gia có thể chỉnh sửa hoặc thêm mới các luật này để phù hợp với đặc thù dữ liệu và lĩnh vực ứng dụng, giúp hệ thống luôn cập nhật kiến thức mới.
Hiệu quả của thuật toán được đánh giá như thế nào?
Qua kiểm thử trên dữ liệu thực tế với số lượng bản ghi từ 50 đến 300, thuật toán đạt tỷ lệ loại bỏ bản ghi nhân bản thừa khoảng 85-90%, đồng thời giảm thiểu sai sót nhờ cơ chế xác minh của người dùng. Kết quả có thể được trình bày qua biểu đồ phân bố hệ số chắc chắn và bảng tổng hợp số lượng bản ghi xử lý.

Kết luận

Luận văn đã xây dựng thành công thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ dựa trên lý thuyết chắc chắn và kiến thức chuyên gia.
Hệ thống ứng dụng được phát triển hỗ trợ xử lý dữ liệu từ nhiều nguồn, với khả năng bán tự động giúp người dùng xác minh và loại bỏ bản ghi nhân bản thừa hiệu quả.
Kiểm thử trên dữ liệu thực tế cho thấy thuật toán đạt hiệu quả cao, giảm thiểu sai sót và nâng cao chất lượng dữ liệu.
Đề xuất mở rộng phạm vi áp dụng thuật toán cho toàn bộ cơ sở dữ liệu và tăng cường tự động hóa trong xác minh bản ghi nghi ngờ.
Khuyến khích các nhà nghiên cứu và chuyên gia trong lĩnh vực công nghệ phần mềm và quản lý dữ liệu tiếp tục phát triển và ứng dụng các giải pháp làm sạch dữ liệu dựa trên mô hình hệ chuyên gia và lý thuyết chắc chắn.

Hãy bắt đầu áp dụng các giải pháp làm sạch dữ liệu tiên tiến để nâng cao chất lượng và hiệu quả quản lý dữ liệu trong tổ chức của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

Chương 1 CƠ SỞ LÝ THUYẾT 1.1 CƠ SỞ DỮ LIỆU QUAN HỆ Các cơ sở dữ liệu và các hệ quản trị cơ sở dữ liệu đã trở thành một thành phần chủ yếu trong cuộc sống hàng ngày của xã hội hiện đại. Trong vòng một ngày con người có thể có nhiều hoạt động cần có sự giao tiếp với cơ sở dữ liệu như: đến ngân hàng để rút tiền và gửi tiền, đăng ký chỗ trên máy bay hoặc khách sạn, truy cập vào thư viện đã tin học hoá để tìm sách báo, đặt mua tạp chí ở một nhà xuất bản… Tại các ngân hàng, các cửa hàng, người ta cũng cập nhật tự động việc quản lý tiền bạc, hàng hoá. Tất cả các giao tiếp như trên được gọi là các ứng dụng của cơ sở dữ liệu truyền thống. Trong các cơ sở dữ liệu truyền thống, hầu hết các thông tin được lưu giữ và truy cập là văn bản hoặc số.

Những năm gần đây, những tiến bộ về kỹ thuật đã đưa đến những ứng dụng mới của cơ sở dữ liệu. Các cơ sở dữ liệu đa phương tiện bây giờ có thể lưu trữ hình ảnh, phim và tiếng nói. Các hệ thống thông tin địa lý có thể lưu trữ và phân tích các bản đồ, các dữ liệu về thời tiết và các ảnh vệ tinh. Kho dữ liệu và các hệ thống phân tích trực tuyến được sử dụng trong nhiều công ty để lấy ra và phân tích những thông tin có lợi từ các cơ sở dữ liệu rất lớn nhằm đưa ra các quyết định.

Các kỹ thuật cơ sở dữ liệu động và thời gian thực được sử dụng trong việc kiểm tra các tiến trình công nghiệp và sản xuất. Các kỹ thuật tìm kiếm cơ sở dữ liệu đang được áp dụng cho World Wide Web để cung cấp việc tìm kiếm các thông tin cần thiết cho người sử dụng bằng cách duyệt qua Internet. Để hiểu được các cơ sở kỹ thuật của cơ sở dữ liệu chúng ta phải bắt đầu từ những khái niệm cơ bản về cơ sở dữ liệu. Mục đích của chương này là định nghĩa cơ sở dữ liệu quan hệ, các phép toán trên cơ sở dữ liệu quan hệ và cơ sở dữ liệu phân tán.1 Khái niệm về CSDL quan hệ Trong cơ sở dữ liệu quan hệ, dữ liệu được lưu trữ dưới dạng các bảng, gọi là các quan hệ.

Mỗi một dòng trong bảng biểu thị một sự kiện tương ứng với một thực thể LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 hoặc một liên kết của thế giới thực. Tên bảng và tên cột dùng để giải thích ý nghĩa của các giá trị trong mỗi hàng. Mọi giá trị trong cùng một cột có cùng một kiểu dữ liệu. Theo thuật ngữ mô hình quan hệ hình thức, mỗi hàng được gọi là một bộ, mỗi cột được gọi là thuộc tính và bảng được gọi là một quan hệ.

Số lượng các thuộc tính có trong một quan hệ gọi là mức(grade), số lượng các bộ gọi là lực lượng(cardinality) của quan hệ đó. Để hiểu rõ hơn các khái niệm nêu trên chúng ta xét ví dụ sau đây: Bảng 1-1 biểu diễn quan hệ EMP (NHÂN VIÊN) gồm 4 thuộc tính: EMPNUM (Mã số nhân viên), NAME (Tên nhân viên), AGE (Tuổi), DEPTNUM (Mã số phòng ban) và 5 bộ, ví dụ (18, Mary, 31, 1) là một bộ. Quan hệ này có 4 thuộc tính do vậy mức của quan hệ này là 4 và lực lượng của quan hệ này là 5. EMPNUM NAME AGE DEPTNUM 3 Jones 23 1 7 Smith 45 2 11 Bob 18 1 15 Jane 27 3 18 Mary 31 1 Bảng 1-1 Quan hệ EMP Một lược đồ quan hệ được tạo nên từ tên một quan hệ và danh sách các thuộc tính của nó, kí hiêu một lược đồ quan hệ như sau: <Tên quan hệ>(<danh sách các thuộc tính>).

Ví dụ: EMP(EMPNUM, NAME, AGE, DEPTNUM) là lược đồ quan hệ của quan hệ EMP ở trên. Tập hợp các giá trị có thể có của một thuộc tính gọi là miền của thuộc tính. Ví dụ, EMPNUM lấy giá trị từ miền mã số nhân viên, là các số nguyên dương, AGE có miền giá trị từ tuổi, giá trị từ 0 tới 100. Có thể tồn tại những giá trị giống nhau giữa hai miền nhưng về bản chất nó thuộc về hai miền hoàn toàn khác nhau, do vậy không thể so sánh các giá trị của những miền khác nhau.

Ví dụ, thật vô nghĩa khi so sánh tuổi với mã số nhân viên. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 Một số khía cạnh quan trọng định nghĩa cơ sở dữ liệu quan hệ: 9 Không bao giờ có hai bản ghi giống hệt nhau trong một quan hệ. 9 Không có quy định về thứ tự các bản ghi trong một quan hệ. Một quan hệ được định nghĩa như một tập hợp các bộ.

Các phần tử trong một tập hợp không có thứ tự, vì vậy các bộ trong một quan hệ không có một thứ tự cụ thể. Trong thực tế, không phải tất cả hệ quản trị cơ sở dữ liệu quan hệ nào cũng tuân thủ chặt chẽ quy định này. Vì vậy, trong một số hệ quan trị cở sở dữ liệu vẫn tồn tại các bản ghi nhân bản và vẫn đưa ra một thứ tự sắp xếp ngầm nào đó để thuận tiện trong quá trình xử lý. Người ta cũng đưa ra một định nghĩa khác về quan hệ dựa trên khái niệm về miền.

Trong định nghĩa này, người ta cho tập hợp các miền D1, D2,…, Dn có gán thứ tự ưu tiên, quan hệ mức n của các miền này là tập con của tích Đề Các của chúng. Chính xác hơn, quan hệ R là tập hợp các bản ghi có thứ tự (d1, d2,…, dn) trong đó d1 thuộc miền D1, d2 thuộc miền D2,…, dn thuộc miền Dn. Định nghĩa này rất hữu dụng trong việc phân tích các tính chất của mô hình quan hệ và đại số. Trong tài liệu này, chúng ta coi thứ tự các cột trong một quan hệ là không quan trọng.

Điều này có nghĩa chúng ta coi quan hệ là ánh xạ từ tập tên của các thuộc tính tới tập giá trị tương ứng. Vì vậy, quan hệ EMP1 dưới đây cũng giống quan hệ EMP ở hình 1-1. EMPNUM AGE DEPTNUM NAME 3 23 1 Jones 7 45 2 Smith 11 18 1 Bob 15 27 3 Jane 18 31 1 Mary Bảng 1-2 Quan hệ EMP1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1 Khóa Một quan hệ được định nghĩa như một tập hợp các bộ. Theo định nghĩa, các phần tử của một tập hợp là khác nhau, vì vậy, mọi bộ trong một quan hệ phải khác nhau.

Điều đó có nghĩa là không có hai bộ có cùng một tổ hợp giá trị cho tất cả các thuộc tính của chúng. Thông thường, tồn tại tập con của các thuộc tính của một quan hệ có tính chất: không có hai bộ nào có cùng một tổ hợp giá trị cho các thuộc tính của nó. Giả sử chúng ta ký hiệu tập con như vậy là SK, khi đó với hai bộ khác nhau bất t1 và t2 trong quan hệ R chúng ta có ràng buộc là t1[SK] # t2[SK]. Tập hợp SK như vậy gọi là siêu khóa của lược đồ quan hệ R.

Mỗi quan hệ có ít nhất một siêu khóa mặc định, đó là tập hợp tất cả các thuộc tính của nó. Một khóa K của lược đồ quan hệ R là một siêu khóa của R với tính chất nếu bỏ đi bất kì thuộc tính nào ra khỏi K thì sẽ còn lại một tập K không phải là siêu khóa của R. Như vậy, một khóa là một siêu khóa tối thiểu, nghĩa là đó là một siêu khóa mà ta không thể vứt bỏ thuộc tính nào rời khỏi nó mà vẫn giữ được ràng buộc về tính duy nhất. Tính chất quan trọng của khóa là duy nhất về mặt ngữ nghĩa, chúng ta không coi một thuộc tính là khóa chỉ vì nó thỉnh thoảng mới định danh cho một bản ghi nào đó.

Trong bảng 1-1, EMPNUM(mã số nhân viên) là khóa của quan hệ EMP, bởi vì không có hai bộ nhân viên có cùng một giá trị cho EMPNUM(mã số nhân viên). Mọi tập hợp thuộc tính có chứa EMPNUM(mã số nhân viên), ví dụ {EMPNUM, AGE}, đều là một siêu khóa. Tuy nhiên, siêu khóa {EMPNUM, AGE} không phải là khóa vì nếu bỏ thuộc tính AGE đi thì nó vẫn còn là một siêu khóa. Một khóa được xác định từ ý nghĩa của thuộc tính và tính chất là bất biến, tính chất đó phải thỏa mãn khi chúng ta chèn một bộ mới vào quan hệ.

Ví dụ: chúng ta không thể và không được chỉ định thuộc tính NAME(Tên nhân viên) làm khóa vì không có gì đảm bảo rằng không tồn tại hai nhân viên có cùng họ tên. Nói chung, một lược đồ quan hệ có thể có nhiều hơn một khóa. Trong trường hợp đó, mỗi khóa được gọi là một khóa dự tuyển. Thông thường ta phải chỉ định một trong LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 16 các khóa dự tuyển làm khóa chính của quan hệ.

Khóa chính là một khóa dự tuyển mà các giá trị của chúng được dùng để xác định các bộ trong quan hệ. Chú ý rằng, khi một lược đồ quan hệ có nhiều khóa dự tuyển thì việc lựa chọn khóa chính là tùy ý, tuy nhiên tốt nhất là chọn khóa chính gồm một thuộc tính hoặc có số thuộc tính ít nhất.2 Các phép toán đại số quan hệ Ngoài việc định nghĩa cấu trúc cơ sở dữ liệu và các ràng buộc, một mô hình dữ liệu phải chứa một tập hợp các phép toán để thao tác dữ liệu. Tập hợp cơ sở các phép toán mô hình quan hệ tạo nên đại số quan hệ. Các phép toán này giúp cho người sử dụng xác định rõ yêu cầu lấy tin cơ bản.

Kết quả của phép lấy tin là một quan hệ mới, có thể được tạo ra từ một hoặc nhiều quan hệ. Các phép toán quan hệ đại số chia làm hai nhóm. Một nhóm bao gồm các phép toán tập hợp lấy từ lý thuyết tập hợp toán học. Các phép toán đó là phép hợp, phép giao, phép trừ tập hợp và phép tích Đề Các.

Nhóm kia bao gồm những phép toán được xây dựng đặc biệt cho các cơ sở dữ liệu quan hệ. Các phép toán đó là phép chiếu, phép chọn, phép nối và một số phép khác.1 Phép chọn Phép chọn được sử dụng để chọn ra một tập hợp các bộ thỏa mãn điều kiện chọn từ một quan hệ. Ta có thể xem phép chọn như bộ lọc, nó chỉ giữ lại những bộ thỏa mãn điều kiện đặt ra. Phép chọn được kí hiệu như sau: σ< điều kiện chọn>( R) Trong đó σ được dùng để kí hiệu phép chọn, <điều kiện chọn> là một biểu thức logic được chỉ ra trên các thuộc tính của R.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Quản trị cơ sở dữ liệu quan hệ

Làm sạch dữ liệu trong cơ sở dữ liệu

Thuật toán phát hiện dữ liệu trùng lặp

Ứng dụng lý thuyết chắc chắn xử lý dữ liệu