Luận văn thạc sĩ: Phương pháp di truyền để tóm tắt dữ liệu

Luận văn thạc sĩ kỹ thuật phân tích sử dụng phương pháp xây dựng đặc trưng dựa trên di truyền để tóm tắt dữ liệu, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2012

Phí lưu trữ

30 Point

Mục lục chi tiết

NHỮNG LỜI ĐẦU TIÊN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TÓM TẮT DỮ LIỆU QUAN HỆ VỚI THUẬT TOÁN DARA

1.1. Cơ sở dữ liệu quan hệ

1.2. Tổ chức dữ liệu

1.3. Tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ

1.4. Thuật toán DARA

1.4.1. Giới thiệu

1.5. Tiền xử lí dữ liệu

1.6. Chuyển đổi dữ liệu

2. CHƯƠNG II - GIẢI THUẬT DI TRUYỀN

2.1. Giải thuật di truyền cổ điển

2.1.1. Phương pháp mã hoá và giải mã

2.1.2. Quá trình chọn lọc

2.1.3. Quá trình tái tạo

2.1.4. Sự hội tụ của GA

2.2. Những cải tiến của giải thuật di truyền

2.2.1. Một số cách mã hoá nhiễm sắc thể

2.2.2. Phương pháp chọn lọc

2.2.3. Các toán tử di truyền

2.2.3.1. Toán tử lai ghép

2.2.3.2. Toán tử đột biến

3. CHƯƠNG III - PHƯƠNG PHÁP XÂY DỰNG ĐẶC TRƯNG DỰA TRÊN GIẢI THUẬT DI TRUYỀN ĐỂ TÓM TẮT DỮ LIỆU

3.1. Chuyển đổi đặc trưng

3.1.1. Xây dựng đặc trưng

3.1.2. Biểu diễn đặc trưng

3.2. Chấm điểm đặc trưng

3.3. Xây dựng đặc trưng để tóm tắt dữ liệu

3.3.1. Chuyển đổi đặc trưng dựa trên xây dựng đặc trưng

3.3.2. Phương pháp xây dựng đặc trưng dựa trên giải thuật di truyền

3.3.2.1. Hàm thích nghi

3.3.2.2. Thuật toán xây dựng đặc trưng dựa trên giải thuật di truyền

4. CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM

4.1. Chương trình và dữ liệu thử nghiệm

4.1.1. Chương trình

4.1.2. Dữ liệu thử nghiệm

4.2. Kết quả thử nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tóm tắt dữ liệu và phương pháp di truyền

Tóm tắt dữ liệu là một quá trình quan trọng trong việc khai thác thông tin từ các cơ sở dữ liệu lớn. Tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ thường gặp khó khăn do sự phức tạp của các mối quan hệ giữa các bảng. Phương pháp di truyền, hay phương pháp di truyền, đã được áp dụng để tối ưu hóa quá trình này. Luận văn này nghiên cứu cách sử dụng giải thuật di truyền để xây dựng đặc trưng cho việc tóm tắt dữ liệu, nhằm nâng cao hiệu quả của thuật toán DARA. Việc áp dụng kỹ thuật di truyền giúp tìm ra các đặc trưng tối ưu từ tập dữ liệu lớn, từ đó cải thiện độ chính xác và tốc độ tóm tắt dữ liệu.

1.1. Cơ sở lý thuyết về tóm tắt dữ liệu

Cơ sở dữ liệu quan hệ là nơi lưu trữ dữ liệu theo cấu trúc bảng, với các mối quan hệ giữa các bảng. Phân tích dữ liệu trong cơ sở dữ liệu quan hệ yêu cầu phải hiểu rõ cách thức tổ chức và liên kết giữa các bảng. Tóm tắt dữ liệu trong môi trường này thường sử dụng các thuật toán như DARA để thực hiện việc tổng hợp thông tin từ nhiều bảng có mối quan hệ một-nhiều. Quá trình này bao gồm việc chuyển đổi dữ liệu thành mô hình không gian vector và thực hiện phân cụm để tóm tắt thông tin. Việc áp dụng thuật toán DARA cho phép tối ưu hóa việc tóm tắt dữ liệu, giúp giảm thiểu thông tin thừa và tăng cường khả năng truy xuất thông tin cần thiết.

1.2. Phương pháp di truyền trong tóm tắt dữ liệu

Phương pháp di truyền là một kỹ thuật tối ưu hóa dựa trên nguyên lý chọn lọc tự nhiên. Trong bối cảnh tóm tắt dữ liệu, kỹ thuật di truyền được sử dụng để xây dựng các đặc trưng từ dữ liệu ban đầu. Quá trình này bao gồm các bước như mã hóa, chọn lọc, và tái tạo. Mỗi cá thể trong quần thể đại diện cho một tập hợp các đặc trưng có thể được sử dụng để tóm tắt dữ liệu. Việc áp dụng giải thuật di truyền giúp tìm ra các đặc trưng tối ưu, từ đó cải thiện hiệu quả của thuật toán DARA. Kết quả là, dữ liệu được tóm tắt một cách chính xác và hiệu quả hơn, đáp ứng nhu cầu khai thác thông tin trong các cơ sở dữ liệu lớn.

II. Kết quả thực nghiệm và ứng dụng

Luận văn đã thực hiện các thử nghiệm trên cơ sở dữ liệu về thuê bao di động tại Hà Nội. Kết quả cho thấy việc áp dụng phương pháp di truyền trong tóm tắt dữ liệu mang lại hiệu quả rõ rệt. Các đặc trưng được xây dựng từ giải thuật di truyền không chỉ giúp cải thiện độ chính xác của việc tóm tắt mà còn giảm thiểu thời gian xử lý. Kết quả thử nghiệm cho thấy rằng việc sử dụng thuật toán di truyền có thể tạo ra các đặc trưng có giá trị, từ đó nâng cao khả năng phân tích và khai thác thông tin từ dữ liệu lớn.

2.1. Phân tích kết quả thử nghiệm

Kết quả thử nghiệm cho thấy rằng việc áp dụng giải thuật di truyền đã cải thiện đáng kể hiệu suất tóm tắt dữ liệu. Các đặc trưng được xây dựng từ phương pháp này cho phép tóm tắt thông tin một cách hiệu quả hơn, giảm thiểu thông tin thừa và tăng cường khả năng truy xuất thông tin cần thiết. Sự cải thiện này không chỉ thể hiện qua các chỉ số độ chính xác mà còn qua thời gian xử lý, cho thấy tính khả thi của việc áp dụng phương pháp di truyền trong thực tiễn.

2.2. Ứng dụng thực tiễn

Phương pháp tóm tắt dữ liệu dựa trên giải thuật di truyền có thể được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ quản lý dữ liệu đến phân tích kinh doanh. Việc tối ưu hóa quá trình tóm tắt dữ liệu giúp các tổ chức có thể khai thác thông tin một cách hiệu quả hơn, từ đó đưa ra các quyết định chính xác hơn. Hơn nữa, với sự gia tăng của dữ liệu lớn, việc áp dụng các phương pháp như phương pháp di truyền sẽ ngày càng trở nên quan trọng trong việc xử lý và phân tích dữ liệu.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ sử dụng phương pháp xây dựng đặc trưng dựa trên di truyền để tóm tắt dữ liệu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin, lượng dữ liệu được các tổ chức thu thập và lưu trữ ngày càng gia tăng nhanh chóng, đặc biệt là dữ liệu quan hệ trong các cơ sở dữ liệu đa bảng có mối quan hệ phức tạp. Theo ước tính, việc xử lý và khai thác hiệu quả các dữ liệu này đóng vai trò then chốt trong việc nâng cao chất lượng ra quyết định và phát triển các ứng dụng thông minh. Tuy nhiên, các phương pháp truyền thống thường yêu cầu nối các bảng thành một bảng duy nhất, dẫn đến bảng kết quả quá lớn, gây khó khăn trong xử lý và có thể làm mất thông tin quan trọng.

Luận văn tập trung nghiên cứu phương pháp xây dựng đặc trưng dựa trên giải thuật di truyền (GA) nhằm nâng cao hiệu quả tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ có mối quan hệ một-nhiều, sử dụng thuật toán DARA (Dynamic Aggregation of Relational Attributes). Nghiên cứu được thực hiện trên dữ liệu thuê bao di động phát sinh tại thành phố Hà Nội, với mục tiêu tối ưu hóa tập đặc trưng để cải thiện chất lượng phân cụm và từ đó nâng cao hiệu quả tóm tắt dữ liệu. Phạm vi nghiên cứu bao gồm các bảng dữ liệu quan hệ với số lượng bản ghi lần lượt là 28 bản ghi bảng đích và 203 bản ghi bảng tham chiếu, trong khoảng thời gian thu thập dữ liệu gần đây.

Ý nghĩa của nghiên cứu được thể hiện qua việc giảm thiểu khối lượng dữ liệu cần xử lý, tăng độ chính xác mô tả dữ liệu và hỗ trợ các nhiệm vụ khai phá dữ liệu hiệu quả hơn, đặc biệt trong các hệ thống quản lý dữ liệu lớn và phức tạp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính:

Mô hình cơ sở dữ liệu quan hệ: Dữ liệu được tổ chức thành các bảng có mối quan hệ một-nhiều, trong đó bảng đích liên kết với nhiều bản ghi trong bảng tham chiếu. Mô hình này sử dụng các khái niệm như thuộc tính, miền giá trị, khóa chính và khóa ngoại để biểu diễn cấu trúc dữ liệu.
Giải thuật di truyền (GA): Lấy cảm hứng từ quá trình tiến hóa tự nhiên, GA sử dụng các thao tác chọn lọc, lai ghép và đột biến trên quần thể các cá thể (nhiễm sắc thể) để tìm lời giải tối ưu cho bài toán xây dựng đặc trưng. GA được áp dụng để tìm kiếm tập đặc trưng tối ưu nhằm cải thiện chất lượng phân cụm dữ liệu.

Các khái niệm chuyên ngành quan trọng bao gồm: tóm tắt dữ liệu quan hệ, thuật toán DARA, mã hóa đặc trưng dạng túi mẫu (bag of patterns), phân cụm k-mean, hàm thích nghi (fitness function), chỉ số Davies-Bouldin (DBI), entropy chéo (cross entropy), và information gain (IG).

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là cơ sở dữ liệu thuê bao di động phát sinh tại Hà Nội, gồm 28 bản ghi bảng đích và 203 bản ghi bảng tham chiếu với 6 thuộc tính đặc trưng về các loại gói cước.

Phương pháp nghiên cứu bao gồm các bước chính:

Tiền xử lý dữ liệu: Rời rạc hóa các thuộc tính liên tục, mã hóa các mẫu tin thành số nhị phân, chuyển đổi dữ liệu bảng tham chiếu thành mô hình không gian vector dựa trên ma trận TF-IDF.
Xây dựng đặc trưng: Sử dụng giải thuật di truyền để tìm kiếm tập hợp các đặc trưng mới, kết hợp các thuộc tính ban đầu theo các chuỗi hoán vị và điểm sắp xếp lại, nhằm tối ưu hóa hàm thích nghi dựa trên chỉ số DBI.
Phân cụm dữ liệu: Áp dụng thuật toán k-mean trên dữ liệu đã chuyển đổi để đánh giá chất lượng phân cụm.
Đánh giá và so sánh: So sánh kết quả phân cụm với các phương pháp xây dựng đặc trưng truyền thống như PSingle và Pall.

Quá trình nghiên cứu được thực hiện trong môi trường Java với IDE NetBean, sử dụng cỡ mẫu 50 cá thể trong quần thể GA, chạy nhiều lần để lấy kết quả trung bình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp xây dựng đặc trưng dựa trên GA: Kết quả thử nghiệm cho thấy giá trị hàm mục tiêu (nghịch đảo chỉ số DBI) đạt khoảng 1.057 khi sử dụng GA, cao hơn đáng kể so với các phương pháp PSingle và Pall. Điều này chứng tỏ GA giúp tạo ra tập đặc trưng có chất lượng phân cụm tốt hơn.
Ảnh hưởng của số lượng cụm (k) đến chất lượng phân cụm: Khi thay đổi số cụm từ 3 đến 5, giá trị hàm mục tiêu dao động trong khoảng 1.0 đến 1.05, cho thấy sự ổn định và khả năng thích ứng của phương pháp với các cấu hình phân cụm khác nhau.
Thời gian chạy hợp lý: Thời gian chạy trung bình của thuật toán GA trên tập dữ liệu thử nghiệm là khoảng 34 phút, phù hợp với quy mô và độ phức tạp của bài toán.
Tăng cường mô tả dữ liệu: Việc xây dựng đặc trưng mới giúp giảm không gian đặc trưng ban đầu, tối ưu hóa mô hình phân cụm và nâng cao độ chính xác mô tả dữ liệu.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện chất lượng phân cụm là do GA khai thác hiệu quả không gian tìm kiếm phức tạp của các tập đặc trưng, tránh được các tối ưu cục bộ nhờ các toán tử lai ghép và đột biến. So với các phương pháp xây dựng đặc trưng đơn giản như PSingle (kết hợp từng thuộc tính riêng lẻ) và Pall (kết hợp tất cả thuộc tính thành một đặc trưng duy nhất), GA cho phép linh hoạt kết hợp các thuộc tính theo nhiều cách khác nhau, từ đó tạo ra các đặc trưng phù hợp hơn với cấu trúc dữ liệu.

Kết quả cũng phù hợp với các nghiên cứu trước đây về ứng dụng GA trong xây dựng đặc trưng và tối ưu hóa phân cụm, đồng thời cho thấy tiềm năng ứng dụng trong các hệ thống khai phá dữ liệu quan hệ phức tạp. Biểu đồ so sánh giá trị hàm mục tiêu giữa các phương pháp sẽ minh họa rõ nét sự vượt trội của GA.

Đề xuất và khuyến nghị

Áp dụng rộng rãi phương pháp xây dựng đặc trưng dựa trên GA: Các tổ chức quản lý dữ liệu quan hệ phức tạp nên triển khai phương pháp này để nâng cao hiệu quả tóm tắt và khai phá dữ liệu, đặc biệt trong các lĩnh vực như viễn thông, tài chính và y tế.
Tối ưu tham số thuật toán GA: Nên điều chỉnh các tham số như kích thước quần thể, xác suất lai ghép và đột biến để cân bằng giữa chất lượng kết quả và thời gian xử lý, phù hợp với từng bài toán cụ thể.
Kết hợp hàm thích nghi đa tiêu chí: Khuyến nghị nghiên cứu và thử nghiệm các hàm thích nghi kết hợp giữa information gain, cross entropy và chỉ số DBI để cải thiện khả năng phân loại và mô tả dữ liệu.
Phát triển biểu diễn nhiễm sắc thể đa dạng: Nghiên cứu thêm các cách biểu diễn nhiễm sắc thể mới nhằm tăng tính đa dạng và khả năng tìm kiếm của GA, từ đó nâng cao hiệu quả xây dựng đặc trưng.
Mở rộng thử nghiệm trên các tập dữ liệu lớn hơn và đa dạng hơn: Để đánh giá tính khả thi và hiệu quả của phương pháp trong thực tế, cần triển khai thử nghiệm trên các cơ sở dữ liệu quan hệ có quy mô lớn và thuộc nhiều lĩnh vực khác nhau.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin: Luận văn cung cấp kiến thức chuyên sâu về khai phá dữ liệu quan hệ và ứng dụng giải thuật di truyền trong xây dựng đặc trưng, hỗ trợ nghiên cứu và phát triển đề tài liên quan.
Chuyên gia phát triển hệ thống quản lý dữ liệu lớn (Big Data): Phương pháp tóm tắt dữ liệu hiệu quả giúp giảm tải và tăng tốc độ xử lý, phù hợp với các hệ thống lưu trữ và phân tích dữ liệu quy mô lớn.
Nhà phân tích dữ liệu và kỹ sư dữ liệu trong ngành viễn thông: Ví dụ thực tế về dữ liệu thuê bao di động tại Hà Nội giúp áp dụng trực tiếp các kỹ thuật phân tích và tóm tắt dữ liệu trong lĩnh vực viễn thông.
Các tổ chức và doanh nghiệp cần tối ưu hóa khai thác dữ liệu quan hệ: Phương pháp giúp cải thiện chất lượng dữ liệu đầu vào cho các hệ thống ra quyết định, từ đó nâng cao hiệu quả kinh doanh và quản lý.

Câu hỏi thường gặp

Phương pháp xây dựng đặc trưng dựa trên giải thuật di truyền là gì?
Phương pháp này sử dụng giải thuật di truyền để tìm kiếm tập hợp các đặc trưng mới bằng cách kết hợp và sắp xếp lại các thuộc tính ban đầu nhằm tối ưu hóa chất lượng phân cụm hoặc phân loại dữ liệu. Ví dụ, GA giúp tránh tối ưu cục bộ và tìm ra tập đặc trưng phù hợp hơn so với các phương pháp truyền thống.
Thuật toán DARA hoạt động như thế nào trong tóm tắt dữ liệu quan hệ?
DARA chuyển đổi dữ liệu trong bảng tham chiếu thành mô hình không gian vector, sau đó phân cụm các bản ghi dựa trên đặc trưng của chúng. Kết quả phân cụm được sử dụng để tạo các trường đặc trưng mới nối vào bảng đích, giúp tóm tắt dữ liệu mà không cần nối bảng phức tạp.
Chỉ số Davies-Bouldin (DBI) dùng để làm gì?
DBI là chỉ số đánh giá chất lượng phân cụm, dựa trên khoảng cách giữa các cụm và độ phân tán bên trong cụm. Giá trị DBI càng nhỏ thì phân cụm càng tốt. Trong nghiên cứu, nghịch đảo DBI được dùng làm hàm thích nghi để tối ưu tập đặc trưng.
Làm thế nào để lựa chọn số lượng cụm (k) phù hợp trong phân cụm k-mean?
Số lượng cụm k được lựa chọn dựa trên mục tiêu phân tích và đánh giá chất lượng phân cụm qua các chỉ số như DBI hoặc entropy. Thử nghiệm với nhiều giá trị k khác nhau giúp xác định cấu hình tối ưu.
Phương pháp này có thể áp dụng cho các loại dữ liệu khác ngoài dữ liệu thuê bao di động không?
Có, phương pháp xây dựng đặc trưng dựa trên GA và thuật toán DARA có thể áp dụng cho nhiều loại dữ liệu quan hệ khác nhau, đặc biệt là các cơ sở dữ liệu có mối quan hệ một-nhiều phức tạp, như dữ liệu tài chính, y tế, bán lẻ, v.v.

Kết luận

Luận văn đã giới thiệu và phát triển thành công phương pháp xây dựng đặc trưng dựa trên giải thuật di truyền nhằm nâng cao hiệu quả tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ sử dụng thuật toán DARA.
Phương pháp giúp cải thiện chất lượng phân cụm, giảm thiểu không gian đặc trưng và tăng độ chính xác mô tả dữ liệu.
Kết quả thực nghiệm trên dữ liệu thuê bao di động tại Hà Nội cho thấy giá trị hàm mục tiêu đạt được cao hơn so với các phương pháp truyền thống, đồng thời thời gian xử lý hợp lý.
Nghiên cứu mở ra hướng phát triển tiếp theo với việc thử nghiệm các hàm thích nghi khác và biểu diễn nhiễm sắc thể đa dạng hơn để tối ưu hóa hiệu quả thuật toán.
Khuyến nghị các nhà nghiên cứu và chuyên gia ứng dụng triển khai phương pháp này trong các hệ thống quản lý và khai phá dữ liệu quan hệ phức tạp nhằm nâng cao hiệu quả xử lý và phân tích dữ liệu.

Hãy áp dụng phương pháp xây dựng đặc trưng dựa trên giải thuật di truyền để tối ưu hóa khai phá dữ liệu quan hệ trong dự án của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

MỞ ĐẦU Trong nhiều năm qua, cùng với sự phát triển của công nghệ thông tin và ứng dụng của công nghệ thông tin trong nhiều lĩnh vực của đời sống xã hội, lƣợng dữ liệu đƣợc các cơ quan thu thập và lƣu trữ ngày một nhiều lên. Dữ liệu đƣợc tổ chức thành các cơ sở dữ liệu để đảm bảo đƣợc tính nhất quán, dễ quản lí và đáp ứng nhu cầu khai thác đồng thời của nhiều ngƣời. Với sự gia tăng bùng nổ của dữ liệu hiện nay, các cơ sở dữ liệu thực tế chứa đựng rất nhiều thông tin tiềm ẩn, phong phú và đa dạng, đòi hỏi phải có những phƣơng pháp nhanh, phù hợp, chính xác, hiệu quả để lấy đƣợc những thông tin bổ ích. Công nghệ phát hiện tri thức và khai phá dữ liệu đã ra đời đáp ứng nhu cầu đó và đang đƣợc nghiên cứu, ứng dụng ngày càng rộng rãi.

Khai phá cơ sở dữ liệu quan hệ là một trong những lĩnh vực đang đƣợc quan tâm nghiên cứu của khai phá dữ liệu. Trong một cơ sở dữ liệu quan hệ, dữ liệu đƣợc lƣu trữ trong các bảng có mối quan hệ với nhau. Khi giải quyết bài toán phân loại trong khai phá dữ liệu quan hệ, các phƣơng pháp truyền thống thƣờng yêu cầu liên kết dữ liệu đƣợc lƣu trong nhiều bảng thành một bảng duy nhất. Trong nhiều trƣờng hợp, quá trình này là không hiệu quả vì bảng đã nối quá lớn cho việc xử lí và một số thông tin có thể bị mất khi phép nối thực hiện [2].

Mặt khác, việc áp dụng các phƣơng pháp tóm tắt dữ liệu trên nhiều bảng có quan hệ một-nhiều thƣờng bị hạn chế bởi sự phức tạp của lƣợc đồ cơ sở dữ liệu. Một phƣơng pháp tóm tắt dữ liệu sử dụng thuật toán DARA đã đƣợc đề xuất để giải quyết vấn đề này. Trong một cơ sở dữ liệu quan hệ mà các bảng có mối quan hệ một-nhiều, mỗi bản ghi trong bảng đích đƣợc liên kết với một hoặc nhiều bản ghi trong bảng tham chiếu. Thuật toán DARA chuyển đổi dữ liệu trong bảng tham chiếu vào một mô hình không gian vector và thực hiện phân cụm.

Sau đó, dữ liệu tóm tắt từ bảng tham chiếu sẽ đƣợc cập nhật vào bảng đích. Khi thực hiện chuyển đổi dữ liệu, các bản ghi trong bảng tham chiếu đƣợc đƣa vào các túi mẫu tƣơng ứng với các bản ghi đích. Nghĩa là, mỗi bản ghi đích đƣợc biểu diễn nhƣ một túi các mẫu. Thông thƣờng, tập đặc trƣng đƣợc lấy để xây dựng các mẫu chính là tập các thuộc tính ban đầu trong bảng tham chiếu.

Tập đặc trƣng này cũng có thể đƣợc xây dựng dựa trên sự kết hợp các thuộc tính bằng một số thuật toán đơn giản. Tuy nhiên, các phƣơng pháp hiện có này chƣa thực sự hiệu quả. Do vậy, vấn đề xây dựng một tập đặc trƣng thích hợp cho thuật toán DARA đƣợc đặt ra nhƣ một bài toán tối ƣu cần giải. z 8 Trƣớc các vấn đề nêu trên, luận văn tập trung nghiên cứu một phƣơng pháp xây dựng đặc trƣng dựa trên di truyền để nâng cao hiệu quả tóm tắt dữ liệu với thuật toán DARA.

Nghiên cứu này dựa trên ý tƣởng nghiên cứu của Rayner Alfred [3]. Thử nghiệm cho thuật toán đƣợc thực hiện trên cơ sở dữ liệu về thuê bao di động phát sinh của thành phố Hà Nội. Ngoài phần kết luận và các phụ lục, phần còn lại của luận văn đƣợc chia thành 4 chƣơng chính: Chƣơng I giới thiệu về cơ sở dữ liệu quan hệ, quá trình tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ và trình bày chi tiết các giai đoạn thực hiện của thuật toán DARA để tóm tắt dữ liệu. Chƣơng II trình bày về giải thuật di truyền cổ điển và những cải tiến về cách biểu diễn nhiễm sắc thể, phƣơng pháp chọn lọc và một số toán tử di truyền thƣờng dùng.

Chƣơng III trình bày một số vấn đề về chuyển đổi đặc trƣng liên quan đến xây dựng đặc trƣng và giới thiệu một phƣơng pháp xây dựng đặc trƣng dựa trên GA để tóm tắt dữ liệu. Chƣơng IV trình bày các kết quả thực nghiệm về phƣơng pháp xây dựng đặc trƣng dựa trên giải thuật di truyền. Chƣơng trình cài đặt thử nghiệm cho thuật toán đƣợc thực hiện bằng ngôn ngữ Java trên tập dữ liệu. Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và hƣớng nghiên cứu tiếp theo.

z 9 CHƢƠNG 1: TÓM TẮT DỮ LIỆU QUAN HỆ VỚI THUẬT TOÁN DARA 1.1 Cơ sở dữ liệu quan hệ 1.1 Giới thiệu Một cơ sở dữ liệu là một tập hợp dữ liệu có liên quan với nhau đƣợc tổ chức và lƣu trữ theo một cấu trúc chặt chẽ. Một mô hình cơ sở dữ liệu là một tập hợp các khái niệm dùng để biểu diễn cấu trúc của cơ sở dữ liệu. Các mô hình cơ sở dữ liệu có thể đƣợc phân loại dựa trên những khái niệm mà chúng sử dụng để mô tả cấu trúc cơ sở dữ liệu [19]  Các mô hình dữ liệu bậc cao hay mô hình dữ liệu mức quan niệm cung cấp các khái niệm gắn liền với cách cảm nhận dữ liệu của nhiều ngƣời sử dụng  Các mô hình dữ liệu thể hiện hay mô hình dữ liệu mức logic cung cấp những khái niệm mà ngƣời sử dụng có thể hiểu đƣợc và không khác nhiều với cách tổ chức dữ liệu bên trong máy tính  Các mô hình dữ liệu bậc thấp hay các mô hình dữ liệu vật lí, cung cấp các khái niệm mô tả chi tiết về việc dữ liệu đƣợc lƣu trữ trong máy tính. Các mô hình dữ liệu thể hiện là các mô hình đƣợc sử dụng nhiều nhất.

Ba mô hình cơ bản thuộc loại này là mô hình mạng, mô hình phân cấp và mô hình quan hệ.  Mô hình mạng cung cấp ba khái niệm cơ bản: mẫu tin hay bản ghi, loại mẫu tin và loại liên hệ. Trong mô hình này, dữ liệu đƣợc biểu diễn trong các bản ghi liên kết với nhau bằng các mối nối liên kết tạo thành một đồ thị có hƣớng.  Mô hình phân cấp cũng sử dụng ba khái niệm cơ bản ở mô hình mạng nhƣng trong mô hình này, dữ liệu đƣợc biểu diễn dƣới dạng cây với các đỉnh của cây là các bản ghi.

Các bản ghi liên kết với nhau theo mối quan hệ cha-con, một bản ghi cha có thể có nhiều con nhƣng mỗi bản ghi con chỉ có một cha.  Mô hình quan hệ cung cấp những khái niệm cơ bản là thuộc tính, miền, bộ và quan hệ. Trong mô hình này, dữ liệu đƣợc biểu diễn dƣới dạng bảng. Mô hình quan hệ là mô hình đƣợc sử dụng phổ biến nhất hiện nay.

Cơ sở dữ liệu đƣợc tổ chức theo mô hình quan hệ đƣợc gọi là cơ sở dữ liệu quan hệ.2 Tổ chức dữ liệu Dữ liệu lƣu trữ trong cơ sở dữ liệu quan hệ đƣợc tổ chức thành các bảng có mối quan hệ với nhau. Một cơ sở dữ liệu quan hệ bao gồm một tập hợp các bảng T1, ., Tn z 10 và một tập các mối quan hệ R1,. Mỗi bảng Ti bao gồm các cột và các hàng, các cột đại diện cho một dãy các thuộc tính, attr(T)=A1,., Ak, và các hàng đại diện cho các bản ghi trong bảng.Aj biểu thị thuộc tính thứ j của bảng Ti, Aj  attr(Ti).1 Miền của thuộc tính Ti.Aj ký hiệu là D(Ti.Aj) đƣợc định nghĩa là tập của tất cả các giá trị khác nhau đƣợc phép đƣợc gán cho thuộc tính Aj trong bảng Ti.2 Khóa chính của bảng Ti, ký hiệu là Ti.ID, có giá trị duy nhất cho mỗi hàng trong bảng.3 Khóa ngoại của bảng Tj tham chiếu tới bảng Ti, ký hiệu là Tj.TiID, nhận giá trị từ D(Ti. Tập các mối quan hệ R1, ., Rm mô tả mối liên kết giữa các bảng trong cơ sở dữ liệu quan hệ.

Một bảng Ti có thể có một trong ba kiểu liên kết với bảng Tj, căn cứ vào lực lƣợng trong liên kết giữa Ti và Tj, đó là: 1:1 (một-một), 1:n (một-nhiều) và m:n (nhiều-nhiều) Hình 1.1: Một tập dữ liệu với hai mức của liên kết 1:n Định nghĩa 1.4 Một bảng đích T là một bảng bao gồm các hàng của các đối tƣợng mà mỗi hàng đại diện cho một đối tƣợng duy nhất.5 Một bảng tham chiếu NT là một bảng bao gồm các hàng của các đối tƣợng mà một tập con những hàng này có thể đƣợc liên kết với một đối tƣợng duy nhất đƣợc lƣu trữ trong bảng đích.2 Tóm tắt dữ liệu trong cơ sở dữ liệu quan hệ Thuật ngữ tóm tắt dữ liệu thƣờng đƣợc dùng để nói đến tóm tắt dữ liệu đƣợc lƣu trữ trong cơ sở dữ liệu quan hệ với các mối quan hệ một-nhiều [8]. Xét dữ liệu đƣợc cho nhƣ sau:  Một bảng đích T  Các bản ghi trong bảng đích RT z 11  Một bảng tham chiếu NT  Các bản ghi trong bảng tham chiếu RNT Trong đó, một hoặc nhiều bản ghi RNT trong bảng tham chiếu NT đƣợc liên kết với một bản ghi duy nhất RT trong bảng đích T. Tóm tắt dữ liệu trong nhiều bảng với các mối quan hệ một-nhiều có thể đƣợc định nghĩa nhƣ sau: Định nghĩa 1.6 Một quá trình tóm tắt dữ liệu cho tất cả các bản ghi RNT trong bảng NT là một quá trình nối thêm vào bảng đích T ít nhất một trƣờng dữ liệu đặc trƣng cho các giá trị của các bản ghi RNT liên kết với mỗi bản ghi RT trong bảng T.2 Tóm tắt dữ liệu trong nhiều bảng với các mối quan hệ 1:n Hình 1.2 minh họa trình tự tóm tắt dữ liệu cho một bảng đích T có mối quan hệ ràng buộc một-nhiều với tất cả các bảng tham chiếu (NT1, NT2, NT3, NT4, NT41). Vì bảng NT4 có mối quan hệ một-nhiều với bảng NT41 nên NT4 trở thành bảng đích để tóm tắt dữ liệu từ bảng tham chiếu NT41.

Dữ liệu tóm tắt từ các bảng NT1, NT2, NT3 và NT4 tạo nên các trƣờng đặc trƣng cho các giá trị của các bảng tham chiếu liên kết với T, các trƣờng này đƣợc nối thêm vào danh sách thuộc tính đã có trong bảng đích T. Một quá trình tóm tắt dữ liệu quan hệ bao gồm ba giai đoạn chính nhƣ mô tả trong hình 1.3: Ba giai đoạn chính trong quá trình tóm tắt dữ liệu quan hệ Trong giai đoạn thứ nhất, dữ liệu đƣợc xử lí để chuẩn bị cho quá trình chuyển đổi dữ liệu. Giai đoạn này liên quan đến một số kỹ thuật giảm dữ liệu để rời rạc hóa các thuộc tính liên tục, lựa chọn và xây dựng đặc trƣng. Ở giai đoạn thứ hai, dữ liệu đƣợc chuyển đổi vào mô hình không gian vector.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Phương pháp di truyền để tóm tắt dữ liệu" của tác giả Vũ Thị Anh Trâm, dưới sự hướng dẫn của PGS. Hoàng Xuân Huấn, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2012. Bài viết tập trung vào việc áp dụng các phương pháp di truyền trong việc tóm tắt dữ liệu, một lĩnh vực quan trọng trong công nghệ thông tin. Phương pháp này không chỉ giúp tối ưu hóa quy trình xử lý dữ liệu mà còn nâng cao hiệu quả trong việc phân tích và rút trích thông tin từ các tập dữ liệu lớn. Độc giả sẽ tìm thấy nhiều lợi ích từ việc hiểu rõ hơn về cách thức hoạt động của các thuật toán di truyền và ứng dụng của chúng trong thực tiễn.

Nếu bạn quan tâm đến các nghiên cứu liên quan đến công nghệ thông tin và ứng dụng của các thuật toán trong lĩnh vực này, hãy tham khảo thêm bài viết "Giải pháp tăng tốc AI trong các hệ thống dựa trên RISC-V" và "Rút trích luật từ mạng nơron trong khoa học máy tính". Những tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các ứng dụng của công nghệ thông tin và các phương pháp phân tích dữ liệu hiện đại.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#tối ưu hóa

#thuật toán di truyền

#Khoa Học Dữ Liệu

#phương pháp di truyền

Chủ đề

Nghiên cứu và phát triển trong giáo dục

Khoa học Dữ liệu

Học máy và trí tuệ nhân tạo

Phương pháp thống kê