Luận Án Tiến Sĩ: Khai Phá Mẫu Dãy Có Trọng Số Trong Cơ Sở Dữ Liệu Dãy

Luận án tiến sĩ ngành máy tính nghiên cứu khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy, góp phần nâng cao hiệu quả phân tích dữ liệu.

Trường đại học

Học viện Khoa học và Công nghệ

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận án

2021

153

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY CÓ KHOẢNG CÁCH THỜI GIAN

1.1. Thuật toán khai phá top-k mẫu dãy thường xuyên trọng số với khoảng cách thời gian (TopKWFP)

1.2. Bài toán đặt ra

1.3. Ý tưởng thuật toán

1.4. Thuật toán TopKWFP

1.5. Phân tích thuật toán TopKWFP

1.6. Thử nghiệm thuật toán

1.7. Kết luận

2. CHƯƠNG 2: KHAI PHÁ MẪU DÃY LỢI ÍCH CAO TRONG CƠ SỞ DỮ LIỆU DÃY CÓ KHOẢNG CÁCH THỜI GIAN

2.1. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian (UIPrefixSpan)

2.2. Bài toán đặt ra

2.3. Ý tưởng thuật toán

2.4. Thuật toán UIPrefixSpan

2.5. Phân tích thuật toán UIPrefixSpan

2.6. Thử nghiệm thuật toán

2.7. Thuật toán khai phá mẫu dãy lợi ích cao có khoảng cách thời gian 1 pha (HUISP)

2.8. Bài toán đặt ra

2.9. Ý tưởng thuật toán

2.10. Thuật toán HUISP

2.11. Phân tích thuật toán HUISP

2.12. Thử nghiệm thuật toán

2.13. Kết luận

3. CHƯƠNG 3: KẾT LUẬN VÀ KIẾN NGHỊ

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Khai phá mẫu dãy có trọng số trong CSDL dãy

Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy là một lĩnh vực nghiên cứu quan trọng trong khai thác dữ liệu. Nó không chỉ giúp phát hiện các mẫu dãy thường xuyên mà còn xem xét trọng số của từng mục trong dãy. Điều này cho phép các nhà nghiên cứu và doanh nghiệp hiểu rõ hơn về hành vi của người tiêu dùng và tối ưu hóa các quyết định kinh doanh. Việc khai thác thông tin từ các dãy dữ liệu lớn có thể mang lại giá trị cao cho các lĩnh vực như thương mại điện tử, phân tích thị trường và nhiều lĩnh vực khác.

1.1. Khái niệm và tầm quan trọng của khai phá dữ liệu

Khai phá dữ liệu là quá trình trích xuất thông tin có giá trị từ các tập dữ liệu lớn. Việc khai phá mẫu dãy có trọng số giúp phát hiện các mẫu có ý nghĩa trong dữ liệu, từ đó hỗ trợ ra quyết định chính xác hơn.

1.2. Các ứng dụng thực tiễn của khai phá mẫu dãy

Khai phá mẫu dãy có trọng số được ứng dụng rộng rãi trong nhiều lĩnh vực như phân tích hành vi khách hàng, tối ưu hóa chiến lược marketing và phát hiện gian lận trong giao dịch.

II. Vấn đề và thách thức trong khai phá mẫu dãy có trọng số

Mặc dù khai phá mẫu dãy có trọng số mang lại nhiều lợi ích, nhưng cũng gặp phải nhiều thách thức. Một trong những vấn đề chính là việc xác định trọng số cho từng mục trong dãy. Điều này đòi hỏi phải có các phương pháp chính xác để đánh giá mức độ quan trọng của từng mục. Ngoài ra, việc xử lý dữ liệu lớn và phức tạp cũng là một thách thức lớn trong nghiên cứu này.

2.1. Thách thức trong việc xác định trọng số

Việc xác định trọng số cho từng mục trong dãy là một thách thức lớn. Các phương pháp hiện tại chưa đủ chính xác để phản ánh đúng mức độ quan trọng của từng mục.

2.2. Khó khăn trong xử lý dữ liệu lớn

Xử lý và phân tích dữ liệu lớn là một thách thức không nhỏ. Các thuật toán hiện tại cần được tối ưu hóa để có thể xử lý hiệu quả hơn.

III. Phương pháp khai phá mẫu dãy có trọng số hiệu quả

Để khai phá mẫu dãy có trọng số, nhiều phương pháp đã được đề xuất. Các thuật toán như TopKWFP và UIPrefixSpan đã cho thấy hiệu quả trong việc phát hiện các mẫu dãy có trọng số. Những phương pháp này không chỉ giúp phát hiện mẫu mà còn tối ưu hóa quá trình khai thác dữ liệu.

3.1. Thuật toán TopKWFP

Thuật toán TopKWFP được thiết kế để khai phá các mẫu dãy thường xuyên trọng số với khoảng cách thời gian. Nó cho phép phát hiện các mẫu dãy có trọng số cao trong cơ sở dữ liệu lớn.

3.2. Thuật toán UIPrefixSpan

UIPrefixSpan là một thuật toán mạnh mẽ cho việc khai phá mẫu dãy lợi ích cao. Nó giúp tối ưu hóa quá trình khai thác và phát hiện các mẫu dãy có giá trị cao.

IV. Kết quả nghiên cứu và ứng dụng thực tiễn

Nghiên cứu về khai phá mẫu dãy có trọng số đã cho thấy nhiều kết quả khả quan. Các ứng dụng thực tiễn từ nghiên cứu này đã giúp các doanh nghiệp tối ưu hóa chiến lược kinh doanh và nâng cao hiệu quả hoạt động. Việc áp dụng các thuật toán khai phá mẫu dãy có trọng số đã mang lại giá trị lớn cho nhiều lĩnh vực.

4.1. Ứng dụng trong thương mại điện tử

Khai phá mẫu dãy có trọng số giúp các doanh nghiệp thương mại điện tử hiểu rõ hơn về hành vi mua sắm của khách hàng, từ đó tối ưu hóa các chiến lược marketing.

4.2. Ứng dụng trong phân tích thị trường

Các mẫu dãy được khai phá có thể giúp các nhà phân tích thị trường đưa ra các dự đoán chính xác hơn về xu hướng tiêu dùng.

V. Kết luận và triển vọng tương lai của nghiên cứu

Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy là một lĩnh vực nghiên cứu đầy tiềm năng. Với sự phát triển của công nghệ và các thuật toán mới, khả năng khai thác dữ liệu sẽ ngày càng hiệu quả hơn. Nghiên cứu này không chỉ có giá trị lý thuyết mà còn mang lại nhiều ứng dụng thực tiễn trong tương lai.

5.1. Tương lai của khai phá mẫu dãy

Nghiên cứu về khai phá mẫu dãy có trọng số sẽ tiếp tục phát triển, mở ra nhiều hướng đi mới cho các ứng dụng trong thực tiễn.

5.2. Đề xuất nghiên cứu tiếp theo

Cần có thêm nhiều nghiên cứu để cải thiện các thuật toán hiện tại, nhằm tối ưu hóa quá trình khai thác dữ liệu và nâng cao độ chính xác của các mẫu dãy được phát hiện.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

22/07/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ ngành máy tính khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy

Tải đầy đủ

Trích đoạn nội dung tài liệu

đặt vấn đề và đề xuất thuật toán khai phá mẫu dãy lợi ích cao trong CSDL dãy định lượng có khoảng cách thời gian. Tính đúng đắn và đầy đủ của thuật toán, việc thực nghiệm thuật toán trên các bộ dữ liệu thực và so sánh với các nghiên cứu trước đó.  Phần kết luận: Trình bày một số kết luận những đóng góp của luận án, hướng phát triển và những vấn đề quan tâm của NCS. TỔNG QUAN KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY Chương này trình bày tổng quan tình hình nghiên cứu và những định nghĩa cơ bản những vấn đề khai phá các mẫu dãy có trọng số trong các CSDL dãy, mẫu dãy có trọng số trong CSDL dãy có khoảng cách thời gian, mẫu dãy lợi ích cao trong CSDL dãy định lượng có khoảng cách thời gian.

Chương này cũng chỉ ra các khoảng trống chưa được giải quyết để từ đó xác định vấn đề nghiên cứu của luận án. Tổng quan tình hình nghiên cứu Khai phá mẫu dãy là nhiệm vụ thực hiện tìm kiếm tất cả các mẫu dãy con thường xuyên trong cơ sở dữ liệu dãy. Một dãy s được cho là một mẫu dãy thường xuyên nếu và chỉ khi độ hỗ trợ sup (s) ≥ minsup, vì ngưỡng minsup do người dùng đặt [10]. Nhiệm vụ khai phá mẫu dãy là một bài toán liệt kê nhằm mục đích liệt kê tất cả các mẫu dãy con có độ hỗ trợ không thấp hơn ngưỡng hỗ trợ tối thiểu do người dùng đặt ra.

Do đó, luôn có một kết quả đúng duy nhất cho một bài toán khai phá mẫu dãy thường xuyên. Để thực hiện khai phá các mẫu dãy thường xuyên, cách tiếp cận đơn giản là tính toán hỗ trợ của tất cả các mẫu dãy con có thể có trong cơ sở dữ liệu dãy để sau đó chỉ đưa ra những mẫu dãy đáp ứng ràng buộc hỗ trợ tối thiểu do người dùng đặt ra. Tuy nhiên, với cách tiếp cận như vậy sẽ ít hiệu quả vì thông thường số lượng dãy con tìm được có thể rất lớn. Ví dụ như một dãy chứa q mục dữ liệu trong một CSDL dãy có thể có tối đa 2q-1 các mẫu dãy con riêng biệt.

Do đó, để giải quyết vấn đề khai phá các mẫu dãy con đối với hầu hết các cơ sở dữ liệu dãy có trong thực tế là phức tạp và khó khăn. Vì vậy, các nghiên cứu và phát triển các thuật toán hiệu quả khai phá mẫu dãy cần hạn chế phải khai phá không gian tìm kiếm của tất cả các dãy con có thể có trong CSDL dãy. Hiện nay có nhiều thuật toán đã được đề xuất để khai phá các mẫu dãy trong cơ sở dữ liệu dãy. Một số thuật toán phổ biến nhất là GSP [10], Spade [11], PrefixSpan [31], Spam [30], Lapin [18], CM-Spam và CM-Spade [17].

Tất cả các thuật toán khai thác mẫu dãy này lấy đầu vào là cơ sở dữ liệu dãy và ngưỡng hỗ trợ tối thiểu (do người dùng chọn) và trả kết quả là tập hợp các mẫu dãy thường xuyên và luôn chỉ có một 16 kết quả đúng cho nhiệm vụ khai phá mẫu dãy (đối với cơ sở dữ liệu dãy và giá trị ngưỡng). Do đó, tất cả các thuật toán khai phá mẫu dãy luôn trả về cùng một kết quả là tập hợp các mẫu dãy nếu chúng được chạy với cùng một tham số trên cùng một cơ sở dữ liệu. Sự khác biệt giữa các thuật toán khác nhau không phải là đầu ra của chúng, mà là cách mỗi thuật toán thực hiện khai phá ra các mẫu dãy. Các thuật toán khác nhau sử dụng các chiến lược và cấu trúc dữ liệu khác nhau để tìm kiếm và khai phá các mẫu dãy một cách hiệu quả, một số thuật toán hiệu quả hơn những thuật toán khác trong cùng mục đích khai phá mẫu dãy.

Hiện nay, các thuật toán khai phá mẫu dãy có thể được phân thành 02 loại là thuật toán tìm kiếm theo chiều sâu hoặc thuật toán tìm kiếm theo chiều rộng. AprioriAll là thuật toán khai phá mẫu dãy đầu tiên được đề xuất [2]. Các tác giả của AprioriAll sau đó đã đề xuất một phiên bản cải tiến được gọi là GSP [10]. Các thuật toán AprioriAll và GSP được đề xuất theo phương pháp của thuật toán Apriori nhằm khai phá tập mục thường xuyên [1].

Đối với các thuật toán tìm kiếm theo chiều rộng như GSP tiến hành như sau. Đầu tiên duyệt cơ sở dữ liệu để tìm mẫu dãy thường xuyên có độ dài 1 (các mẫu dãy chứa một mục). Sau đó, sẽ thực hiện sinh ra mẫu dãy có độ dài 2 bằng cách thực hiện phần ghép cặp của các mẫu dãy độ dài 1. Sau đó mẫu dãy có độ dài 3 tiếp tục được tạo ra từ việc ghép cặp các mẫu dãy có độ dài 2.

cho đến khi không còn mẫu dãy nào có thể được tạo ra nữa. Có thể thấy rằng với phương pháp tìm kiếm theo chiều rộng này thì không gian tìm kiếm có thể rất lớn. Giả sử rằng dãy dài nhất trong cơ sở dữ liệu chứa m mục thì các thuật toán khai phá mẫu dãy thực hiện tìm kiếm theo chiều rộng trong trường hợp xấu nhất là tất cả các mẫu dãy có thể chứa m mục hoặc ít hơn. Nếu một cơ sở dữ liệu dãy chứa m mục, thì các mẫu dãy phải khai phá có thể thể lớn hơn 2m.

Trong những năm gần đây, nhiều thuật toán đã được chứng minh là hiệu quả hơn GSP do GSP thực hiện nhiều lần duyệt cơ sở dữ liệu để tính toán sự hỗ trợ của các mẫu dãy ứng viên. Điều này có thể rất tốn kém tài nguyên đối với các cơ sở dữ liệu lớn, ngay cả khi một số tối ưu hóa có thể được thực hiện để giảm chi phí đó (ví dụ: bằng cách sắp xếp các dãy theo kích thước của chúng để tránh so sánh các mẫu dài với các dãy ngắn). Mặt khác GSP có thể tạo ra các mẫu không tồn tại trong cơ sở 17 dữ liệu do việc tạo ra các ứng viên bằng cách kết hợp các mẫu nhỏ hơn mà không cần truy cập cơ sở dữ liệu. GSP có thể tốn nhiều thời gian kiểm tra nhiều mẫu không tồn tại trong cơ sở dữ liệu.

Một vấn đề khác của thuật toán GSP là phải sử dụng bộ nhớ lớn vì tại bất kỳ thời điểm nào thuật toán cũng phải giữ tất cả các mẫu dãy thường xuyên có độ dài k trong bộ nhớ để có thể tạo ra các mẫu dãy có độ dài k + 1. Các thuật toán tìm kiếm theo chiều sâu như Spade [11], PrefixSpan [31], Spam [30], Lapin [18], CM-Spam và CM-Spade [17] thực hiện khai phá không gian tìm kiếm của các mẫu dãy bằng các cách khác nhau. Bắt đầu từ các mẫu dãy chứa các mục đơn lẻ, sau đó thực hiện đệ quy đối với các mở rộng của các mẫu dãy này để tạo ra các mẫu dãy lớn hơn. Sau đó, khi một mẫu dãy không thể được mở rộng nữa, thuật toán sẽ quay trở lại để tạo các mẫu dãy khác.

Thuật toán Spade [11] là một thuật toán sử dụng phương pháp tìm kiếm theo chiều sâu và tránh một số nhược điểm của thuật toán GSP. Thuật toán Spade được thực hiện theo phương pháp từ thuật toán Eclat [4] để khai phá tập mục thường xuyên. Spade sử dụng biểu diễn cơ sở dữ liệu dọc thay thế biểu diễn cơ sở dữ liệu ngang ban đầu. Biểu diễn theo chiều dọc của cơ sở dữ liệu dãy cho biết các tập hợp mục mà mỗi mục i xuất hiện trong cơ sở dữ liệu dãy.

Đối với một mặt hàng nhất định, thông tin này được gọi là IDList của mặt hàng đó. Bằng cách sử dụng biểu diễn CSDL dọc, các thuật toán như Spade [11], Spam [30], CM-Spam và CMSpade [17] khai phá toàn bộ không gian tìm kiếm của các mẫu dãy bằng cách đọc cơ sở dữ liệu chỉ một lần để tạo IDLists duy nhất mặt hàng. Sau đó, các IDLists của bất kỳ mẫu dãy nào gặp phải khi duyệt không gian tìm kiếm thu được bằng cách thực hiện phép nối các IDLists, cho phép tính toán hỗ trợ của mẫu dãy. Vì vậy tất cả các mẫu dãy thường xuyên có thể được liệt kê mà không cần duyệt liên tục cơ sở dữ liệu và không cần duy trì một số lượng lớn các mẫu dãy trong bộ nhớ (trái ngược với các thuật toán tìm kiếm theo chiều rộng).

Cách tiếp cận này được xem là một trong những cách hiệu quả để khai thác mẫu dãy hơn so với các thuật toán theo tiếp cận tìm kiếm theo chiều rộng. Bên cạnh thuật toán tìm kiếm theo chiều rộng và thuật toán khai thác theo chiều sâu sử dụng CSDL dọc, một phương pháp quan trọng khác để khai phá mẫu dãy là các thuật toán tăng trưởng mẫu dãy. Các thuật toán tăng trưởng mẫu dãy thực hiện tìm 18 kiếm theo chiều sâu, được thiết kế để giải quyết một hạn chế của các thuật toán được mô tả trước đó vì có thể tạo ra các mẫu ứng cử viên không tồn tại trong cơ sở dữ liệu ban đầu. Lý do là các thuật toán theo phương pháp tìm kiếm theo chiều rộng và thuật toán khai thác theo chiều sâu sử dụng CSDL dọc có thể tạo ra các mẫu dãy không xuất hiện trong cơ sở dữ liệu vì việc thực hiện tạo ra các mẫu dãy ứng viên bằng cách kết hợp các mẫu dãy nhỏ hơn nhưng quá trình này không liên quan đến việc truy cập cơ sở dữ liệu.

Các thuật toán theo phương pháp tăng trưởng mẫu dãy bằng cách duyệt đệ quy cơ sở dữ liệu để tìm các mẫu dãy lớn hơn, vì vậy chỉ thực hiện khai phá các mẫu dãy thực sự tồn tại trong cơ sở dữ liệu. Tuy nhiên, việc thực hiện duyệt cơ sở dữ liệu nhiều lần có thể gây tốn kém tài nguyên. Để giảm chi phí duyệt cơ sở dữ liệu, thuật toán tăng trưởng mẫu dãy có đưa ra khái niệm cơ sở dữ liệu chiếu theo tiền tố nhằm mục đích giảm kích thước của cơ sở dữ liệu vì các mẫu lớn hơn được tìm kiếm theo chiều sâu. Thuật toán khai phá mẫu dãy tăng trưởng đầu tiên được đề xuất là FreeSpan [13], sau đó cùng một nhóm nghiên cứu đề xuất thuật toán PrefixSpan [31] theo phương pháp của thuật toán FPGrowth cho khai thác tập mục thường xuyên.

PrefixSpan thực hiện khai phá không gian tìm kiếm của các mẫu dãy bằng cách sử dụng phương pháp tìm kiếm theo chiều sâu. Bắt đầu từ các mẫu dãy chứa một mục và khai phá các mẫu dãy lớn hơn bằng cách nối đệ quy các mục vào các mẫu dãy này để tạo ra các mẫu dãy lớn hơn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khoa học máy tính và công nghệ thông tin

khai phá tri thức và dữ liệu

xử lý cơ sở dữ liệu