Luận Án Tiến Sĩ Về Mẫu Dãy Lợi Ích Cao Và Khoảng Cách Thời Gian

Trường đại học

Học viện khoa học và công nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN VÀ MỘT SỐ MỞ RỘNG

1.1. MỘT SỐ KHÁI NIỆM CƠ BẢN

1.2. KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN

1.2.1. Thuật toán GSP

1.2.2. Thuật toán PrefixSpan

1.2.2.1. Một số định nghĩa

1.2.2.2. Mô tả thuật toán

1.3. MỞ RỘNG BÀI TOÁN KHAI PHÁ MẪU DÃY THƯỜNG XUYÊN

1.4. KẾT LUẬN CHƯƠNG 1

2. CHƯƠNG 2: KHAI PHÁ MẪU DÃY LỢI ÍCH CAO

2.1. BÀI TOÁN KHAI PHÁ MẪU DÃY LỢI ÍCH CAO

2.2. THUẬT TOÁN UL, US

2.2.1. Thuật toán UL

2.2.2. Thuật toán US

2.3. THUẬT TOÁN PHUS

2.4. Bảng lợi ích

2.5. Bảng chỉ mục

2.6. KẾT LUẬN CHƯƠNG 2

3. CHƯƠNG 3: KHAI PHÁ MẪU DÃY LỢI ÍCH CAO VỚI KHOẢNG CÁCH THỜI GIAN

3.1. BÀI TOÁN KHAI PHÁ MẪU DÃY LỢI ÍCH CAO VỚI KHOẢNG CÁCH THỜI GIAN

3.2. Một số định nghĩa

3.3. Khai phá mẫu dãy lợi ích cao với khoảng cách thời gian

3.4. Thuật toán UIL

3.4.1. Ràng buộc thời gian

3.4.2. Bảng lợi ích

3.4.3. Giảm dần cận trên lợi ích

3.5. Thử nghiệm thuật toán UIL

3.6. KẾT LUẬN CHƯƠNG 3

4. CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Phân tích mẫu dãy lợi ích Tổng quan và Khái niệm cơ bản

Phần này tập trung vào phân tích mẫu dãy lợi ích, đặt nền tảng cho việc khai phá mẫu dãy lợi ích cao. Luận văn định nghĩa rõ ràng khái niệm mẫu dãy, lợi ích (utility), và cơ sở dữ liệu dãy (Sequence Database - SDB). Mô tả về cách tính toán lợi ích của mỗi mục và toàn bộ dãy được trình bày chi tiết. Các phương pháp xác định và đo lường lợi ích được phân tích, bao gồm việc xem xét cả số lượng và trọng số của mỗi mục trong dãy. Đặc biệt, luận văn nhấn mạnh tầm quan trọng của việc phân tích dữ liệu thời gian trong việc đánh giá lợi ích của các mẫu dãy. Việc hiểu rõ các khái niệm này là nền tảng để tiếp cận các phần tiếp theo.

1.1 Định nghĩa và đo lường lợi ích

Luận văn tập trung vào việc định nghĩa chính xác khái niệm lợi ích trong ngữ cảnh khai phá dữ liệu. Lợi ích không chỉ đơn thuần là tần suất xuất hiện mà còn bao gồm cả giá trị và trọng số của mỗi mục trong dãy. Phương pháp tính toán lợi ích tổng thể của một dãy được mô tả cụ thể, nhấn mạnh vào sự kết hợp giữa số lượng và trọng số của các mục. Luận văn cũng đề cập đến các chỉ số đo lường lợi ích khác nhau, tạo nền tảng vững chắc cho việc phân tích mẫu dãy lợi ích cao ở các phần sau. Việc phân biệt giữa lợi ích và tần suất là điểm mấu chốt, giúp phân biệt giữa các mẫu dãy phổ biến và các mẫu dãy có giá trị cao. Phân tích chuỗi thời gian được đề cập đến như một yếu tố quan trọng cần xem xét khi đánh giá lợi ích của các mẫu dãy.

1.2 Cơ sở dữ liệu dãy và cấu trúc dữ liệu

Phần này tập trung vào cơ sở dữ liệu dãy (SDB), mô tả cấu trúc và cách biểu diễn dữ liệu. Luận văn trình bày cách thức tổ chức dữ liệu dãy, bao gồm các thành phần, thứ tự và các thuộc tính liên quan. Việc lựa chọn cấu trúc dữ liệu phù hợp là rất quan trọng để hiệu quả trong việc khai phá mẫu dãy. Các phương pháp khai thác dữ liệu thời gian cũng được xem xét trong việc thiết kế cấu trúc dữ liệu. Phân tích dữ liệu thời gian giúp tạo ra các mẫu dãy có ý nghĩa hơn và hiệu quả hơn trong việc xác định khoảng cách thời gian tối ưu. Hiểu rõ về cấu trúc cơ sở dữ liệu dãy là bước nền tảng cho việc triển khai các thuật toán khai phá mẫu dãy lợi ích cao.

II. Xác định khoảng cách thời gian tối ưu

Phần này giải quyết vấn đề xác định khoảng cách thời gian tối ưu trong phân tích mẫu dãy lợi ích. Luận văn phân tích ảnh hưởng của khoảng cách thời gian đến lợi ích của mẫu dãy. Các phương pháp tối ưu hóa khoảng cách thời gian được đề xuất, cùng với các tiêu chí đánh giá hiệu quả. Khoảng cách thời gian không chỉ là một yếu tố đơn thuần mà được xem xét trong mối quan hệ với lợi ích. Luận văn nhấn mạnh tầm quan trọng của việc tìm kiếm khoảng cách thời gian phù hợp để phát hiện các mẫu dãy có lợi ích thực sự cao. Kết quả nghiên cứu trong phần này sẽ đóng vai trò quan trọng trong việc xây dựng thuật toán khai phá mẫu dãy lợi ích cao ở phần tiếp theo.

2.1 Ảnh hưởng của khoảng cách thời gian đến lợi ích

Phần này tập trung vào việc phân tích ảnh hưởng của khoảng cách thời gian đến lợi ích của mẫu dãy. Luận văn đưa ra các bằng chứng thực nghiệm để chứng minh rằng khoảng cách thời gian có ảnh hưởng đáng kể đến lợi ích của mẫu dãy. Các mối quan hệ phức tạp giữa khoảng cách thời gian và lợi ích được phân tích chi tiết. Phân tích chuỗi thời gian được sử dụng để làm rõ ảnh hưởng này. Kết quả nghiên cứu cho thấy sự cần thiết phải tối ưu khoảng cách thời gian để khai thác hiệu quả dữ liệu và tìm kiếm các mẫu dãy lợi ích cao. Việc xác định khoảng cách thời gian tối ưu là một trong những mục tiêu chính của luận văn.

2.2 Phương pháp xác định khoảng cách thời gian tối ưu

Phần này trình bày các phương pháp xác định khoảng cách thời gian tối ưu. Luận văn đề xuất các thuật toán và mô hình toán học để tối ưu khoảng cách thời gian. Các tiêu chí đánh giá hiệu quả của các phương pháp tối ưu hóa được nêu rõ. Phân tích dữ liệu thời gian đóng vai trò quan trọng trong việc đánh giá hiệu quả của các phương pháp này. Luận văn so sánh hiệu quả của các phương pháp khác nhau và đưa ra khuyến nghị về phương pháp tối ưu cho từng trường hợp cụ thể. Kết quả nghiên cứu trong phần này góp phần hoàn thiện quá trình khai phá mẫu dãy lợi ích cao.

III. Mô hình và thuật toán khai phá mẫu dãy lợi ích cao theo khoảng cách thời gian

Phần này trình bày mô hình và thuật toán cụ thể để khai phá mẫu dãy lợi ích cao theo khoảng cách thời gian. Luận văn đề xuất một thuật toán mới dựa trên các kết quả nghiên cứu ở các phần trước. Các bước của thuật toán được mô tả chi tiết, cùng với các phân tích về độ phức tạp tính toán và hiệu quả. Mô hình hồi quy thời gian có thể được sử dụng để dự đoán lợi ích trong tương lai dựa trên các mẫu dãy đã được phát hiện. Quản lý lợi ích theo thời gian là một khía cạnh quan trọng được xem xét trong việc thiết kế thuật toán. Phân tích hiệu quả đầu tư (ROI) theo thời gian cũng được đánh giá.

3.1 Thiết kế thuật toán

Phần này mô tả chi tiết thiết kế thuật toán để khai phá mẫu dãy lợi ích cao theo khoảng cách thời gian. Luận văn trình bày các bước chính của thuật toán, bao gồm việc tiền xử lý dữ liệu, tìm kiếm các mẫu dãy ứng viên, đánh giá lợi ích của các mẫu dãy và lựa chọn các mẫu dãy có lợi ích cao nhất. Phân tích dữ liệu thời gian được tích hợp vào từng bước của thuật toán. Quản lý lợi ích theo thời gian được thực hiện thông qua việc xem xét khoảng cách thời gian giữa các mục trong dãy. Độ phức tạp tính toán của thuật toán được phân tích để đảm bảo hiệu quả trong việc xử lý dữ liệu lớn.

3.2 Thử nghiệm và đánh giá

Phần này trình bày kết quả thử nghiệm và đánh giá hiệu quả của thuật toán được đề xuất. Luận văn sử dụng các bộ dữ liệu thực tế để đánh giá hiệu quả của thuật toán. Các chỉ số đánh giá hiệu quả bao gồm độ chính xác, độ đầy đủ và thời gian xử lý. Phân tích hiệu quả đầu tư (ROI) theo thời gian được sử dụng để đánh giá giá trị kinh tế của thuật toán. Kết quả thử nghiệm cho thấy hiệu quả của thuật toán trong việc phát hiện các mẫu dãy có lợi ích cao. Đánh giá hiệu quả theo thời gian giúp xác định rõ tác động dài hạn của các mẫu dãy được phát hiện.

25/01/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ khai phá mẫu dãy lợi ích cao với khoảng cách thời gian

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu và sự phát triển nhanh chóng của ngành công nghệ thông tin, việc khai thác tri thức từ các cơ sở dữ liệu lớn trở thành một thách thức quan trọng. Theo ước tính, lượng dữ liệu được sinh ra và lưu trữ ngày càng tăng, khiến cho các phương pháp phân tích thủ công trở nên không khả thi do tốn kém thời gian và nguồn lực. Khai phá dữ liệu (Data Mining) đã trở thành lĩnh vực nghiên cứu trọng điểm nhằm tự động hóa quá trình trích xuất thông tin hữu ích từ dữ liệu thô. Một trong những bài toán cơ bản và được ứng dụng rộng rãi là khai phá mẫu dãy thường xuyên (Sequential Pattern Mining - SPM), nhằm tìm ra các mẫu dãy xuất hiện phổ biến trong cơ sở dữ liệu dãy.

Tuy nhiên, khai phá mẫu dãy thường xuyên chỉ dựa trên tần suất xuất hiện mà không xét đến giá trị thực tế của các mục dữ liệu, dẫn đến việc bỏ sót các mẫu có lợi ích cao nhưng tần suất thấp. Do đó, bài toán khai phá mẫu dãy lợi ích cao (High Utility Sequential Pattern Mining - HUSPM) được đề xuất nhằm tìm ra các mẫu dãy không chỉ phổ biến mà còn có giá trị lợi ích lớn, được tính dựa trên số lượng và trọng số của các mục. Ngoài ra, khoảng cách thời gian giữa các phần tử trong mẫu dãy cũng ảnh hưởng đến ý nghĩa của mẫu, từ đó bài toán khai phá mẫu dãy lợi ích cao với khoảng cách thời gian được nghiên cứu nhằm nâng cao tính thực tiễn và hiệu quả của khai phá.

Mục tiêu của luận văn là nghiên cứu và phát triển các thuật toán khai phá mẫu dãy thường xuyên, mẫu dãy lợi ích cao và mẫu dãy lợi ích cao có tính đến khoảng cách thời gian, nhằm nâng cao hiệu quả khai phá và ứng dụng trong các lĩnh vực như phân tích hành vi khách hàng, quản lý chuỗi cung ứng, và phân tích dữ liệu truy cập web. Phạm vi nghiên cứu tập trung trên cơ sở dữ liệu dãy định lượng trong ngành công nghệ thông tin, với các thử nghiệm trên bộ dữ liệu thực tế và mô phỏng. Kết quả nghiên cứu góp phần cải tiến các thuật toán khai phá dữ liệu, giảm thiểu chi phí tính toán và tăng độ chính xác trong việc phát hiện các mẫu dãy có giá trị cao.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Khai phá mẫu dãy thường xuyên (SPM): Tập trung vào việc tìm kiếm các mẫu dãy con xuất hiện với tần suất lớn hơn hoặc bằng ngưỡng hỗ trợ tối thiểu (minsup). Các thuật toán kinh điển như GSP và PrefixSpan được sử dụng làm nền tảng. Khái niệm mẫu dãy, độ hỗ trợ, tính chất đóng xuống (Apriori property) là các khái niệm cốt lõi.
Khai phá mẫu dãy lợi ích cao (HUSPM): Mở rộng SPM bằng cách gán trọng số (lợi ích ngoài) và số lượng (lợi ích trong) cho từng mục trong dãy. Lợi ích của mẫu dãy được tính dựa trên tổng lợi ích lớn nhất trong các lần xuất hiện. Thuật toán UL (UtilityLevel) và US (UtilitySpan) là các phương pháp chính, sử dụng ngưỡng cận trên sequence-weighted utility (SWU) để tỉa bớt không gian tìm kiếm.
Khai phá mẫu dãy lợi ích cao với khoảng cách thời gian: Bài toán này bổ sung ràng buộc về khoảng cách thời gian giữa các phần tử trong mẫu dãy, nhằm loại bỏ các mẫu dãy có khoảng cách quá lớn, không mang ý nghĩa thực tiễn. Thuật toán PHUS được phát triển dựa trên cải tiến thuật toán US, sử dụng bảng lợi ích và bảng chỉ mục để tăng tốc quá trình khai phá.

Các khái niệm chính bao gồm: mẫu dãy, độ hỗ trợ, lợi ích trong và ngoài, sequence-weighted utility (SWU), bảng lợi ích, bảng chỉ mục, cơ sở dữ liệu chiếu (projected database).

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong nghiên cứu là các cơ sở dữ liệu dãy định lượng (QSDB) mô phỏng các giao dịch mua sắm của khách hàng trong siêu thị, với các mục được gán số lượng và trọng số lợi ích cụ thể. Ví dụ, bộ dữ liệu QSDB gồm 6 dãy dữ liệu với tổng lợi ích dao động từ 67 đến 207, và các mục có lợi ích ngoài từ 3 đến 10.

Phương pháp phân tích bao gồm:

Phân tích lý thuyết: Nghiên cứu các tính chất toán học của mẫu dãy, lợi ích, và các ngưỡng cận trên để xây dựng cơ sở cho thuật toán.
Thiết kế thuật toán: Phát triển và cải tiến các thuật toán UL, US và PHUS dựa trên các phương pháp sinh mẫu dãy ứng viên, tăng trưởng mẫu dãy, và sử dụng cấu trúc dữ liệu bảng lợi ích, bảng chỉ mục.
Thử nghiệm thực nghiệm: Thực hiện các thử nghiệm trên bộ dữ liệu QSDB với các ngưỡng lợi ích tối thiểu khác nhau (ví dụ minUtil = 230), đánh giá hiệu năng thuật toán qua các chỉ số như thời gian chạy, bộ nhớ sử dụng, số lượng mẫu dãy tìm được.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong 2 năm, bao gồm giai đoạn thu thập và xử lý dữ liệu, phát triển thuật toán, thử nghiệm và hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán PHUS vượt trội so với UL và US: Thuật toán PHUS chỉ cần một pha duy nhất để tìm mẫu dãy lợi ích cao nhờ sử dụng bảng lợi ích và bảng chỉ mục, giảm số lần quét cơ sở dữ liệu so với UL và US vốn cần hai pha. Ví dụ, với ngưỡng minUtil = 230, PHUS loại bỏ được các mục không tiềm năng như c và g ngay từ đầu, giảm đáng kể không gian tìm kiếm.
Tính chất không đơn điệu của lợi ích gây khó khăn cho tỉa nhánh: Khác với độ hỗ trợ trong khai phá mẫu dãy thường xuyên, lợi ích không thỏa mãn tính chất đóng xuống, dẫn đến việc các mẫu dãy cha có thể có lợi ích cao dù mẫu con không có. Do đó, việc sử dụng ngưỡng cận trên SWU là cần thiết để tỉa bớt ứng viên, giúp giảm số lượng mẫu dãy cần xét.
Ảnh hưởng của khoảng cách thời gian trong khai phá mẫu dãy lợi ích cao: Việc bổ sung ràng buộc khoảng cách thời gian giúp loại bỏ các mẫu dãy có khoảng cách lớn, không mang ý nghĩa thực tế, từ đó nâng cao chất lượng mẫu dãy tìm được. Thuật toán PHUS tích hợp hiệu quả ràng buộc này, cải thiện tính ứng dụng trong các lĩnh vực như phân tích hành vi khách hàng.
Số lượng mẫu dãy ứng viên giảm đáng kể qua các bước tỉa: Ví dụ, trong bộ dữ liệu QSDB, sau khi loại bỏ các mục không tiềm năng, tập ứng viên 1 phần tử giảm từ 7 xuống còn 5, và tiếp tục giảm qua các bước sinh ứng viên độ dài 2, 3. Điều này giúp tiết kiệm bộ nhớ và thời gian tính toán.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả vượt trội của PHUS là do việc sử dụng cấu trúc bảng lợi ích và bảng chỉ mục, cho phép lưu trữ và truy xuất nhanh các thông tin về lợi ích và vị trí xuất hiện của mẫu dãy, tránh việc quét lại toàn bộ cơ sở dữ liệu nhiều lần như trong UL và US. So sánh với các nghiên cứu trước đây, PHUS không chỉ giảm chi phí tính toán mà còn đơn giản hóa cách tính lợi ích, phù hợp hơn với thực tế.

Việc bổ sung ràng buộc khoảng cách thời gian là một bước tiến quan trọng, giúp khai thác các mẫu dãy có ý nghĩa hơn trong các ứng dụng thực tế, ví dụ như phân tích hành vi mua sắm trong khoảng thời gian ngắn, phát hiện các chuỗi sự kiện liên quan trong an ninh mạng.

Dữ liệu có thể được trình bày qua các biểu đồ thể hiện thời gian chạy và bộ nhớ sử dụng của các thuật toán UL, US và PHUS trên các bộ dữ liệu khác nhau, cũng như bảng tổng hợp số lượng mẫu dãy ứng viên và mẫu dãy lợi ích cao tìm được theo từng bước.

Đề xuất và khuyến nghị

Áp dụng thuật toán PHUS trong các hệ thống phân tích dữ liệu lớn: Để nâng cao hiệu quả khai phá mẫu dãy lợi ích cao, các tổ chức nên triển khai PHUS nhằm giảm chi phí tính toán và tăng tốc độ xử lý, đặc biệt trong các lĩnh vực bán lẻ, tài chính và an ninh mạng. Thời gian thực hiện: 6-12 tháng; chủ thể: các nhóm phát triển phần mềm và phân tích dữ liệu.
Tích hợp ràng buộc khoảng cách thời gian trong khai phá mẫu dãy: Khuyến nghị các nhà nghiên cứu và phát triển hệ thống khai phá dữ liệu bổ sung ràng buộc này để nâng cao chất lượng mẫu dãy, giúp các phân tích trở nên chính xác và có ý nghĩa hơn. Thời gian thực hiện: 3-6 tháng; chủ thể: nhóm nghiên cứu và kỹ sư dữ liệu.
Phát triển giao diện trực quan cho việc phân tích mẫu dãy lợi ích cao: Đề xuất xây dựng các công cụ trực quan hóa kết quả khai phá, giúp người dùng cuối dễ dàng hiểu và áp dụng các mẫu dãy tìm được trong ra quyết định kinh doanh. Thời gian thực hiện: 6 tháng; chủ thể: nhóm phát triển phần mềm.
Đào tạo và nâng cao nhận thức về khai phá mẫu dãy lợi ích cao: Tổ chức các khóa đào tạo chuyên sâu cho cán bộ phân tích dữ liệu và nhà quản lý nhằm nâng cao năng lực ứng dụng các kỹ thuật khai phá dữ liệu tiên tiến. Thời gian thực hiện: liên tục; chủ thể: các viện đào tạo và doanh nghiệp.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu: Luận văn cung cấp kiến thức chuyên sâu về khai phá mẫu dãy, thuật toán và ứng dụng thực tiễn, hỗ trợ nghiên cứu và phát triển đề tài liên quan.
Chuyên gia phân tích dữ liệu và nhà quản lý doanh nghiệp: Giúp hiểu rõ các kỹ thuật khai phá dữ liệu nâng cao, từ đó áp dụng trong phân tích hành vi khách hàng, tối ưu hóa chiến lược kinh doanh và quản lý chuỗi cung ứng.
Nhà phát triển phần mềm và kỹ sư dữ liệu: Cung cấp các thuật toán và cấu trúc dữ liệu hiệu quả để tích hợp vào các hệ thống khai phá dữ liệu, nâng cao hiệu suất xử lý và chất lượng kết quả.
Các tổ chức nghiên cứu và ứng dụng công nghệ: Hỗ trợ trong việc xây dựng các giải pháp khai phá dữ liệu lớn, đặc biệt trong các lĩnh vực tài chính, bán lẻ, an ninh mạng và y tế, nơi khai phá mẫu dãy lợi ích cao có vai trò quan trọng.

Câu hỏi thường gặp

Khai phá mẫu dãy lợi ích cao khác gì so với khai phá mẫu dãy thường xuyên?
Khai phá mẫu dãy lợi ích cao không chỉ dựa trên tần suất xuất hiện mà còn xét đến giá trị lợi ích của các mục, bao gồm số lượng và trọng số, giúp phát hiện các mẫu có giá trị thực tế cao hơn, phù hợp với các ứng dụng kinh doanh.
Tại sao lợi ích không thỏa mãn tính chất đóng xuống?
Lợi ích của mẫu dãy không đảm bảo rằng mẫu con có lợi ích cao thì mẫu cha cũng cao, do đó không thể dùng tính chất này để tỉa nhánh trực tiếp, gây khó khăn trong việc giảm không gian tìm kiếm.
Ngưỡng cận trên SWU có vai trò gì trong khai phá mẫu dãy lợi ích cao?
SWU là một ngưỡng cận trên giúp loại bỏ các mẫu dãy ứng viên không tiềm năng trước khi tính lợi ích thực, từ đó giảm đáng kể số lượng mẫu cần xét và tăng hiệu quả thuật toán.
Khoảng cách thời gian ảnh hưởng thế nào đến kết quả khai phá?
Khoảng cách thời gian giúp loại bỏ các mẫu dãy có phần tử cách xa nhau quá mức, không mang ý nghĩa thực tế, từ đó nâng cao chất lượng và tính ứng dụng của các mẫu dãy tìm được.
Thuật toán PHUS có ưu điểm gì so với UL và US?
PHUS chỉ cần một pha duy nhất để tìm mẫu dãy lợi ích cao nhờ sử dụng bảng lợi ích và bảng chỉ mục, giảm số lần quét dữ liệu và sinh ứng viên không tồn tại, từ đó tiết kiệm thời gian và bộ nhớ.

Kết luận

Luận văn đã nghiên cứu và phát triển các thuật toán khai phá mẫu dãy thường xuyên, mẫu dãy lợi ích cao và mẫu dãy lợi ích cao với khoảng cách thời gian, góp phần nâng cao hiệu quả khai phá dữ liệu định lượng.
Thuật toán PHUS được đề xuất cải tiến đáng kể so với các thuật toán trước, giảm số lần quét dữ liệu và tăng tốc độ xử lý nhờ cấu trúc bảng lợi ích và bảng chỉ mục.
Việc bổ sung ràng buộc khoảng cách thời gian giúp nâng cao tính thực tiễn và ý nghĩa của các mẫu dãy tìm được trong các ứng dụng thực tế.
Kết quả thử nghiệm trên bộ dữ liệu QSDB cho thấy PHUS đạt hiệu suất cao, giảm đáng kể số lượng mẫu dãy ứng viên và thời gian tính toán so với UL và US.
Đề xuất các bước tiếp theo bao gồm ứng dụng thuật toán trong các hệ thống thực tế, phát triển công cụ trực quan và đào tạo chuyên sâu nhằm thúc đẩy ứng dụng rộng rãi trong ngành công nghệ thông tin và các lĩnh vực liên quan.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển tiếp các kết quả nghiên cứu này để nâng cao hiệu quả khai phá dữ liệu trong thực tế.

Bài luận án tiến sĩ mang tiêu đề "Luận Án Tiến Sĩ Về Khai Phá Mẫu Dãy Lợi Ích Cao Với Khoảng Cách Thời Gian" của tác giả Trần Thế Anh, dưới sự hướng dẫn của TS. Đặng Thị Oanh và PGS. Phạm Thanh Giang, được thực hiện tại Học viện Khoa học và công nghệ vào năm 2020. Bài viết tập trung vào việc khai thác và phân tích các mẫu dãy lợi ích cao trong bối cảnh thời gian, từ đó cung cấp những hiểu biết sâu sắc về cách thức tối ưu hóa lợi ích trong các lĩnh vực công nghệ thông tin. Độc giả sẽ tìm thấy những ứng dụng thực tiễn và lý thuyết có giá trị, giúp mở rộng kiến thức về công nghệ thông tin và khai thác dữ liệu.

Nếu bạn quan tâm đến các khía cạnh khác trong lĩnh vực công nghệ thông tin, hãy tham khảo thêm bài viết "Nghiên cứu về Big Data và Ứng dụng trong Phân tích Kinh doanh", nơi khám phá cách Big Data có thể được áp dụng để phân tích và tối ưu hóa quy trình kinh doanh. Bên cạnh đó, bài viết "Ứng Dụng KPI Để Đánh Giá Hiệu Quả Công Việc Tại Công Ty TNHH Thương Mại Hà Việt" cũng sẽ cung cấp cho bạn cái nhìn về việc sử dụng các chỉ số hiệu suất để nâng cao hiệu quả công việc trong doanh nghiệp. Những tài liệu này không chỉ bổ sung cho kiến thức của bạn mà còn mở rộng hiểu biết về các ứng dụng thực tiễn trong lĩnh vực công nghệ thông tin.

#Phân tích dữ liệu

#luận án tiến sĩ

#mô hình thống kê

#Khoảng cách thời gian

#khai phá mẫu dãy

#lợi ích cao

Chủ đề

Nghiên cứu học thuật

Khoa học Dữ liệu

Phân Tích Thống Kê

Ứng dụng của học máy trong kinh tế