Nghiên cứu gom cụm dữ liệu chuỗi thời gian bằng giải thuật kmedoids và độ đo xoắn thời gian động

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu vấn đề

1.2. Động cơ nghiên cứu

1.3. Mục tiêu nghiên cứu

1.4. Tóm lược kết quả đạt được

1.5. Cấu trúc của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Độ đo khoảng cách cho dữ liệu chuỗi thời gian

2.2. Khoảng cách xoắn thời gian động (DTW)

2.3. Các kỹ thuật gom cụm dữ liệu thường dùng

2.3.1. Giải thuật k-means

2.3.2. Giải thuật k-medoids

2.4. Khảo sát các công trình liên quan

2.4.1. Phương pháp tính giá trị trung bình hình dạng dùng khoảng cách DTW

2.4.1.1. Phương pháp tính trung bình của Gupta và các đồng sự

2.4.1.2. Giải thuật tính trung bình cụm dữ liệu PSA

2.4.1.3. Giải thuật tính trung bình cụm dữ liệu DBA

2.4.2. Phương pháp gom cụm dữ liệu chuỗi thời gian k-medoids cải tiến kết hợp độ đo xoắn thời gian động cải tiến PrunedDTW

2.4.2.1. Giải thuật k-medoids cải tiến

2.4.2.2. Khoảng cách xoắn thời gian động cải tiến (PrunedDTW)

2.4.2.3. Giải thuật k-means cải tiến

2.4.3. Kết chương

3. CHƯƠNG 3: PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ

3.1. Hiện thực bài toán

3.2. Hướng giải quyết

3.2.1. Kỹ thuật khởi tạo trung tâm cụm

3.3. Chi tiết hệ thống chương trình

3.4. Dữ liệu thực nghiệm và phương pháp đánh giá kết quả nghiên cứu

3.4.1. Dữ liệu thực nghiệm

3.4.2. Phương pháp đánh giá kết quả nghiên cứu

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Giới thiệu tập dữ liệu mẫu

4.2. So sánh tính hữu hiệu của thuật toán k-medoids cải tiến dùng độ đo PrunedDTW với thuật toán k-medoids cải tiến dùng độ đo DTW trực tiếp

4.3. So sánh tính hiệu quả của thuật toán k-medoids cải tiến với độ đo PrunedDTW và thuật toán k-means cải tiến với độ đo Euclid

4.4. Kết chương

5. CHƯƠNG 5: KẾT LUẬN

5.1. Những kết quả đạt được của luận văn

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC - LÝ LỊCH TRÍCH NGANG

Tóm tắt

I. Tổng quan về gom cụm dữ liệu chuỗi thời gian với k medoids

Gom cụm dữ liệu chuỗi thời gian là một lĩnh vực nghiên cứu quan trọng trong khoa học dữ liệu. Với sự gia tăng của dữ liệu lớn, việc phân tích và gom nhóm các chuỗi thời gian trở nên cần thiết. Giải thuật k-medoids cải tiến đã được phát triển để giải quyết bài toán này một cách hiệu quả hơn. Bài viết này sẽ trình bày tổng quan về phương pháp gom cụm dữ liệu chuỗi thời gian và tầm quan trọng của nó trong các ứng dụng thực tiễn.

1.1. Định nghĩa và ứng dụng của dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian là tập hợp các điểm dữ liệu được thu thập theo thời gian. Chúng được sử dụng rộng rãi trong nhiều lĩnh vực như tài chính, y tế và môi trường. Việc phân tích dữ liệu này giúp rút ra các thông tin hữu ích cho quyết định.

1.2. Tại sao cần gom cụm dữ liệu chuỗi thời gian

Gom cụm dữ liệu chuỗi thời gian giúp xác định các mẫu và xu hướng trong dữ liệu. Điều này hỗ trợ trong việc phát hiện bất thường và tối ưu hóa quy trình ra quyết định trong các lĩnh vực khác nhau.

II. Thách thức trong việc gom cụm dữ liệu chuỗi thời gian

Mặc dù có nhiều phương pháp gom cụm, nhưng việc áp dụng chúng cho dữ liệu chuỗi thời gian gặp nhiều thách thức. Đặc biệt, độ đo khoảng cách và tính toán phức tạp là những vấn đề chính. Giải thuật k-medoids cải tiến được đề xuất để giải quyết những vấn đề này.

2.1. Vấn đề về độ đo khoảng cách trong dữ liệu chuỗi thời gian

Độ đo khoảng cách là yếu tố quan trọng trong gom cụm. Đặc biệt, độ đo Euclid không phù hợp cho dữ liệu chuỗi thời gian, trong khi DTW có chi phí tính toán cao.

2.2. Chi phí tính toán và hiệu suất của giải thuật

Giải thuật k-medoids truyền thống có thể gặp khó khăn khi xử lý dữ liệu lớn. Cần có các cải tiến để giảm thiểu chi phí tính toán mà vẫn đảm bảo hiệu suất.

III. Phương pháp gom cụm k medoids cải tiến

Giải thuật k-medoids cải tiến được phát triển để tối ưu hóa quá trình gom cụm dữ liệu chuỗi thời gian. Phương pháp này sử dụng độ đo PrunedDTW để cải thiện tốc độ và độ chính xác của việc phân cụm.

3.1. Cải tiến trong giải thuật k medoids

Giải thuật k-medoids cải tiến sử dụng các điểm dữ liệu thực làm trung tâm cụm, giúp giảm thiểu ảnh hưởng của các điểm dị biệt và tăng cường độ chính xác.

3.2. Độ đo PrunedDTW và lợi ích của nó

Độ đo PrunedDTW giúp tính toán khoảng cách giữa các chuỗi thời gian một cách nhanh chóng và hiệu quả hơn so với DTW truyền thống, từ đó cải thiện hiệu suất của giải thuật.

IV. Ứng dụng thực tiễn của giải thuật k medoids cải tiến

Giải thuật k-medoids cải tiến đã được áp dụng thành công trong nhiều lĩnh vực như tài chính, y tế và phân tích dữ liệu môi trường. Kết quả thực nghiệm cho thấy phương pháp này mang lại hiệu quả cao hơn so với các phương pháp truyền thống.

4.1. Ứng dụng trong phân tích tài chính

Trong lĩnh vực tài chính, giải thuật này giúp phân tích xu hướng giá cổ phiếu và phát hiện các mẫu giao dịch bất thường.

4.2. Ứng dụng trong y tế

Giải thuật k-medoids cải tiến có thể được sử dụng để phân tích dữ liệu sức khỏe, giúp phát hiện các bệnh lý và xu hướng sức khỏe cộng đồng.

V. Kết luận và tương lai của nghiên cứu gom cụm dữ liệu

Nghiên cứu về gom cụm dữ liệu chuỗi thời gian với giải thuật k-medoids cải tiến mở ra nhiều hướng đi mới cho các nghiên cứu tiếp theo. Việc cải tiến độ đo khoảng cách và tối ưu hóa thuật toán sẽ tiếp tục là những vấn đề quan trọng trong tương lai.

5.1. Tóm tắt kết quả nghiên cứu

Kết quả cho thấy giải thuật k-medoids cải tiến kết hợp với PrunedDTW mang lại hiệu quả cao trong việc gom cụm dữ liệu chuỗi thời gian.

5.2. Hướng phát triển trong tương lai

Nghiên cứu có thể mở rộng để áp dụng cho các loại dữ liệu khác nhau và phát triển các kỹ thuật mới nhằm cải thiện độ chính xác và hiệu suất.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính gom cụm dữ liệu chuỗi thời gian với giải thuật kmedoids cải tiến và độ đo xoắn thời gian động cải tiến pruneddtw

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Dữ liệu chuỗi thời gian ngày càng phổ biến trong nhiều lĩnh vực như chứng khoán, thời tiết, y tế, môi trường và giải trí. Theo ước tính, sự gia tăng khối lượng dữ liệu chuỗi thời gian đặt ra nhu cầu cấp thiết về các phương pháp phân tích hiệu quả nhằm khai thác tri thức từ nguồn dữ liệu này. Bài toán gom cụm dữ liệu chuỗi thời gian là một quá trình học không giám sát nhằm rút trích các đặc trưng quan trọng và phân nhóm dữ liệu thành các cụm riêng biệt, phục vụ cho việc phân tích và dự báo. Mục tiêu nghiên cứu của luận văn là phát triển giải thuật gom cụm dữ liệu chuỗi thời gian hiệu quả, vừa đảm bảo độ chính xác cao vừa giảm thiểu chi phí tính toán, đặc biệt trong bối cảnh dữ liệu ngày càng lớn và phức tạp.

Phạm vi nghiên cứu tập trung vào việc cải tiến giải thuật gom cụm k-medoids kết hợp với độ đo khoảng cách xoắn thời gian động cải tiến PrunedDTW, áp dụng trên các bộ dữ liệu mẫu trong khoảng thời gian nghiên cứu từ đầu năm 2021 đến giữa năm 2021 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao chất lượng gom cụm dữ liệu chuỗi thời gian, đồng thời giảm đáng kể thời gian tính toán so với các phương pháp truyền thống như k-means với độ đo Euclid hay k-medoids với DTW trực tiếp. Kết quả thực nghiệm cho thấy giải thuật đề xuất thực thi nhanh hơn khoảng 20-30% so với k-medoids truyền thống và cải thiện chất lượng gom cụm trên nhiều chỉ số đánh giá như Rand, ARI, Jaccard và FM.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính:

Độ đo khoảng cách xoắn thời gian động (DTW): DTW là phương pháp tính khoảng cách đặc thù cho dữ liệu chuỗi thời gian, cho phép so sánh các chuỗi có độ dài khác nhau và biến đổi về thời gian như tịnh tiến, kéo dãn hoặc co lại. DTW được tính bằng quy hoạch động với độ phức tạp tính toán là $O(nm)$, trong đó $n, m$ là độ dài hai chuỗi. Tuy nhiên, DTW truyền thống (TrueDTW) có chi phí tính toán cao, gây khó khăn khi áp dụng trên dữ liệu lớn.
Giải thuật gom cụm k-medoids cải tiến: Đây là phiên bản cải tiến của thuật toán k-medoids truyền thống, vận hành tương tự k-means nhưng sử dụng các điểm dữ liệu thực làm trung tâm cụm (medoids). Thuật toán này ít bị ảnh hưởng bởi nhiễu và điểm dị biệt hơn k-means, đồng thời cải tiến trong việc khởi tạo medoids và chỉ tính toán ma trận khoảng cách một lần duy nhất giúp tăng tốc độ xử lý.
Độ đo PrunedDTW: Là một cải tiến của DTW, PrunedDTW sử dụng kỹ thuật cắt tỉa (pruning) để loại bỏ các phần tử trong ma trận DTW không thuộc đường xoắn tối ưu, giảm đáng kể chi phí tính toán mà vẫn đảm bảo kết quả chính xác tương đương TrueDTW. Thuật toán này hoạt động trong không gian tính toán tuyến tính và hỗ trợ cửa sổ xoắn (warping window).
Khái niệm trung tâm cụm và giá trị trung bình chuỗi thời gian: Các phương pháp tính trung bình chuỗi thời gian như NLAAF, PSA và DBA được khảo sát để hiểu rõ cách xác định trung tâm cụm phù hợp với độ đo DTW, nhằm nâng cao chất lượng gom cụm.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong nghiên cứu là các bộ dữ liệu chuỗi thời gian mẫu tiêu chuẩn trong lĩnh vực khoa học máy tính, bao gồm các tập dữ liệu như Synthetic Control, Face Four và Heterogeneous, với số lượng mẫu dao động từ vài trăm đến vài nghìn chuỗi, mỗi chuỗi có độ dài trung bình khoảng 100-200 điểm.

Phương pháp phân tích bao gồm:

Hiện thực giải thuật k-medoids cải tiến kết hợp với độ đo PrunedDTW trên nền tảng lập trình phù hợp.
Tính toán ma trận khoảng cách toàn cặp (all-pairwise distance matrix) sử dụng PrunedDTW để giảm chi phí tính toán so với TrueDTW.
So sánh hiệu quả về thời gian và chất lượng gom cụm với thuật toán k-medoids cải tiến dùng TrueDTW và k-means cải tiến dùng độ đo Euclid.
Đánh giá kết quả bằng các chỉ số đánh giá gom cụm chuẩn như Rand Index, Adjusted Rand Index (ARI), Jaccard Index và Fowlkes-Mallows Index (FM).
Timeline nghiên cứu kéo dài từ tháng 1 đến tháng 6 năm 2021, bao gồm các giai đoạn: khảo sát lý thuyết, hiện thực thuật toán, thử nghiệm trên dữ liệu mẫu và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Tăng tốc độ tính toán ma trận khoảng cách: Thuật toán k-medoids cải tiến kết hợp PrunedDTW thực hiện tính toán ma trận khoảng cách nhanh hơn trung bình 25% so với k-medoids cải tiến dùng TrueDTW trên các bộ dữ liệu mẫu. Ví dụ, trên tập Synthetic Control với 600 chuỗi, thời gian tính toán giảm từ khoảng 1200 giây xuống còn khoảng 900 giây.
Cải thiện chất lượng gom cụm: So với k-means cải tiến dùng độ đo Euclid, phương pháp đề xuất đạt điểm ARI cao hơn trung bình 15%, đồng thời các chỉ số Rand, Jaccard và FM cũng được cải thiện đáng kể, thể hiện sự chính xác hơn trong việc phân nhóm các chuỗi thời gian có tính chất tương đồng.
Ổn định với các giá trị k khác nhau: Thuật toán cho phép người dùng lựa chọn số cụm k khác nhau và đánh giá kết quả để chọn k tối ưu. Thí dụ, trên tập Face Four, khi k thay đổi từ 3 đến 6, chất lượng gom cụm dao động trong khoảng 0.75 đến 0.85 theo chỉ số Rand, cho thấy tính linh hoạt và ổn định của giải thuật.
Giảm ảnh hưởng của nhiễu và điểm dị biệt: Nhờ sử dụng medoids làm trung tâm cụm, thuật toán ít bị ảnh hưởng bởi các điểm dị biệt hơn so với k-means, giúp kết quả gom cụm thực tế phù hợp hơn với cấu trúc dữ liệu.

Thảo luận kết quả

Nguyên nhân chính của việc tăng tốc độ tính toán là do PrunedDTW áp dụng kỹ thuật cắt tỉa hiệu quả, loại bỏ các ô trong ma trận DTW không thuộc đường xoắn tối ưu, giảm đáng kể số phép tính cần thực hiện. Điều này phù hợp với quan sát trực quan về ma trận DTW, nơi các giá trị xa đường chéo chính thường lớn và không cần thiết phải tính toán chi tiết.

So sánh với các nghiên cứu trước đây, kết quả của luận văn khẳng định ưu thế của việc kết hợp k-medoids cải tiến với PrunedDTW trong việc cân bằng giữa chất lượng gom cụm và chi phí tính toán. Trong khi các phương pháp xấp xỉ DTW như FastDTW không đảm bảo độ chính xác tuyệt đối, PrunedDTW giữ nguyên tính chính xác của TrueDTW nhưng giảm thời gian thực thi.

Ý nghĩa của kết quả này rất lớn trong bối cảnh dữ liệu chuỗi thời gian ngày càng tăng về số lượng và độ dài, giúp các nhà nghiên cứu và kỹ sư có công cụ gom cụm hiệu quả hơn, hỗ trợ các bài toán phân lớp, dự báo và khai phá tri thức.

Dữ liệu kết quả có thể được trình bày qua các biểu đồ so sánh thời gian thực thi và các chỉ số đánh giá gom cụm giữa các thuật toán, cũng như bảng tổng hợp kết quả trên từng bộ dữ liệu mẫu.

Đề xuất và khuyến nghị

Áp dụng thuật toán k-medoids cải tiến kết hợp PrunedDTW trong các hệ thống phân tích dữ liệu chuỗi thời gian lớn nhằm nâng cao hiệu quả gom cụm, giảm chi phí tính toán, đặc biệt trong các lĩnh vực tài chính, y tế và môi trường. Thời gian triển khai dự kiến trong vòng 6 tháng, do các nhóm nghiên cứu và phát triển phần mềm thực hiện.
Phát triển thêm các kỹ thuật khởi tạo medoids thông minh dựa trên phân tích đặc trưng dữ liệu để tăng tốc độ hội tụ và cải thiện chất lượng gom cụm. Đây là nhiệm vụ nghiên cứu tiếp theo trong vòng 12 tháng, do các nhà khoa học dữ liệu và chuyên gia học máy đảm nhận.
Tích hợp thuật toán vào các nền tảng khai phá dữ liệu và học máy phổ biến như Python, R hoặc các hệ thống Big Data để mở rộng khả năng ứng dụng và tiếp cận người dùng. Thời gian thực hiện khoảng 9 tháng, phối hợp giữa các kỹ sư phần mềm và nhà nghiên cứu.
Khuyến nghị sử dụng PrunedDTW thay cho DTW truyền thống trong các bài toán liên quan đến dữ liệu chuỗi thời gian có kích thước lớn để cân bằng giữa độ chính xác và hiệu suất tính toán, đặc biệt khi yêu cầu thời gian thực thi nhanh.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo và Khoa học dữ liệu: Luận văn cung cấp kiến thức chuyên sâu về gom cụm dữ liệu chuỗi thời gian, thuật toán k-medoids cải tiến và kỹ thuật PrunedDTW, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Kỹ sư phát triển phần mềm và chuyên gia phân tích dữ liệu: Các giải pháp và thuật toán được trình bày giúp cải thiện hiệu suất xử lý dữ liệu chuỗi thời gian trong các ứng dụng thực tế như dự báo tài chính, phân tích y tế và giám sát môi trường.
Doanh nghiệp và tổ chức sử dụng dữ liệu lớn (Big Data): Việc áp dụng các thuật toán gom cụm hiệu quả giúp tối ưu hóa quy trình phân tích dữ liệu, nâng cao chất lượng quyết định dựa trên dữ liệu chuỗi thời gian.
Nhà quản lý dự án và hoạch định chiến lược công nghệ thông tin: Hiểu rõ về các công nghệ gom cụm dữ liệu chuỗi thời gian giúp đưa ra các quyết định đầu tư và phát triển hệ thống phù hợp với xu hướng dữ liệu hiện đại.

Câu hỏi thường gặp

PrunedDTW khác gì so với DTW truyền thống?
PrunedDTW sử dụng kỹ thuật cắt tỉa để loại bỏ các phần tử không cần thiết trong ma trận DTW, giảm chi phí tính toán mà vẫn đảm bảo kết quả chính xác tương đương DTW truyền thống. Ví dụ, trên bộ dữ liệu mẫu, PrunedDTW giảm thời gian tính toán khoảng 25%.
Tại sao chọn k-medoids thay vì k-means cho dữ liệu chuỗi thời gian?
K-medoids sử dụng điểm dữ liệu thực làm trung tâm cụm, ít bị ảnh hưởng bởi nhiễu và điểm dị biệt hơn k-means. Đặc biệt, k-means khó áp dụng với độ đo DTW do việc tính trung tâm cụm phức tạp.
Làm thế nào để chọn số cụm k tối ưu?
Luận văn đề xuất cho phép người dùng thử nghiệm với các giá trị k khác nhau và đánh giá kết quả bằng các chỉ số như Rand, ARI để chọn k phù hợp nhất với đặc điểm dữ liệu.
Giải thuật có áp dụng được cho dữ liệu chuỗi thời gian có độ dài khác nhau không?
Có, PrunedDTW hỗ trợ tính toán trên chuỗi có độ dài không đồng nhất, giúp thuật toán gom cụm linh hoạt với nhiều loại dữ liệu thực tế.
Có thể áp dụng giải thuật này trong thời gian thực không?
Với cải tiến về tốc độ tính toán, giải thuật có tiềm năng áp dụng trong các hệ thống xử lý dữ liệu thời gian thực, tuy nhiên cần tối ưu thêm về mặt triển khai phần mềm và phần cứng.

Kết luận

Đề tài đã phát triển thành công giải thuật gom cụm k-medoids cải tiến kết hợp độ đo PrunedDTW, nâng cao hiệu quả gom cụm dữ liệu chuỗi thời gian.
Kết quả thực nghiệm trên nhiều bộ dữ liệu mẫu cho thấy giảm thời gian tính toán trung bình 25% so với DTW truyền thống và cải thiện chất lượng gom cụm so với k-means với độ đo Euclid.
Thuật toán ít bị ảnh hưởng bởi nhiễu và điểm dị biệt, phù hợp với các ứng dụng thực tế có dữ liệu phức tạp.
Hướng phát triển tiếp theo là tối ưu khởi tạo medoids, tích hợp thuật toán vào các nền tảng phổ biến và mở rộng ứng dụng trong các lĩnh vực khác.
Khuyến nghị các nhà nghiên cứu và kỹ sư dữ liệu áp dụng giải pháp này để nâng cao hiệu quả phân tích dữ liệu chuỗi thời gian trong thực tế.

Hãy bắt đầu áp dụng giải thuật k-medoids cải tiến kết hợp PrunedDTW để nâng cao hiệu quả phân tích dữ liệu chuỗi thời gian trong dự án của bạn ngay hôm nay!

Bài luận văn thạc sĩ có tiêu đề "Nghiên cứu gom cụm dữ liệu chuỗi thời gian bằng giải thuật kmedoids và độ đo xoắn thời gian động" của tác giả Nguyễn Hồng Hải, dưới sự hướng dẫn của PGS. Dương Tuấn Anh, trình bày một phương pháp cải tiến trong việc gom cụm dữ liệu chuỗi thời gian. Nghiên cứu này không chỉ mang lại cái nhìn sâu sắc về giải thuật K-Medoids mà còn áp dụng các độ đo xoắn thời gian động để nâng cao hiệu quả phân tích dữ liệu.

Bài viết này rất hữu ích cho những ai quan tâm đến lĩnh vực khoa học máy tính, đặc biệt là trong việc xử lý và phân tích dữ liệu chuỗi thời gian. Độc giả có thể tìm hiểu thêm về các phương pháp liên quan như gom cụm chuỗi thời gian trong khoa học máy tính theo xu hướng, hay cấu trúc chỉ mục cho dữ liệu chuỗi thời gian sử dụng độ đo khoảng cách động. Ngoài ra, bài viết cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian cũng sẽ cung cấp cho bạn những góc nhìn bổ sung về các kỹ thuật phân tích dữ liệu tương tự. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu sâu hơn về các phương pháp hiện đại trong lĩnh vực này.

#Phân tích dữ liệu

#thuật toán tối ưu

#chuỗi thời gian

#khai thác dữ liệu

#gom cụm dữ liệu

#giải thuật kmedoids

Chủ đề

Phân tích dữ liệu chuỗi thời gian

Giải thuật gom cụm

Kỹ thuật học máy

Ứng dụng trong khai thác dữ liệu