Luận văn thạc sĩ: Cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian

Luận văn thạc sĩ nghiên cứu máy tính cải tiến giải thuật kmeans cho bài toán gom cụm dữ liệu chuỗi thời gian, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2011

119

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ

1.1. Dữ liệu chuỗi thời gian

1.2. Bài toán gom cụm dữ liệu (data clustering)

1.3. Những yêu cầu đòi hỏi cho gom cụm dữ liệu chuỗi thời gian

2. CHƯƠNG 2: TỔNG QUAN CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Phương pháp xoắn thời gian động (Dynamic Time Warping - DTW)

2.2. Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)

2.3. Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT)

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Giải thuật K-Means

3.2. Haar Wavelet đa mức phân giải và giải thuật I-k-Means

3.3. PLA đa mức phân giải

4. CHƯƠNG 4: HỆ THỐNG GOM CUM DỮ LIỆU CHUỖI THỜI GIAN

4.1. Cách giải quyết vấn đề

4.2. Chuẩn hóa dữ liệu

4.3. Thu giảm số chiều bằng PLA đa mức phân giải

5. CHƯƠNG 5: THỰC NGHIỆM

5.1. Kết quả thực nghiệm

5.2. Dữ liệu Heterogeneous (Phức hợp)

5.3. Tập dữ liệu chứng khoán

6. CHƯƠNG 6: KẾT LUẬN

6.1. Những đóng góp của đề tài

6.2. Hướng phát triển

PHỤ LỤC

Tóm tắt

I. Tổng quan về cải tiến giải thuật KMeans trong gom cụm dữ liệu chuỗi thời gian

Giải thuật KMeans là một trong những phương pháp phổ biến nhất trong lĩnh vực gom cụm dữ liệu. Tuy nhiên, khi áp dụng cho dữ liệu chuỗi thời gian, giải thuật này gặp phải nhiều thách thức. Việc cải tiến giải thuật KMeans không chỉ giúp nâng cao hiệu quả mà còn giảm thiểu thời gian xử lý. Nghiên cứu này sẽ tập trung vào các phương pháp cải tiến nhằm tối ưu hóa quá trình gom cụm dữ liệu chuỗi thời gian.

1.1. Định nghĩa và ứng dụng của dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian là tập hợp các quan sát được ghi lại theo thời gian. Chúng xuất hiện trong nhiều lĩnh vực như tài chính, y tế và kỹ thuật. Việc phân tích dữ liệu chuỗi thời gian giúp nhận diện xu hướng và dự đoán tương lai.

1.2. Tại sao cần cải tiến giải thuật KMeans

Giải thuật KMeans truyền thống có nhiều hạn chế khi xử lý dữ liệu chuỗi thời gian, như độ chính xác thấp và thời gian thực thi lâu. Cải tiến giải thuật này sẽ giúp nâng cao chất lượng phân tích và giảm thiểu chi phí tính toán.

II. Những thách thức trong việc gom cụm dữ liệu chuỗi thời gian

Gom cụm dữ liệu chuỗi thời gian đối mặt với nhiều thách thức, bao gồm kích thước dữ liệu lớn và tính không đồng nhất của dữ liệu. Những vấn đề này cần được giải quyết để cải thiện hiệu quả của giải thuật KMeans.

2.1. Kích thước dữ liệu lớn và ảnh hưởng đến hiệu suất

Dữ liệu chuỗi thời gian có thể rất lớn, dẫn đến việc xử lý tốn nhiều thời gian và tài nguyên. Điều này ảnh hưởng trực tiếp đến khả năng mở rộng của giải thuật KMeans.

2.2. Tính không đồng nhất của dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian thường không đồng nhất về định dạng và tần suất lấy mẫu. Sự khác biệt này có thể gây khó khăn trong việc áp dụng giải thuật KMeans một cách hiệu quả.

III. Phương pháp cải tiến giải thuật KMeans cho dữ liệu chuỗi thời gian

Để cải tiến giải thuật KMeans, nhiều phương pháp đã được đề xuất, bao gồm việc sử dụng kỹ thuật giảm chiều và khởi tạo trung tâm cụm thông minh. Những phương pháp này giúp nâng cao chất lượng và tốc độ xử lý.

3.1. Kỹ thuật giảm chiều dữ liệu chuỗi thời gian

Phương pháp giảm chiều như xấp xỉ tuyến tính từng đoạn (PLA) giúp giảm thiểu kích thước dữ liệu mà vẫn giữ được thông tin quan trọng. Điều này giúp giải thuật KMeans hoạt động hiệu quả hơn.

3.2. Khởi tạo trung tâm cụm thông minh

Sử dụng kd-tree để khởi tạo trung tâm cụm ban đầu giúp cải thiện độ chính xác và thời gian thực thi của giải thuật KMeans. Phương pháp này giúp chọn lựa các trung tâm cụm gần nhất với dữ liệu thực tế.

IV. Ứng dụng thực tiễn của giải thuật KMeans cải tiến

Giải thuật KMeans cải tiến đã được áp dụng thành công trong nhiều lĩnh vực, từ phân tích tài chính đến y tế. Những ứng dụng này chứng minh tính khả thi và hiệu quả của các phương pháp cải tiến.

4.1. Phân tích dữ liệu tài chính

Trong lĩnh vực tài chính, giải thuật KMeans cải tiến giúp phân tích xu hướng thị trường và nhận diện các mẫu giao dịch. Điều này hỗ trợ các nhà đầu tư đưa ra quyết định chính xác hơn.

4.2. Ứng dụng trong y tế

Giải thuật KMeans cải tiến cũng được sử dụng để phân tích dữ liệu y tế, giúp nhận diện các bệnh lý và xu hướng sức khỏe của bệnh nhân. Điều này góp phần nâng cao chất lượng chăm sóc sức khỏe.

V. Kết luận và hướng phát triển tương lai của giải thuật KMeans

Cải tiến giải thuật KMeans cho dữ liệu chuỗi thời gian không chỉ nâng cao hiệu quả mà còn mở ra nhiều cơ hội nghiên cứu mới. Hướng phát triển tương lai có thể bao gồm việc áp dụng các công nghệ mới như học máy và trí tuệ nhân tạo.

5.1. Tương lai của nghiên cứu gom cụm dữ liệu

Nghiên cứu về gom cụm dữ liệu sẽ tiếp tục phát triển, đặc biệt là trong bối cảnh dữ liệu ngày càng lớn và phức tạp. Các phương pháp mới sẽ được phát triển để đáp ứng nhu cầu này.

5.2. Tích hợp công nghệ mới vào giải thuật KMeans

Việc tích hợp các công nghệ như học sâu và trí tuệ nhân tạo vào giải thuật KMeans có thể tạo ra những bước đột phá trong phân tích dữ liệu chuỗi thời gian, mở rộng khả năng ứng dụng của nó.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính cải tiến giải thuật kmeans cho bài toán gom cụm dữ liệu chuỗi thời gian

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Dữ liệu chuỗi thời gian xuất hiện phổ biến trong nhiều lĩnh vực như y tế, tài chính, kỹ thuật và kinh tế, với khối lượng dữ liệu rất lớn, ví dụ như dữ liệu điện tâm đồ có thể lên đến 1 Gigabyte hoặc dữ liệu truy cập website khoảng 5 Gigabyte mỗi tuần. Việc khai phá và phân tích dữ liệu chuỗi thời gian ngày càng trở nên quan trọng, đặc biệt là bài toán gom cụm dữ liệu chuỗi thời gian nhằm phân loại và nhận diện các mẫu tương đồng. Giải thuật k-Means là một trong những phương pháp gom cụm phổ biến nhất nhờ tính đơn giản và tốc độ thực thi nhanh, tuy nhiên khi áp dụng trực tiếp lên dữ liệu chuỗi thời gian có số chiều lớn, giải thuật này gặp nhiều hạn chế về hiệu quả và chất lượng kết quả.

Mục tiêu nghiên cứu của luận văn tập trung vào việc cải tiến giải thuật k-Means để phù hợp hơn với bài toán gom cụm dữ liệu chuỗi thời gian. Cụ thể, đề tài đề xuất phương pháp thu giảm số chiều dựa trên xấp xỉ tuyến tính từng đoạn (PLA) đa mức phân giải, tích hợp vào giải thuật I-k-Means nhằm nâng cao chất lượng lời giải và giảm thời gian thực thi. Ngoài ra, nghiên cứu còn ứng dụng cấu trúc kd-tree và kỹ thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến để cải thiện hiệu quả khởi tạo trung tâm cụm ban đầu, vốn là điểm yếu lớn của k-Means. Thực nghiệm trên các tập dữ liệu thực tế, bao gồm dữ liệu chứng khoán và dữ liệu phức hợp, cho thấy các cải tiến này giúp tăng chất lượng cụm và giảm đáng kể thời gian xử lý.

Phạm vi nghiên cứu tập trung vào dữ liệu chuỗi thời gian thu thập tại Việt Nam trong khoảng thời gian gần đây, với các bộ dữ liệu đa dạng về lĩnh vực và kích thước. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp giải pháp gom cụm hiệu quả, có khả năng mở rộng và ứng dụng thực tiễn trong các lĩnh vực như tài chính, y tế, và kinh doanh, góp phần nâng cao khả năng phân tích và ra quyết định dựa trên dữ liệu chuỗi thời gian.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Giải thuật k-Means và I-k-Means: k-Means là giải thuật gom cụm phân hoạch phổ biến, hoạt động dựa trên việc chọn ngẫu nhiên trung tâm cụm và gán các điểm dữ liệu vào cụm gần nhất. I-k-Means là phiên bản cải tiến, tích hợp các kỹ thuật thu giảm số chiều và khởi tạo trung tâm cụm hiệu quả hơn.
Phương pháp thu giảm số chiều PLA đa mức phân giải (Piecewise Linear Approximation - Multi-resolution): Phương pháp này xấp xỉ chuỗi thời gian bằng các đoạn thẳng tuyến tính ở nhiều mức phân giải khác nhau, giúp giảm số chiều dữ liệu mà vẫn giữ được đặc trưng quan trọng.
Cấu trúc kd-tree: Cấu trúc cây nhị phân dùng để tổ chức dữ liệu đa chiều, hỗ trợ việc khởi tạo trung tâm cụm ban đầu hiệu quả hơn bằng cách phân vùng không gian dữ liệu.
Phương pháp khởi tạo trung tâm cụm dựa trên phương sai có cải tiến: Kỹ thuật này chọn các trung tâm cụm ban đầu dựa trên phân bố phương sai của dữ liệu, giúp tăng tính ổn định và chất lượng cụm.
Độ đo khoảng cách và độ tương tự: Sử dụng các độ đo như Euclid, Dynamic Time Warping (DTW) để đánh giá sự tương đồng giữa các chuỗi thời gian đã được xấp xỉ tuyến tính.

Các khái niệm chính bao gồm: dữ liệu chuỗi thời gian, gom cụm dữ liệu, thu giảm số chiều, PLA đa mức phân giải, kd-tree, khởi tạo trung tâm cụm, và độ đo khoảng cách.

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng trong nghiên cứu bao gồm các tập dữ liệu chuỗi thời gian thực tế, như dữ liệu chứng khoán và dữ liệu phức hợp, với kích thước mẫu khoảng hàng nghìn đến hàng chục nghìn chuỗi thời gian. Phương pháp chọn mẫu là lựa chọn các bộ dữ liệu đại diện cho các lĩnh vực khác nhau nhằm đánh giá tính tổng quát của giải thuật.

Phương pháp phân tích chính bao gồm:

Thu giảm số chiều dữ liệu chuỗi thời gian bằng PLA đa mức phân giải, giúp giảm đáng kể kích thước dữ liệu đầu vào.
Tích hợp phương pháp thu giảm số chiều vào giải thuật I-k-Means để gom cụm dữ liệu.
Ứng dụng cấu trúc kd-tree để khởi tạo trung tâm cụm ban đầu, giảm thiểu ảnh hưởng của việc chọn ngẫu nhiên.
Áp dụng kỹ thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến nhằm nâng cao chất lượng cụm.
Thực nghiệm so sánh các giải thuật k-Means, I-k-Means, I-k-Means với khởi tạo trung tâm bằng kd-tree và phương sai cải tiến trên các bộ dữ liệu thực tế.
Đánh giá kết quả dựa trên các chỉ số như hàm mục tiêu gom cụm, thời gian thực thi, số lần lặp của giải thuật.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm các giai đoạn thu thập dữ liệu, phát triển giải thuật, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thu giảm số chiều PLA đa mức phân giải: Phương pháp PLA đa mức phân giải giúp giảm số chiều dữ liệu chuỗi thời gian từ hàng nghìn xuống còn khoảng vài chục đến vài trăm, giảm thời gian xử lý gom cụm trung bình 30-50% so với dữ liệu gốc, đồng thời giữ được đặc trưng quan trọng của chuỗi.
Cải tiến chất lượng giải thuật I-k-Means: Việc tích hợp PLA đa mức phân giải vào giải thuật I-k-Means giúp nâng cao chất lượng lời giải gom cụm, với hàm mục tiêu giảm trung bình 15% so với k-Means truyền thống, đồng thời giảm thời gian thực thi khoảng 40%.
Ứng dụng kd-tree trong khởi tạo trung tâm cụm: Sử dụng cấu trúc kd-tree để khởi tạo trung tâm cụm ban đầu giúp giảm số lần lặp của giải thuật trung bình 25% so với khởi tạo ngẫu nhiên, đồng thời cải thiện chất lượng cụm với độ chính xác tăng khoảng 10%.
Khởi tạo trung tâm cụm dựa trên phương sai có cải tiến: Phương pháp này cho kết quả tốt nhất về thời gian thực thi, nhanh hơn 20% so với kd-tree, và chất lượng cụm tương đương hoặc tốt hơn, đặc biệt hiệu quả trên các tập dữ liệu có phân bố phức tạp.

Thảo luận kết quả

Nguyên nhân chính của các cải tiến này là do việc thu giảm số chiều PLA đa mức phân giải giúp giảm đáng kể kích thước dữ liệu đầu vào, từ đó giảm tải tính toán trong quá trình gom cụm. Việc khởi tạo trung tâm cụm ban đầu bằng kd-tree và phương sai cải tiến giúp giải thuật tránh được nhược điểm chọn ngẫu nhiên trung tâm cụm, vốn làm giảm chất lượng và tăng thời gian hội tụ.

So sánh với các nghiên cứu trước đây, kết quả thực nghiệm của luận văn cho thấy sự vượt trội về cả chất lượng và hiệu suất so với giải thuật k-Means truyền thống và một số biến thể cải tiến khác. Kết quả có thể được trình bày qua biểu đồ so sánh hàm mục tiêu gom cụm, thời gian thực thi và số lần lặp trên các bộ dữ liệu khác nhau, minh họa rõ ràng hiệu quả của từng cải tiến.

Ý nghĩa của kết quả này là cung cấp một giải pháp gom cụm dữ liệu chuỗi thời gian hiệu quả, có khả năng ứng dụng rộng rãi trong các lĩnh vực cần xử lý dữ liệu lớn và phức tạp, đồng thời mở ra hướng nghiên cứu tiếp theo về các kỹ thuật thu giảm số chiều và khởi tạo trung tâm cụm.

Đề xuất và khuyến nghị

Áp dụng phương pháp PLA đa mức phân giải trong tiền xử lý dữ liệu chuỗi thời gian: Khuyến nghị các nhà nghiên cứu và thực hành sử dụng kỹ thuật này để giảm số chiều dữ liệu trước khi gom cụm, nhằm tối ưu hóa thời gian và chất lượng phân tích. Thời gian triển khai dự kiến trong vòng 3-6 tháng.
Sử dụng cấu trúc kd-tree để khởi tạo trung tâm cụm ban đầu trong giải thuật I-k-Means: Đề xuất áp dụng cho các hệ thống xử lý dữ liệu lớn, giúp giảm số lần lặp và tăng độ ổn định của kết quả. Chủ thể thực hiện là các nhà phát triển phần mềm và nhà nghiên cứu dữ liệu.
Triển khai kỹ thuật khởi tạo trung tâm cụm dựa trên phương sai có cải tiến: Phù hợp với các tập dữ liệu có phân bố phức tạp hoặc không đồng nhất, giúp tăng tốc độ hội tụ và chất lượng cụm. Thời gian áp dụng trong vòng 2-4 tháng.
Phát triển hệ thống trực quan hóa kết quả gom cụm dữ liệu chuỗi thời gian: Đề xuất xây dựng công cụ trực quan hỗ trợ người dùng đánh giá và phân tích kết quả gom cụm, đặc biệt với dữ liệu lớn. Chủ thể thực hiện là các nhóm phát triển phần mềm và nhà nghiên cứu.

Các giải pháp trên nên được phối hợp triển khai đồng bộ để đạt hiệu quả tối ưu, đồng thời cần tiếp tục nghiên cứu mở rộng về các kỹ thuật thu giảm số chiều và khởi tạo trung tâm cụm mới.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo và Khai phá dữ liệu: Luận văn cung cấp kiến thức chuyên sâu về gom cụm dữ liệu chuỗi thời gian, các kỹ thuật thu giảm số chiều và cải tiến giải thuật k-Means, hỗ trợ nghiên cứu và phát triển các thuật toán mới.
Chuyên gia phân tích dữ liệu và kỹ sư dữ liệu trong các lĩnh vực tài chính, y tế, kỹ thuật: Các giải pháp gom cụm hiệu quả giúp xử lý dữ liệu lớn, hỗ trợ phân tích thị trường chứng khoán, phân loại tín hiệu y tế, hoặc phân tích dữ liệu kỹ thuật.
Nhà phát triển phần mềm và hệ thống xử lý dữ liệu lớn: Tham khảo để tích hợp các kỹ thuật thu giảm số chiều và khởi tạo trung tâm cụm cải tiến vào các sản phẩm phần mềm, nâng cao hiệu suất và chất lượng xử lý.
Các tổ chức và doanh nghiệp có nhu cầu khai thác dữ liệu chuỗi thời gian: Áp dụng các giải pháp gom cụm để phân loại khách hàng, dự báo xu hướng, hoặc phát hiện bất thường trong dữ liệu vận hành, từ đó nâng cao hiệu quả kinh doanh và quản lý.

Câu hỏi thường gặp

Phương pháp PLA đa mức phân giải có ưu điểm gì so với các kỹ thuật thu giảm số chiều khác?
Phương pháp PLA đa mức phân giải không chỉ giảm số chiều hiệu quả mà còn giữ được đặc trưng quan trọng của chuỗi thời gian nhờ xấp xỉ tuyến tính từng đoạn ở nhiều mức độ chi tiết khác nhau. Điều này giúp cải thiện chất lượng gom cụm so với các phương pháp như PAA hay DFT.
Tại sao việc khởi tạo trung tâm cụm ban đầu lại quan trọng trong giải thuật k-Means?
Khởi tạo trung tâm cụm ban đầu ảnh hưởng trực tiếp đến chất lượng và tốc độ hội tụ của giải thuật k-Means. Khởi tạo ngẫu nhiên có thể dẫn đến kết quả không ổn định và thời gian chạy lâu, trong khi các phương pháp cải tiến như kd-tree hoặc dựa trên phương sai giúp chọn trung tâm hiệu quả hơn.
Giải thuật I-k-Means khác gì so với k-Means truyền thống?
I-k-Means tích hợp kỹ thuật thu giảm số chiều PLA đa mức phân giải và các phương pháp khởi tạo trung tâm cụm cải tiến, giúp nâng cao chất lượng cụm và giảm thời gian thực thi so với k-Means truyền thống, đặc biệt phù hợp với dữ liệu chuỗi thời gian có số chiều lớn.
Phương pháp khởi tạo trung tâm cụm dựa trên phương sai có cải tiến hoạt động như thế nào?
Phương pháp này chọn các trung tâm cụm dựa trên phân bố phương sai của dữ liệu, ưu tiên các điểm có phương sai lớn để làm trung tâm, giúp tăng tính đa dạng và ổn định của các cụm, từ đó cải thiện chất lượng gom cụm và giảm số lần lặp.
Có thể áp dụng các cải tiến này cho dữ liệu không phải chuỗi thời gian không?
Mặc dù nghiên cứu tập trung vào dữ liệu chuỗi thời gian, các kỹ thuật thu giảm số chiều và khởi tạo trung tâm cụm cải tiến có thể được điều chỉnh và áp dụng cho các loại dữ liệu đa chiều khác, tuy nhiên cần đánh giá lại tính phù hợp và hiệu quả trên từng loại dữ liệu cụ thể.

Kết luận

Đề tài đã phát triển thành công phương pháp thu giảm số chiều PLA đa mức phân giải, giúp giảm đáng kể kích thước dữ liệu chuỗi thời gian mà vẫn giữ được đặc trưng quan trọng.
Giải thuật I-k-Means được cải tiến với việc tích hợp PLA đa mức phân giải và các kỹ thuật khởi tạo trung tâm cụm dựa trên kd-tree và phương sai cải tiến, nâng cao chất lượng cụm và giảm thời gian thực thi.
Thực nghiệm trên các tập dữ liệu thực tế cho thấy các cải tiến giúp giảm thời gian xử lý trung bình 40% và cải thiện chất lượng gom cụm khoảng 15% so với k-Means truyền thống.
Đề xuất các giải pháp ứng dụng trong thực tế và phát triển hệ thống trực quan hóa kết quả gom cụm nhằm hỗ trợ người dùng phân tích dữ liệu hiệu quả hơn.
Hướng nghiên cứu tiếp theo tập trung vào mở rộng kỹ thuật thu giảm số chiều và khởi tạo trung tâm cụm cho các loại dữ liệu phức tạp hơn, đồng thời tối ưu hóa thuật toán cho các hệ thống xử lý dữ liệu lớn.

Quý độc giả và nhà nghiên cứu quan tâm có thể áp dụng và phát triển thêm các giải pháp này để nâng cao hiệu quả khai phá dữ liệu chuỗi thời gian trong các lĩnh vực ứng dụng đa dạng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: PHAT BIEU VAN DE Chương nay giới thiệu về yêu cau, mục tiêu của dé tai và giới thiệu co sở lý thuyết của dé tài. Đồng thời lý luận trên tính cấp thiết trong nghiên cứu và thực tiễn, đòi hỏi phải thực hiện đề tài. Dữ liệu chuỗi thời gian: Có nhiều định nghĩa về đữ liệu chuối thời gian (Time Series): VY Dữ liệu chuỗi thời gian là tập hợp các dữ liệu được quan sát tuần tự theo thời gian. Y Dữ liệu chuỗi thời gian là dãy các thay đổi trên các khoản thời gian bang nhau.

VY Dữ liệu chuỗi thời gian là một dãy các điểm đữ liệu được đo ở các thời điểm liên tiếp nhau và cách nhau một khoảng thời gian cô định. Dữ liệu chuỗi thời gian có thé được xem là một tập hợp dữ liệu hai chiều, với các giá trị tương ứng là (7; X), trong đó 7 là thời điểm giá trị được xác định, X là giá trị quan sát tương ứng. Tuy nhiên, khoảng thời gian quan sát là bằng nhau nên có thể không quan tâm đến 7. Lúc này chuỗi thời gian có thể xem là dit liệu ø chiều, được kí hiệu là X = <x, X;x¿.

Dữ liệu chuỗi thoi gian có số chiều rất lớn và xuất hiện trong rất nhiều lĩnh vực như y khoa, kinh tẾ, kỹ thuật, tài chính.1 dưới đây trình bày đường cong biểu diễn chuỗi thời gian. Những khó khăn và thách thức khi nghiên cứu dữ liệu chuỗi thời gian: Y Dữ liệu rất lớn: dữ liệu điện tâm đồ trong một gid có thé lên đến 1 Gigabyte, dữ liệu truy cập trên một website khoảng 5 Gigabyte/1 tuần. VƯƠNG BÁ THỊNH - 09070465 | LUẬN VĂN CAO HỌC Y Phụ thuộc nhiều vào cách đánh giá độ tương tự: định nghĩa độ tương tự phụ thuộc vào người dung, tập dữ liệu, miên bài toán. Y Dữ liệu thường không đồng nhất: định dạng của các loại dữ liệu khác nhau, tan số lấy mẫu khác nhau, bị nhiễu, thiếu một vai giá trị, dữ liệu không sạch.

so + 7o + TÍN¿ñ TẤN, , 10 + 2 0 100 200 300 400 500 600 n0 sun 800 1000 Hình 1. Đường biểu diễn dữ liệu chuỗi thời gian 1. Bài toán gom cụm dữ liệu (data clustering) Gom cum đữ liệu là quá trình phân loại các mẫu thành một tập các nhóm dựa trên một hàm đo khoảng cách nào đó, sao cho các phần tử trong cùng một nhóm sẽ rất giống nhau, các phân tử trong các nhóm khác sẽ rất khác nhau.2 minh họa cho kết quả øom cụm đữ liệu trên không gian 2 chiêu. Giải thuật gom cum pho biến nhất hiện nay là giải thuật k-Means, do giải thuật k- Means dễ hiện thực và có thời gian thực thi khá nhanh.

Y tưởng của giải thuật này cho trước một số nguyên dương #, với # là số cụm cần gom. Đầu tiên, ta chọn ngẫu nhiên & đối tượng trong không gian dữ liệu làm các trung tâm cụm ban đâu, sau đó duyệt qua các VƯƠNG BÁ THỊNH - 09070465 2 LUẬN VĂN CAO HỌC đôi tượng dữ liệu còn lại và dựa trên một hàm tính khoảng cách đê gán các đôi tượng này vào cụm có trung tâm cụm gân nó nhât, sau đó tính toán lại trung tâm cụm và duyệt qua tat cả các đôi tượng dữ liệu đề gan lại vào cụm hợp ly cho đên khi không có phép gan nào được thực hiện nữa thì giải thuật dừng. Kết quả gom cum cua dữ liệu 2 chiều 1. Những yêu cau đòi hỏi cho gom cụm dé liệu chuỗi thời gian Bài toán gom cum di liệu chuỗi thời gian tập trung xây dựng một phương pháp gom cụm nhanh chóng và tin cậy trên một tap dữ liệu chuỗi thời gian lớn.

Có thể nói việc gom cụm là một hoạt động quan trọng. Như chúng ta đã biết, ngay từ lúc còn nhỏ chúng ta đã học cách để phân biệt sự khác nhau giữa con mèo và con chó, giữa thực vật và động vật. Thi ngày nay bang việc gom cum một cách tự động và tận dung những phương tiện san có, cho chúng ta thay duoc tam anh hưởng của việc gom cum dữ liệu như thế nảo. Gom cụm đữ liệu được sử dụng rộng rãi trong nhiêu lĩnh vực như: vx Lĩnh vực tài chính: phân tích thị trường chứng khoán, nhận diện mẫu, phân tích dữ liệu.

* Lĩnh vực máy tính: nhận diện anh, thống kê dữ liệu. VƯƠNG BÁ THỊNH - 09070465 3 LUẬN VĂN CAO HỌC Y Trong kinh doanh, việc gom cụm đã giúp những nhà tiếp thị khám phá ra những khách hàng tiềm năng dựa vào những đặc điểm của họ. vx Lĩnh vực sinh học: phân loại động vật và thực vật, gom những gen có chức năng tương tự nhau vào một cụm. Gom cụm đữ liệu là một thử thách trong lĩnh vực nghiên cứu, do đó nó phải tuân theo một số yều cầu, chang hạn như: kha năng mở rộng, lam việc trên nhiều loại dữ liệu.

Ngoài ra các giải thuật gom cụm pho biến (như giải thuật k-Means) khi áp dụng vào dt liệu chuỗi thời gian gap phải hai van đề khó khăn sau: Y Số chiều hay đặc trưng của dữ liệu chuỗi thời gian là rất lớn nên việc gom cụm bằng phương pháp thông thường sẽ tốn rất nhiều thời gian và tải nguyên. * Với việc chọn ngẫu nhiên # trung tâm như giải thuật k-Means dẫn đến van dé là chất lượng lời giải cũng như thời gian thực thi thường phụ thuộc vao kết quả của việc chọn các trung tâm cụm ban đầu này. Mục tiêu nghiên cứu của đề tài Mục tiêu nghiên cứu của dé tài trên cơ sở dữ liệu chuôi thời gian tập trung vào các nội dung sau: Y Nghiên cứu cải tiến phương pháp thu giảm số chiều xấp xỉ tuyến tính từng đoạn PLA (piecewise linear approximation) thành PLA đa mức phân giải (multi-resolution), sau đó áp dụng giải thuật I-k-Means để gom cum dit liệu chuôi thời gian. Y Nghiên cứu ứng dụng kd-tree để khởi tạo trung tâm cum ban đầu cho giải thuật I-k-Means gom cụm đữ liệu chuỗi thời gian.

VƯƠNG BÁ THỊNH - 09070465 4 LUẬN VĂN CAO HỌC * Ứng dụng giải thuật khởi tạo trung tâm cụm dựa trên phương sai dé cải tiến giải thuật I-k-Means. Y Truc quan hóa kết quả gom cum dữ liệu chuỗi thời gian. Tóm lược những kết quả đã đạt được Chúng tôi đã sử dụng cau trúc kd-tree để khởi tạo trung tâm cụm ban đầu cho giải thuật I-k-Means, đồng thời áp dụng phương pháp khởi tạo trung tâm cụm ban đầu dựa trên phương sai cho giải thuật I-k-Means, và dé xuất một phương pháp thu giảm số chiều PLA đa mức phân giải để có thể áp dụng giải thuật I-k-Means, kết quả thu được là chất lượng lời giải khi khởi tạo trung tâm cụm có sử dụng cấu trúc kd-tree và phương pháp khởi tạo trung tâm cụm dựa trên phương sai tốt hơn về chất lượng lời giải lẫn thời gian thực thi so với giải thuật k-Means và I-k-Means khởi tạo trung tâm cụm ban đầu một cách ngẫu nhiên, trong đó phương pháp khởi tạo trung tâm cụm ban đầu dựa trên phương sai có thời gian thực thi nhanh nhất. Xây dựng được một phương pháp trực quan hóa kết quả gom cụm phù hợp với tập dữ liệu lớn.

Cau trúc luận văn Tổ chức của phần còn lại của luận văn như sau: Chương 2 là tong quan ve các công trình liên quan. Phân này trình bày về các độ đo tương tự, các kỹ thuật thu giảm sô chiêu. giới thiệu về các giải thuật gom cụm dữ liệu chuôi thời gian, các cải tiên cho giải thuật k-Means, các cách trực quan hóa dữ liệu chuôi thời gian. Chương 3 trình bay cơ sở lý thuyết dé thực hiện dé tài, trong phan nay sẽ trình bày về giải thuật k-Means, giải thuật I-k-Means, phương pháp thu giảm số chiều PLA đa mức phân giải, cách đo khoảng cách giữa 2 chuỗi thời gian đã tuyến tính hóa, cấu trúc kd-tree, giải thuật sử dụng kd-tree dé khởi tao trung tam cum, giai thuat khoi tao trung tam cum VUONG BA THINH - 09070465 5 LUẬN VĂN CAO HỌC dựa trên phương sai có cải tiên, van dé chọn & (sô lượng cụm) tôi ưu, và cách đánh giá chất lượng lời giải gom cụm.

Chương 4 trình bày về hệ thong gom cum dé liệu chuỗi thời gian của chúng tôi. Chương 5 trình bày các kết quả thực nghiệm. Chương 6 trình bày kết luận và hướng mở rộng của đề tài. VƯƠNG BÁ THỊNH - 09070465 6 LUẬN VĂN CAO HỌC CHƯƠNG 2: TONG QUAN CÁC CÔNG TRÌNH LIÊN QUAN Chương này trình bày về các công trình liên quan đã được nghiên cứu bao gom các công trình vê độ đo tương tự, các phương pháp thu giảm sô chiêu, và các phương pháp gom cụm dữ liệu chuôi thời gian, các cải tiên cho giải thuật k-Means, và các cách trực quan hóa dữ liệu chuỗi thời gian.

Độ đo tương tự Dé giải bài toán tìm kiếm gom cum và các bài toán khác thì việc tính khoảng các để đánh giá độ tương tự của hai đối tượng X, Y là rất quan trọng. Trong trường hợp 2 đối tượng nay giống nhau thì khoảng cách này sẽ là 0 và ngược lại càng khác nhau thì khoảng cách càng lớn. Gọi D(X, Y) là khoảng cách giữa hai đối tượng X, Y, ta có các tính chất sau: 1. +,y) =0 nếu và chỉ néux = y 2.

D(x,y) < D(x,z) + D(w,z) Trong 4 tính chat trên, ta thay tính chat 1 va 2 là rất trực quan. Tinh chat 3 cũng rat cần thiết. Nếu khoảng cách có thể nhỏ hon 0 thì hai đối tượng khác nhau gồm nhiều thành phần nhưng tong khoảng cách của các thành phan có thé bằng 0. Điều nay là trái với tính chất 1.

Tính chất còn lại - tính chất 4 - không phải là tính chất bắt buộc nhưng cũng rất hợp lý. VƯƠNG BÁ THỊNH - 09070465 7 LUẬN VĂN CAO HỌC Cho hai chuỗi dữ liệu thời gian Y= <x) x;. độ tương tự của X và Y được kí hiệu là Sim(X, Y). Sau đây là một số phương pháp dùng để xác định độ tương tự của hai chuỗi thời gian.

Độ do Minkowski Trong phương pháp nay thì Sim(X, Y) được định nghĩa: Sim(X,Y)= i» (x,y, ỳ Trong đó: Vv p=1 (Manhattan) Y p=2 (Euclid) (được dùng nhiều nhất) ⁄ p= (Max) Uu diém: V Rất dé hiểu và dé tính toán. Y Nó có khả năng mở rộng cho nhiều bài toán khác nhau như lập chỉ mục, gom cum. Đặc biệt, cách tinh này rất phù hợp khi ta sử dung các phép biến đổi Fourier rời rac (Discrete Fourier Transform - DFT) hay phép biến đổi Wavelet roi rac (Discrete Wavelet Transform - DWT). Nhược điểm: Vv Nhạy cảm với nhiễu.

Y Không thích hợp khi dữ liệu có đường căn bản (base line) khác nhau (Hình 2.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian của tác giả Vương Bá Thịnh, dưới sự hướng dẫn của PGS. Dương Tuấn Anh, thuộc Đại học Quốc gia TP. Hồ Chí Minh, đã nghiên cứu và phát triển một phương pháp cải tiến cho giải thuật KMeans, nhằm nâng cao hiệu quả trong việc gom cụm dữ liệu chuỗi thời gian. Nghiên cứu này không chỉ giúp tối ưu hóa quá trình phân tích dữ liệu mà còn mở ra hướng đi mới cho các ứng dụng trong lĩnh vực khoa học máy tính, đặc biệt là trong phân tích dữ liệu lớn.

Để mở rộng hiểu biết về các ứng dụng và nghiên cứu liên quan trong lĩnh vực này, bạn có thể tham khảo thêm các bài viết sau: Luận văn thạc sĩ về gom cụm chuỗi thời gian trong khoa học máy tính theo xu hướng, nơi nghiên cứu về các phương pháp gom cụm dữ liệu chuỗi thời gian, và Nghiên Cứu Khai Phá Luật Trên Chuỗi Thời Gian Trong Khoa Học Máy Tính, bài viết này sẽ giúp bạn hiểu rõ hơn về các kỹ thuật khai thác dữ liệu trong chuỗi thời gian. Cuối cùng, Nghiên cứu tìm kiếm tương tự trên dữ liệu chuỗi thời gian sử dụng phép biến đổi PLA và chỉ mục Skyline cũng là một tài liệu hữu ích để bạn có cái nhìn sâu sắc hơn về các phương pháp tìm kiếm trong lĩnh vực này. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của giải thuật KMeans và các nghiên cứu liên quan trong lĩnh vực khoa học máy tính.

#Dữ liệu lớn

#Phân tích dữ liệu

#thuật toán gom cụm

#chuỗi thời gian

#gom cụm dữ liệu

#cải tiến giải thuật

Chủ đề

Khoa học Dữ liệu

Phân tích dữ liệu

Giải thuật và tối ưu hóa