Nghiên cứu gom cụm dữ liệu chuỗi thời gian bằng giải thuật kmedoids và độ đo xoắn thời gian động

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

76
1
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu vấn đề

Trong bối cảnh hiện nay, dữ liệu chuỗi thời gian ngày càng trở nên phổ biến trong nhiều lĩnh vực như tài chính, y tế và môi trường. Vấn đề gom cụm dữ liệu chuỗi thời gian trở thành một nhu cầu thiết yếu nhằm rút trích những thông tin hữu ích từ các nguồn dữ liệu này. Quá trình này thuộc về lĩnh vực học không giám sát, nơi mà các đặc trưng và tính chất của dữ liệu được phân tích để tạo ra những cụm dữ liệu có ý nghĩa. Giải thuật k-medoids là một trong những phương pháp được sử dụng để giải quyết bài toán này, nhờ vào khả năng giảm thiểu ảnh hưởng của các điểm dị biệt trong tập dữ liệu. Tuy nhiên, việc áp dụng đo khoảng cách DTW (Dynamic Time Warping) cho dữ liệu chuỗi thời gian thường gặp phải vấn đề về chi phí tính toán cao, do đó việc cải tiến giải thuật này là rất cần thiết.

II. Cơ sở lý thuyết

Để hiểu rõ hơn về vấn đề gom cụm dữ liệu chuỗi thời gian, cần phân tích các khái niệm cơ bản như đo khoảng cách và các giải thuật gom cụm. Đo khoảng cách là phương pháp định lượng sự sai biệt giữa các đối tượng trong tập dữ liệu, với Euclidean distance là một trong những đo lường phổ biến nhất. Tuy nhiên, DTW lại là lựa chọn ưu việt hơn cho dữ liệu chuỗi thời gian, mặc dù có chi phí tính toán cao. Giải thuật k-medoids hoạt động dựa trên việc sử dụng các điểm dữ liệu thực làm trung tâm cụm, giúp giảm thiểu ảnh hưởng của các điểm dị biệt. Việc cải tiến giải thuật này bằng cách kết hợp với đo khoảng cách PrunedDTW sẽ giúp giảm thiểu chi phí tính toán đồng thời nâng cao chất lượng gom cụm.

III. Phương pháp giải quyết vấn đề

Trong nghiên cứu này, phương pháp giải quyết bài toán gom cụm được thực hiện thông qua việc phát triển giải thuật k-medoids cải tiến kết hợp với đo khoảng cách PrunedDTW. Kỹ thuật này cho phép thực hiện tính toán khoảng cách giữa các điểm dữ liệu chỉ một lần duy nhất trong quá trình khởi tạo, từ đó tiết kiệm thời gian tính toán. Bên cạnh đó, việc áp dụng các kỹ thuật khởi tạo trung tâm cụm hiệu quả sẽ giúp nâng cao chất lượng gom cụm. Kết quả thực nghiệm cho thấy giải thuật cải tiến này không chỉ thực thi nhanh hơn mà còn đạt được hiệu quả gom cụm tốt hơn so với các phương pháp truyền thống như k-means.

IV. Thực nghiệm và đánh giá

Các thí nghiệm được thực hiện trên nhiều bộ dữ liệu khác nhau để đánh giá hiệu quả của giải thuật k-medoids cải tiến kết hợp với đo khoảng cách PrunedDTW. Kết quả cho thấy rằng giải thuật này có khả năng hoạt động hiệu quả hơn so với giải thuật k-medoids truyền thống và k-means, với chỉ số đánh giá chất lượng gom cụm cao hơn. Cụ thể, các chỉ số Rand, ARI và Jaccard đều cho thấy sự cải thiện rõ rệt trong chất lượng gom cụm. Điều này chứng tỏ rằng việc áp dụng các kỹ thuật cải tiến trong nghiên cứu này là hoàn toàn hợp lý và có giá trị thực tiễn cao.

V. Kết luận

Tóm lại, nghiên cứu này đã chỉ ra rằng việc cải tiến giải thuật k-medoids bằng cách sử dụng đo khoảng cách PrunedDTW không chỉ giúp nâng cao hiệu quả gom cụm mà còn giảm thiểu chi phí tính toán. Điều này mở ra hướng đi mới cho việc áp dụng các phương pháp gom cụm trong các lĩnh vực khác nhau, đặc biệt là trong bối cảnh dữ liệu chuỗi thời gian ngày càng phát triển. Kết quả thực nghiệm khẳng định rằng giải thuật được đề xuất có thể được ứng dụng rộng rãi trong thực tiễn, mang lại giá trị thiết thực cho các nhà nghiên cứu và ứng dụng trong công nghiệp.

05/01/2025
Luận văn thạc sĩ khoa học máy tính gom cụm dữ liệu chuỗi thời gian với giải thuật kmedoids cải tiến và độ đo xoắn thời gian động cải tiến pruneddtw
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính gom cụm dữ liệu chuỗi thời gian với giải thuật kmedoids cải tiến và độ đo xoắn thời gian động cải tiến pruneddtw

để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ có tiêu đề "Nghiên cứu gom cụm dữ liệu chuỗi thời gian bằng giải thuật kmedoids và độ đo xoắn thời gian động" của tác giả Nguyễn Hồng Hải, dưới sự hướng dẫn của PGS. Dương Tuấn Anh, trình bày một phương pháp cải tiến trong việc gom cụm dữ liệu chuỗi thời gian. Nghiên cứu này không chỉ mang lại cái nhìn sâu sắc về giải thuật K-Medoids mà còn áp dụng các độ đo xoắn thời gian động để nâng cao hiệu quả phân tích dữ liệu.

Bài viết này rất hữu ích cho những ai quan tâm đến lĩnh vực khoa học máy tính, đặc biệt là trong việc xử lý và phân tích dữ liệu chuỗi thời gian. Độc giả có thể tìm hiểu thêm về các phương pháp liên quan như gom cụm chuỗi thời gian trong khoa học máy tính theo xu hướng, hay cấu trúc chỉ mục cho dữ liệu chuỗi thời gian sử dụng độ đo khoảng cách động. Ngoài ra, bài viết cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian cũng sẽ cung cấp cho bạn những góc nhìn bổ sung về các kỹ thuật phân tích dữ liệu tương tự. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu sâu hơn về các phương pháp hiện đại trong lĩnh vực này.

Tải xuống (76 Trang - 1.08 MB )