Luận văn thạc sĩ HCMUTE: Phát hiện motif trên chuỗi thời gian với giải thuật Mueen

Chuyên đề nghiên cứu Phát hiện motif trong chuỗi thời gian bằng giải thuật Mueen, cập nhật xu hướng mới, giá trị tham khảo cao cho chuyên gia chuyên

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

109

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH LIÊN QUAN

1.1. Chuỗi thời gian (Time series)

1.2. Motif trong dữ liệu chuỗi thời gian

1.3. Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)

1.4. Các phương pháp thu giảm số chiều chuỗi thời gian

1.5. Phương pháp rời rạc hóa

1.6. Rút trích chuỗi con

1.7. Cửa sổ trượt (Sliding Window)

1.8. Các công trình liên quan

2. CHƯƠNG 2: CÁC THUẬT TOÁN PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN

2.1. Tổng quan về các thuật toán

2.2. Thuật toán cơ sở

2.2.1. Phát hiện motif với chiều dài chuỗi thời gian cố định

2.2.2. Phát hiện motif trên chuỗi thời gian với mọi chiều dài khác nhau

2.3. Các thuật toán liên quan

2.4. Biến đổi Haar Wavelet và thuật toán

2.7. Giải thuật cơ sở Heuristic

3. CHƯƠNG 3: ĐỀ XUẤT ỨNG DỤNG GIẢI THUẬT HIME TRONG ĐỀ TÀI VÀ SO SÁNH VỚI GIẢI THUẬT DO A.MUEEN CẢI TIẾN

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Môi trường thực nghiệm

4.2. Datasets: fullEOG, insect_b, LSF5_10 của Mueen và Brain

4.3. Thực nghiệm dựa trên các thuật toán của tác giả đề xuất như MK, MOEN và MASS so sánh với thuật toán cải tiến HIME

4.3.1. Thực nghiệm trên bộ dữ liệu Insect_b

4.3.2. Chiều dài motif 256 điểm của bộ dữ liệu Insect_b

4.3.3. Chiều dài motif 512 điểm của bộ dữ liệu Insect_b

4.3.4. Chiều dài motif 1024 điểm của bộ dữ liệu Insect_b

4.3.5. Chiều dài motif cố định với bộ dữ liệu chiều dài chuỗi thời gian Insect_b thay đổi

4.4. Thực nghiệm trên bộ dữ liệu fullEOG

4.4.1. Chiều dài motif 128 điểm của bộ dữ liệu fullEOG

4.4.2. Chiều dài motif 256 điểm của bộ dữ liệu fullEOG

4.4.3. Chiều dài motif 512 điểm của bộ dữ liệu fullEOG

4.4.4. Chiều dài motif 1024 điểm của bộ dữ liệu fullEOG

4.4.5. Chiều dài motif cố định với bộ dữ liệu chiều dài chuỗi thời gian fullEOG thay đổi

4.5. Thực nghiệm trên bộ dữ liệu LSF5_10

4.5.1. Chiều dài motif 128 điểm của bộ dữ liệu LSF5_10

4.5.3. Chiều dài motif 512 điểm của bộ dữ liệu LSF5_10

4.5.4. Chiều dài motif 1024 điểm của bộ dữ liệu LSF5_10

4.5.5. Chiều dài motif cố định với bộ dữ liệu chiều dài chuỗi thời gian LSF5_10 thay đổi

4.6. Thực nghiệm trên bộ dữ liệu Brain

4.6.1. Chiều dài motif 128 điểm của bộ dữ liệu Brain

4.6.2. Chiều dài motif 256 điểm của bộ dữ liệu Brain

4.6.3. Chiều dài motif 512 điểm của bộ dữ liệu Brain

4.6.4. Chiều dài motif 1024 điểm của bộ dữ liệu LSF5_10

4.6.5. Chiều dài motif cố định với bộ dữ liệu chiều dài chuỗi thời gian Brain thay đổi

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phát hiện motif trong chuỗi thời gian

Việc phát hiện motif trong chuỗi thời gian là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính và khai thác dữ liệu. Motif được định nghĩa là các mẫu lặp lại trong dữ liệu, có thể xuất hiện nhiều lần trong một chuỗi thời gian dài. Nghiên cứu này tập trung vào việc áp dụng giải thuật Mueen để phát hiện các motif này, nhằm phục vụ cho các ứng dụng như phân tích dữ liệu, nhận diện mẫu và khai thác thông tin. Theo các nghiên cứu trước đây, việc phát hiện motif có thể giúp cải thiện độ chính xác trong các tác vụ như phân lớp và gom cụm. Đặc biệt, giải thuật Mueen đã được chứng minh là hiệu quả trong việc tìm kiếm các mẫu lặp lại, nhờ vào khả năng xử lý nhanh và chính xác. Việc áp dụng các phương pháp như biến đổi nhanh Fourier (FFT) và thu giảm số chiều giúp tối ưu hóa quá trình phát hiện motif, từ đó nâng cao hiệu suất của các thuật toán.

II. Các thuật toán phát hiện motif

Trong nghiên cứu này, nhiều thuật toán đã được đề xuất để phát hiện motif trong chuỗi thời gian. Các thuật toán như MK, MOEN, và MASS (Mueen’s Algorithm for Similarity Search) là những ví dụ tiêu biểu. Mỗi thuật toán có những ưu điểm và nhược điểm riêng, nhưng đều dựa trên nguyên lý chung là sử dụng cấu trúc chỉ mục không gian đa chiều và phương pháp thu giảm số chiều. Thuật toán MK, ví dụ, có độ phức tạp tính toán cao, nhưng lại cho kết quả chính xác. Ngược lại, các thuật toán xấp xỉ như MOEN và MASS có thể xử lý nhanh hơn, mặc dù có thể không đạt được độ chính xác tuyệt đối. Việc lựa chọn thuật toán phù hợp phụ thuộc vào yêu cầu cụ thể của bài toán và tính chất của dữ liệu. Nghiên cứu này sẽ so sánh hiệu suất của các thuật toán này trong việc phát hiện motif, từ đó đưa ra những khuyến nghị cho việc áp dụng trong thực tế.

III. Phân tích dữ liệu chuỗi thời gian

Phân tích dữ liệu chuỗi thời gian là một phần quan trọng trong việc phát hiện motif. Dữ liệu chuỗi thời gian thường có cấu trúc phức tạp và chứa nhiều thông tin tiềm ẩn. Việc phân tích chuỗi thời gian không chỉ giúp nhận diện các mẫu lặp mà còn hỗ trợ trong việc phát hiện các bất thường trong dữ liệu. Các phương pháp như Dynamic Time Warping (DTW) và biến đổi Haar Wavelet được sử dụng để đo lường sự tương đồng giữa các chuỗi thời gian. Những phương pháp này cho phép phát hiện các motif ngay cả khi chúng có sự biến đổi về kích thước hoặc hình dạng. Nghiên cứu này sẽ áp dụng các phương pháp này để phân tích các bộ dữ liệu thực nghiệm, nhằm kiểm tra tính hiệu quả của các thuật toán phát hiện motif.

IV. Kết quả thực nghiệm và ứng dụng

Kết quả thực nghiệm cho thấy rằng giải thuật Mueen có khả năng phát hiện motif một cách hiệu quả trong các bộ dữ liệu lớn. Các thử nghiệm được thực hiện trên nhiều bộ dữ liệu khác nhau như Insect_b, fullEOG và Brain, cho thấy rằng thuật toán này không chỉ nhanh chóng mà còn chính xác trong việc phát hiện các mẫu lặp. Việc áp dụng giải thuật phát hiện motif trong các lĩnh vực như tài chính, y tế và môi trường có thể mang lại nhiều lợi ích. Chẳng hạn, trong lĩnh vực tài chính, việc phát hiện các mẫu lặp trong dữ liệu giao dịch có thể giúp nhận diện các xu hướng và đưa ra quyết định đầu tư chính xác hơn. Tương tự, trong y tế, việc phát hiện các mẫu lặp trong dữ liệu sinh học có thể hỗ trợ trong việc chẩn đoán và điều trị bệnh.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ hcmute phát hiện motif trên time series dựa vào giải thuật của mueen

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Dữ liệu chuỗi thời gian ngày càng trở nên phổ biến và quan trọng trong nhiều lĩnh vực như khoa học kỹ thuật, kinh tế tài chính, môi trường và y học. Theo ước tính, các bộ dữ liệu chuỗi thời gian có thể lên đến hàng gigabyte chỉ trong một giờ thu thập, ví dụ như dữ liệu điện tâm đồ (ECG). Việc phát hiện motif — các mẫu lặp lại trong chuỗi thời gian — đóng vai trò then chốt trong khai phá dữ liệu, hỗ trợ các tác vụ cao cấp như gom cụm, phân lớp và khai phá luật kết hợp. Mục tiêu nghiên cứu của luận văn là kiểm chứng tính đúng đắn và hiệu quả của các thuật toán phát hiện motif trên dữ liệu chuỗi thời gian lớn, bao gồm các thuật toán MK, MOEN, MASS và HIME, thông qua thực nghiệm trên các bộ dữ liệu chuẩn do các tác giả cung cấp. Phạm vi nghiên cứu tập trung vào các thuật toán phát hiện motif với chiều dài motif cố định và thay đổi, áp dụng các phương pháp thu giảm số chiều như biến đổi Fourier nhanh (FFT), biến đổi rời rạc (DWT) và xấp xỉ gộp ký hiệu hóa (SAX). Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả xử lý dữ liệu chuỗi thời gian lớn, góp phần phát triển các ứng dụng trong thời đại công nghiệp 4.0.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Chuỗi thời gian (Time series): Là dãy các điểm dữ liệu được đo đạc liên tục theo khoảng thời gian đều nhau. Chuỗi thời gian được biểu diễn dưới dạng tập hợp có thứ tự của các mẫu giá trị thực.
Motif trong chuỗi thời gian: Là tập hợp các chuỗi con có chiều dài, hình dạng và giá trị tương đồng, xuất hiện nhiều lần trong chuỗi thời gian. Motif được phân loại thành motif chính xác (chiều dài cố định) và motif xấp xỉ (chiều dài thay đổi).
Độ đo khoảng cách Euclide: Được sử dụng phổ biến để đánh giá sự tương đồng giữa các chuỗi con sau khi chuẩn hóa dữ liệu. Công thức tính khoảng cách Euclide giữa hai chuỗi X và Y có chiều dài n là $$ D(X, Y) = \sqrt{\sum_{i=1}^n (x_i - y_i)^2} $$
Phương pháp thu giảm số chiều: Bao gồm các kỹ thuật như biến đổi Fourier nhanh (FFT), biến đổi wavelet rời rạc (DWT), xấp xỉ gộp từng đoạn (PAA) và xấp xỉ gộp ký hiệu hóa (SAX). Các phương pháp này giúp giảm kích thước dữ liệu chuỗi thời gian mà vẫn giữ được đặc trưng quan trọng, từ đó tăng tốc độ xử lý.
Thuật toán phát hiện motif: Bao gồm thuật toán MK (Mueen-Keogh) cho motif cố định, thuật toán MOEN, MASS và HIME cho motif với chiều dài thay đổi. Các thuật toán này sử dụng các kỹ thuật tối ưu như từ bỏ sớm, cận dưới (lower bound) và cấu trúc chỉ mục không gian đa chiều để giảm độ phức tạp tính toán.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng các bộ dữ liệu chuỗi thời gian chuẩn như insect_b, fullEOG, LSF5_10 và Brain do các tác giả cung cấp, với kích thước lên đến 50.000 điểm dữ liệu mỗi chuỗi.
Phương pháp phân tích: Cài đặt và thực nghiệm các thuật toán MK, MOEN, MASS và HIME trên các bộ dữ liệu. So sánh hiệu năng về thời gian thực thi và độ chính xác phát hiện motif với các chiều dài motif khác nhau (128, 256, 512, 1024 điểm) và các độ dài chuỗi thời gian thay đổi.
Timeline nghiên cứu: Thực hiện trong khoảng 6 tháng, từ tháng 8/2018 đến tháng 2/2019, bao gồm giai đoạn tìm hiểu lý thuyết, cài đặt thuật toán, thực nghiệm và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thuật toán HIME vượt trội: Thuật toán HIME sử dụng phương pháp rời rạc hóa và xấp xỉ gộp ký hiệu hóa giúp xử lý dữ liệu chuỗi thời gian lớn nhanh hơn gấp 25 lần so với thuật toán BruteForce và nhanh hơn 4 lần so với thuật toán MASS. Ví dụ, trên bộ dữ liệu insect_b với chiều dài motif 512 điểm, thời gian thực thi của HIME chỉ bằng khoảng 20% so với MASS.
Thuật toán MASS cải tiến từ MOEN: MASS áp dụng biến đổi Fourier nhanh (FFT) giúp giảm đáng kể thời gian tính toán so với MOEN. Trên bộ dữ liệu fullEOG với chiều dài motif 256 điểm, MASS nhanh hơn MOEN khoảng 3 lần trong khi vẫn giữ được độ chính xác phát hiện motif.
Độ chính xác phát hiện motif: Các thuật toán MK, MOEN, MASS và HIME đều cho kết quả chính xác tương đương khi phát hiện motif trên các bộ dữ liệu chuẩn. Tỷ lệ motif phát hiện đúng đạt trên 95% trong các thử nghiệm với các chiều dài motif khác nhau.
Ảnh hưởng của chiều dài motif và chuỗi thời gian: Thời gian thực thi tăng theo chiều dài motif và kích thước chuỗi thời gian. Tuy nhiên, các thuật toán sử dụng kỹ thuật thu giảm số chiều và cấu trúc chỉ mục đa chiều giúp giảm đáng kể độ phức tạp so với phương pháp BruteForce truyền thống.

Thảo luận kết quả

Nguyên nhân chính giúp các thuật toán cải tiến như MASS và HIME đạt hiệu quả cao là nhờ áp dụng các kỹ thuật thu giảm số chiều như FFT và rời rạc hóa SAX, giúp giảm kích thước dữ liệu đầu vào mà vẫn giữ được đặc trưng quan trọng. Việc sử dụng cấu trúc chỉ mục không gian đa chiều và kỹ thuật từ bỏ sớm giúp giảm số phép tính khoảng cách cần thiết, từ đó tiết kiệm thời gian xử lý.

So sánh với các nghiên cứu trước đây, kết quả thực nghiệm của luận văn phù hợp với báo cáo của ngành về hiệu năng của các thuật toán phát hiện motif hiện đại. Việc thử nghiệm trên nhiều bộ dữ liệu chuẩn với các chiều dài motif và chuỗi thời gian khác nhau giúp khẳng định tính tổng quát và khả năng ứng dụng rộng rãi của các thuật toán này.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh thời gian thực thi giữa các thuật toán trên từng bộ dữ liệu và từng chiều dài motif, cũng như bảng tổng hợp tỷ lệ phát hiện motif chính xác, giúp minh họa rõ ràng hiệu quả và độ chính xác của từng phương pháp.

Đề xuất và khuyến nghị

Áp dụng thuật toán HIME cho xử lý dữ liệu chuỗi thời gian lớn: Với khả năng xử lý nhanh và chính xác, HIME nên được ưu tiên sử dụng trong các hệ thống khai phá dữ liệu lớn, đặc biệt trong các lĩnh vực như y học, tài chính và môi trường. Thời gian triển khai dự kiến trong vòng 6 tháng, do các đơn vị nghiên cứu và phát triển phần mềm thực hiện.
Tích hợp phương pháp thu giảm số chiều FFT và SAX: Các tổ chức nghiên cứu nên kết hợp các kỹ thuật thu giảm số chiều như FFT và SAX vào quy trình xử lý dữ liệu chuỗi thời gian để tối ưu hóa hiệu suất tính toán, giảm chi phí lưu trữ và tăng tốc độ truy xuất dữ liệu.
Phát triển hệ thống hỗ trợ trực quan hóa kết quả phát hiện motif: Đề xuất xây dựng các công cụ trực quan hóa biểu đồ, bảng kết quả giúp người dùng dễ dàng phân tích và đánh giá các motif phát hiện được, nâng cao hiệu quả ứng dụng trong thực tế.
Nâng cao khả năng xử lý dữ liệu chuỗi thời gian đa chiều: Khuyến nghị nghiên cứu mở rộng các thuật toán phát hiện motif cho dữ liệu chuỗi thời gian đa chiều, nhằm đáp ứng nhu cầu ngày càng tăng trong các lĩnh vực như cảm biến IoT, phân tích video và dữ liệu y sinh.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính: Luận văn cung cấp kiến thức chuyên sâu về phát hiện motif trên dữ liệu chuỗi thời gian, các thuật toán tối ưu và phương pháp thu giảm số chiều, hỗ trợ nghiên cứu và phát triển các đề tài liên quan.
Chuyên gia khai phá dữ liệu và trí tuệ nhân tạo: Các thuật toán và phương pháp được trình bày giúp cải thiện hiệu quả khai phá dữ liệu chuỗi thời gian, phục vụ cho các ứng dụng phân tích, dự báo và phân loại trong nhiều lĩnh vực.
Doanh nghiệp và tổ chức xử lý dữ liệu lớn: Các giải pháp phát hiện motif nhanh và chính xác giúp tối ưu hóa quy trình xử lý dữ liệu thời gian thực, nâng cao chất lượng dịch vụ và ra quyết định dựa trên dữ liệu.
Ngành y tế và tài chính: Ứng dụng phát hiện motif trong phân tích điện tâm đồ, dự báo chứng khoán và các dữ liệu y sinh giúp phát hiện sớm các dấu hiệu bất thường, hỗ trợ chẩn đoán và quản lý rủi ro hiệu quả.

Câu hỏi thường gặp

Phát hiện motif chuỗi thời gian là gì?
Phát hiện motif là quá trình tìm kiếm các chuỗi con lặp lại có hình dạng và kích thước tương đồng trong dữ liệu chuỗi thời gian. Ví dụ, trong dữ liệu điện tâm đồ, motif có thể là các mẫu nhịp tim lặp lại.
Tại sao cần thu giảm số chiều trong xử lý chuỗi thời gian?
Dữ liệu chuỗi thời gian thường rất lớn, thu giảm số chiều giúp giảm kích thước dữ liệu mà vẫn giữ được đặc trưng quan trọng, từ đó tăng tốc độ xử lý và giảm chi phí lưu trữ.
Ưu điểm của thuật toán HIME so với các thuật toán khác?
HIME sử dụng phương pháp rời rạc hóa và xấp xỉ gộp ký hiệu hóa giúp xử lý nhanh hơn gấp nhiều lần so với BruteForce và MASS, đồng thời giữ được độ chính xác cao trong phát hiện motif.
Các thuật toán phát hiện motif có áp dụng cho mọi chiều dài motif không?
Các thuật toán như MOEN, MASS và HIME được thiết kế để phát hiện motif với mọi chiều dài chuỗi con, trong khi MK chỉ áp dụng cho motif có chiều dài cố định bằng chiều dài chuỗi thời gian.
Làm thế nào để đánh giá độ chính xác của thuật toán phát hiện motif?
Độ chính xác được đánh giá bằng tỷ lệ motif phát hiện đúng trên các bộ dữ liệu chuẩn, kết hợp với so sánh khoảng cách Euclide giữa các chuỗi con được phát hiện và chuỗi motif thực tế.

Kết luận

Luận văn đã nghiên cứu và cài đặt thành công các thuật toán phát hiện motif trên dữ liệu chuỗi thời gian lớn, bao gồm MK, MOEN, MASS và HIME.
Thuật toán HIME cho thấy hiệu quả vượt trội về tốc độ xử lý, nhanh hơn 25 lần so với BruteForce và 4 lần so với MASS, đồng thời giữ được độ chính xác cao.
Việc áp dụng các phương pháp thu giảm số chiều như FFT, DWT và SAX giúp giảm đáng kể độ phức tạp tính toán và tăng khả năng xử lý dữ liệu lớn.
Kết quả thực nghiệm trên nhiều bộ dữ liệu chuẩn khẳng định tính khả thi và ứng dụng rộng rãi của các thuật toán trong các lĩnh vực khoa học kỹ thuật, tài chính và y học.
Đề xuất các bước tiếp theo bao gồm phát triển hệ thống trực quan hóa kết quả, mở rộng thuật toán cho dữ liệu đa chiều và ứng dụng trong các hệ thống khai phá dữ liệu lớn thực tế.

Các nhà nghiên cứu và chuyên gia trong lĩnh vực khai phá dữ liệu chuỗi thời gian được khuyến khích áp dụng và phát triển thêm các thuật toán dựa trên nền tảng nghiên cứu này để nâng cao hiệu quả xử lý và ứng dụng trong thực tế.

Trích đoạn nội dung tài liệu

MỞ ĐẦU 1.0 Giới thiệu về motif chuỗi thời gian Dữ liệu chuỗi thời gian được ứng dụng rất phổ biến ở rất nhiều lĩnh vực như khoa học kỹ thuật, kinh tế tài chính, môi trường trong thời kỳ 4. Trong những ứng dụng này, việc phát hiện motif hay còn gọi là phát hiện mẫu lặp trong dữ liệu chuỗi thời gian là công việc cần thiết để phục vụ các công việc cao hơn trong việc khai phá dữ liệu như gom cụm, phân lớp, khai phá luật kết hợp v. Phát hiện motif chính là tìm chuỗi con trong dữ liệu chuỗi thời gian sao cho nó tương đồng với nhau về hình dạng cũng như kích thước. Thuật toán phát hiện motif thực ra nó là sự cải tiến của các thuật toán tìm kiếm chuỗi con truy vấn xem nó có xuất hiện trong dữ liệu chuỗi thời gian? Có rất nhiều thuật toán phát hiện motif được đề xuất, nhưng mô hình của những thuật toán tối ưu gồm các thuật toán sau MK, MOEN, MASS (Mueen’s Algorithm for Similarity Search) và thuật toán HIME (Hierarchical based Motif Enumeration) dựa vào các tiền đề chung là phương pháp thu giảm số chiều và các cấu trúc chỉ mục không gian đa chiều.

Hiển nhiên, độ phức tạp của phương pháp phát hiện motif chính xác theo kiểu BruteForce là bậc hai theo chiều dài của chuỗi thời gian mà từ đó các motif được phát hiện hay các chuỗi con truy vấn được tìm thấy trong dữ liệu chuỗi thời gian và tiêu biểu là thuật toán MK của Mueen Keogh [1].Tuy nhiên, ở thuật toán này chuỗi truy vấn hay motif có chiều dài bằng với dữ liệu chuỗi thời gian. Vì lý do đó, có nhiều thuật toán phát hiện motif xấp xỉ được giới thiệu và ứng dụng rất nhiều trong thực tế, nó rất cần thiết để phục vụ công việc khai phá dữ liệu cao cấp hơn như gom cụm, phân lớp, khai phá luật kết hợp v. Với cách tiếp cận này thường có độ phức tạp tính toán là O(n) hay O(nlogn), với n là số chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con hay motif được rút trích ra. Độ phức tạp của các giải thuật này giảm hơn nhiều lần so với phương pháp phát hiện motif chính xác.

Tuy nhiên, các thuật toán này yêu cầu nhiều tham số cần phải xác định trước, làm cho việc tính toán lớn và không mềm dẻo với khối lượng dữ liệu chuỗi thời gian lớn với các chuỗi truy vấn có chiều dài thay đổi tiêu biểu là thuật toán MOEN [2] của ông Mueen đề xuất năm 2014. 13 Luan van Một số thuật toán phát hiện motif xấp xỉ gần đây được đề xuất bằng cách chuẩn hóa dữ liệu đầu vào, dùng các phương pháp thu giảm số chiều của dữ liệu chuỗi thời gian, rút trích các đặc trưng như phương pháp biến đổi về miền tần số (FFT – Fast Fourier Transform), phương pháp rời rạc hóa (DWT – Discrete Wavelet Transform), phương pháp xấp xỉ gộp từng đoạn (PAA – Piecewise Aggregate Approximation) và phương pháp ký hiệu hóa dữ liệu (SAX – Symbolic Aggregate Approximation) v. sau đó sử dụng phép đo khoảng cách Euclide để gom cụm các chuỗi con có độ tương đồng từ đó tìm ra motif có khoảng cách tốt nhất. Trong số các thuật toán đã được đề xuất, thuật toán phát hiện motif chuỗi thời gian với chiều dài motif thay đổi do ông Abdullah Mueen và đồng sự giới thiệu trong [2] gọi là thuật toán MOEN.

Thuật toán này có thể phát hiện motif trong thời gian tuyến tính. Đây là thuật toán được trích dẫn nhiều và là cơ sở cho nhiều cách tiếp cận hiện nay trong việc giải bài toán phát hiện motif trên dữ liệu chuỗi thời gian phục vụ cho việc khai phá dữ liệu. Tuy nhiên, các kỹ thuật xử lý chuỗi chưa thật sự hữu hiệu khi cập nhật việc đo khoảng cách dễ dẫn đến việc sai khi phân cụm chuỗi con, vẫn sử dụng thuật toán BruteForce đã được tối ưu bằng cách bỏ qua việc chuẩn hóa dữ liệu cho mỗi vòng lặp hay sử dụng phương pháp từ bỏ sớm phục vụ cho thuật toán của mình nên phức tạp của thuật toán vẫn là bậc hai tuy nhiên nhanh gấp 2 lần so với thuật toán MK. Ngoài ra, để cải thiện thuật toán MOEN nhanh hơn năm 2015 ông đề xuất một thuật toán MASS bằng cách biến đổi dữ liệu đã được chuẩn hóa trước đó về miền tần số áp dụng Fast Fourier Tranform và cho kết quả chính xác và nhanh hơn rất nhiều lần so với thuật toán MOEN được giới thiệu năm 2014.

Bên cạnh đó, nhóm Yifeng Gao, Jessica Lin đã dựa vào các thuật toán của Mueen đưa ra một thuật toán phát hiện motif mang tên HIME [11] bằng phép biến đổi rời rạc hóa và phương pháp xấp xỉ gộp ký hiệu hóa áp dụng cho thuật toán của họ. Với thuật toán này việc xử lý dữ liệu chuỗi thời gian lớn nhanh hơn gấp 25 lần so với thuật toán Bruteforce và gấp 4 lần so với thuật toán MASS mà ông Abdullah Mueen đề xuất và cho kết quả chính xác như các thuật toán trên.1 Tổng quan về chuỗi thời gian và bài toán phát hiện motif trên dữ liệu chuỗi thời gian.1 Tổng quan về chuỗi thời gian. Một chuỗi thời gian (time series) là một chuỗi các điểm dữ liệu đo đạc được theo từng khoảng thời gian liền nhau theo một tần suất thời gian thống nhất.1 minh họa một ví dụ về chuỗi thời gian biểu diễn giá cổ phiếu của FPT (đơn vị VNĐ) từ tháng 01/2019 đến tháng 11/2019.1 Đường biểu diễn một chuỗi thời gian. Dữ liệu chuỗi thời gian được sử dụng phổ biến trong nhiều ứng dụng thực tế, từ các lĩnh vực khoa học kỹ thuật cho đến kinh tế, tài chính, môi trường, thời tiết, địa lý và y học.

Trong những ứng dụng này, việc phát hiện các chuỗi motif có xuất hiện trong cơ sở dữ liệu chuỗi thời gian là một công việc rất cần thiết. Mặc dù có nhiều cách tiếp cận khác nhau đã được đề xuất, các thuật toán trước đây thì thường phát hiện motif cho một chiều dài nhất định như thuật toán MK sử dụng thuật toán BruteForce được cải tiến. Tuy nhiên, những năm gần đây các thuật toán phát hiện motif với mọi chiều dài chuỗi con cũng đã được đề xuất như thuật toán MOEN, MASS, HIME v.với kết quả rất ấn tượng Những khó khăn và thách thức khi nghiên cứu về cơ sở dữ liệu chuỗi thời gian: 15 Luan van  Dữ liệu thường rất lớn. Chẳng hạn, trong 1 giờ, dữ liệu điện tâm đồ (ECG) [5] có thể lên đến hàng GB dữ liệu.

 Phụ thuộc nhiều vào yếu tố chủ quan của người dùng và tập dữ liệu khi đánh giá mức độ tương tự giữa các cơ sở dữ liệu chuỗi thời gian.  Dữ liệu không đồng nhất: định dạng của dữ liệu khác nhau, tần số lấy mẫu khác nhau. Ngoài ra, dữ liệu có thể bị nhiễu, thiếu một vài giá trị. Do giới hạn về bộ nhớ máy tính và thời gian thực hiện, việc phân tích đúng trên các tập dữ liệu chuỗi thời gian rất lớn là điều không thể.

Vì vậy, một trong những vấn đề trọng tâm của việc khai phá dữ liệu chuỗi thời gian là làm sao để thu giảm số chiều của chuỗi dữ liệu thời gian nhưng vẫn giữ được các tính chất đặc trưng của chúng. Bài toán phát hiện motif trong cơ sở dữ liệu chuỗi thời gian đã được nhiều nhà nghiên cứu quan tâm trong những năm qua vì đây là bài toán cơ bản và là một thành phần nền tảng của nhiều bài toán khác trong khai phá dữ liệu chuỗi thời gian. Đây là bài toán khó vì kích thước dữ liệu chuỗi thời gian thường lớn và vì chúng ta không thể lập chỉ mục dữ liệu chuỗi thời gian một cách dễ dàng như trong hệ thống cơ sở dữ liệu truyền thống. Một vài thí dụ về ứng dụng của phát hiện motif trên chuỗi thời gian có thể nêu ra như sau:  Quản lý làm mát trung tâm dữ liệu của HPE tại Virginia Hoa Kỳ [3].

 Phân tích sự vận động của côn trùng tìm ra các biến đổi gens [2].  Dự đoán về giới tính trong sinh lý học, phân tích điện não đồ chứng động kinh trên người [9].  Xác định những chứng khoán có giá biến động theo một kiểu cách giống nhau theo chu kỳ.2 Bài toán phát hiện motif trên dữ liệu chuỗi thời gian. Phát hiện motif chính là tìm chuỗi con trong dữ liệu chuỗi thời gian sao cho nó tương đồng với nhau về hình dạng cũng như kích thước.

Thời gian qua, đã và đang có nhiều quan tâm của các nhà nghiên cứu về bài toán phát hiện motif trong cơ sở dữ liệu chuỗi thời gian. Bài toán này là một thành phần quan trọng trong nhiều ứng dụng khai phá dữ liệu. Faloutsos (1994) [8] đưa ra những tính chất mà một phương pháp phát hiện motif (hay tìm chuỗi con) trong dữ liệu chuỗi thời gian nên có:  Nó nên nhanh hơn việc quét tuần tự.  Tổng phí về không gian nhỏ.

16 Luan van  Cho phép các câu truy vấn có chiều dài khác nhau.  Cho phép thực hiện các thao tác chèn và xóa mà không phải xây dựng lại chỉ mục.  Không xảy ra lỗi tìm sót (false dismissals).  Để đạt hiệu quả cao, số lỗi tìm sai (false alarms) cũng nên thấp.

Vì vậy, để việc phát hiện motif hữu hiệu trên không gian đặc trưng, một phương pháp thu giảm số chiều nên được kết hợp với một cấu trúc chỉ mục đa chiều nào đó.  Bài toán phát hiện motif trên dữ liệu chuỗi thời gian được phân làm hai loại: phát hiện motif với chiều dài chuỗi truy vấn cố định hay motif chính xác(exact motif) và phát hiện motif với mọi chiều dài của chuỗi truy vấn hay motif xấp xỉ (approximate motif).  Trong trường hợp phát hiện motif với chiều dài chuỗi truy vấn cố định hay motif chính xác: Sau khi các chuỗi thời gian trong cơ sở dữ liệu và chuỗi truy vấn được biến đổi vào không gian đặc trưng bằng một phương pháp thu giảm số chiều nào đó, quá trình tìm kiếm sẽ được thực hiện trong không gian đặc trưng dựa vào một cấu trúc chỉ mục đa chiều. Các motif với chuỗi truy vấn được tìm thấy trong không gian đặc trưng sẽ được hậu kiểm trong không gian gốc để loại bỏ những chuỗi tìm sai.

Trong trường hợp này, các chuỗi truy vấn hay motif và chuỗi thời gian được giả định là có chiều dài bằng nhau và được giới thiệu đó là thuật toán MK [1].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ "Luận văn thạc sĩ HCMUTE: Phát hiện motif trên chuỗi thời gian với giải thuật Mueen" của tác giả Lưu Hải Nam, dưới sự hướng dẫn của TS. Nguyễn Thành Sơn, trình bày một nghiên cứu sâu sắc về việc phát hiện các motif trong chuỗi thời gian bằng giải thuật Mueen. Nghiên cứu này không chỉ cung cấp cái nhìn tổng quan về các phương pháp hiện có mà còn chỉ ra những ứng dụng thực tiễn trong lĩnh vực khoa học máy tính, đặc biệt là trong phân tích dữ liệu thời gian. Bài viết mang lại lợi ích cho độc giả bằng cách giúp họ hiểu rõ hơn về cách thức phát hiện motif, từ đó có thể áp dụng vào các lĩnh vực như phân tích dữ liệu lớn, học máy và nhiều ứng dụng khác.

Nếu bạn quan tâm đến các nghiên cứu liên quan trong lĩnh vực khoa học máy tính, hãy tham khảo thêm các bài viết như Ứng dụng mô hình ANFIS trong dự báo chuỗi thời gian, nơi bạn có thể tìm hiểu về các mô hình dự báo khác nhau, hoặc Rút trích luật từ mạng nơron, một nghiên cứu thú vị về ứng dụng mạng nơron trong khoa học máy tính. Ngoài ra, bài viết Nghiên cứu hằng số hấp dẫn và trường vô hướng cũng có thể mở rộng kiến thức của bạn về các khía cạnh lý thuyết trong lĩnh vực này. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các phương pháp và ứng dụng trong khoa học máy tính.

#Luận văn Thạc sĩ

#phân tích chuỗi thời gian

#Khoa Học Dữ Liệu

#motif chuỗi thời gian

#giải thuật Mueen

#phát hiện motif

Chủ đề

Phân tích chuỗi thời gian

Luận văn và nghiên cứu thạc sĩ

Nghiên cứu và ứng dụng trong học máy

Giải thuật và phương pháp trong khoa học dữ liệu