So sánh tìm kiếm motif trên chuỗi thời gian của hai giải thuật Sequitur và Hashing

So sánh hiệu suất tìm kiếm motif trên chuỗi thời gian giữa hai giải thuật sequitur và hashing, phân tích ưu nhược điểm của từng phương pháp.

Trường đại học

Trường Đại học Công nghiệp Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

ABSTRACT

TÓM TẮT LUẬN VĂN THẠC SĨ

MỤC LỤC

1. CHƯƠNG 1: GIỚI THIỆU VỀ ĐỀ TÀI

1.1. Tổng quan về đề tài

1.2. Tổng quan các hướng tiếp cận

1.3. Khó khăn và thách thức

1.4. Đề xuất hướng giải quyết

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Dữ liệu chuỗi thời gian

2.2. Khai thác motif trên dữ liệu chuỗi thời gian

2.3. Giải thuật tìm kiếm motif

2.4. Phương pháp tiền xử lý dữ liệu trước khi tìm kiếm motif

2.5. Phương pháp đo độ hiệu quả

2.6. Các phương pháp đo độ tương tự

2.7. Phương pháp tiến hành tìm kiếm tất cả motif

2.8. Quy trình thực hiện các giải thuật tìm kiếm xấp xỉ

3. CHƯƠNG 3: GIẢI THUẬT TÌM MOTIF TRÊN CHUỖI THỜI GIAN

3.1. Chuẩn hóa dữ liệu

3.2. Thu giảm số chiều

3.2.1. Phương pháp thu giảm số chiều với PAA

3.2.2. Thu giảm số chiều bằng phương pháp EPAA

3.3. Rời rạc hóa dữ liệu chuỗi thời gian

3.3.1. Phương pháp rời rạc hóa dữ liệu với SAX

3.3.2. Rời rạc hóa dữ liệu bằng phương pháp ESAX

3.4. Giải thuật tìm kiếm motif

3.4.1. Giải thuật Brute Force

3.4.2. Giải thuật Random Projection

3.4.3. Giải thuật Sequitur

3.4.4. Giải thuật Hashing

3.5. Đề xuất mở rộng giải thuật Hashing

3.5.1. Ước lượng chiều dài 1-motif

3.5.2. Phát hiện tính chu kỳ dựa vào motif

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Giải thuật Hashing

4.2. Phát hiện motif dựa vào giải thuật Sequitur

4.3. Thực nghiệm thực tế trên từng dữ liệu

4.3.1. Thực nghiệm trên bộ dữ liệu freezer

4.3.1.1. Chiều dài chuỗi dữ liệu là 10

4.3.1.2. Chiều dài chuỗi dữ liệu là 15

4.3.2. Thực nghiệm trên bộ dữ liệu HumanY

4.3.2.1. Chiều dài chuỗi dữ liệu là 10

4.3.2.2. Chiều dài chuỗi dữ liệu là 15

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về hiệu quả giải thuật Sequitur và Hashing

Trong bối cảnh khai thác dữ liệu chuỗi thời gian, việc tìm kiếm motif là một nhiệm vụ quan trọng. Hai giải thuật nổi bật trong lĩnh vực này là Sequitur và Hashing. Mỗi giải thuật có những ưu điểm và nhược điểm riêng, ảnh hưởng đến hiệu quả tìm kiếm. Nghiên cứu này sẽ so sánh hiệu quả của hai giải thuật này trong việc tìm kiếm motif chuỗi thời gian.

1.1. Định nghĩa và vai trò của motif trong chuỗi thời gian

Motif trong chuỗi thời gian là những chuỗi con lặp lại, có tần suất xuất hiện cao. Việc phát hiện các motif này giúp hiểu rõ hơn về các mẫu và xu hướng trong dữ liệu, từ đó hỗ trợ cho nhiều ứng dụng thực tiễn như phân tích tài chính, y học và khoa học máy tính.

1.2. Tại sao cần so sánh hai giải thuật Sequitur và Hashing

Việc so sánh hai giải thuật này là cần thiết để xác định giải pháp tối ưu cho việc tìm kiếm motif. Mỗi giải thuật có cách tiếp cận khác nhau, ảnh hưởng đến độ chính xác và thời gian thực thi. Điều này giúp các nhà nghiên cứu và ứng dụng lựa chọn giải pháp phù hợp nhất.

II. Thách thức trong việc tìm kiếm motif chuỗi thời gian

Tìm kiếm motif trong chuỗi thời gian gặp nhiều thách thức, đặc biệt là khi dữ liệu có kích thước lớn và không đồng nhất. Các yếu tố như nhiễu, thiếu dữ liệu và định dạng khác nhau làm cho việc phát hiện motif trở nên khó khăn hơn. Nghiên cứu này sẽ phân tích các thách thức chính trong việc áp dụng hai giải thuật Sequitur và Hashing.

2.1. Vấn đề về kích thước dữ liệu lớn

Khi dữ liệu chuỗi thời gian ngày càng lớn, việc xử lý và tìm kiếm motif trở nên phức tạp. Giải thuật cần phải tối ưu hóa để giảm thiểu thời gian xử lý mà vẫn đảm bảo độ chính xác cao.

2.2. Độ chính xác và độ tin cậy của các giải thuật

Độ chính xác của các giải thuật là yếu tố quan trọng trong việc tìm kiếm motif. Cần phải đánh giá khả năng phát hiện motif của từng giải thuật trong các điều kiện khác nhau để đảm bảo tính tin cậy của kết quả.

III. Phương pháp giải thuật Sequitur trong tìm kiếm motif

Giải thuật Sequitur là một trong những phương pháp hiệu quả để tìm kiếm motif trong chuỗi thời gian. Nó sử dụng kỹ thuật nén để phát hiện các mẫu lặp lại trong dữ liệu. Nghiên cứu này sẽ đi sâu vào cách thức hoạt động của giải thuật Sequitur và những ưu điểm của nó.

3.1. Nguyên lý hoạt động của giải thuật Sequitur

Giải thuật Sequitur hoạt động dựa trên nguyên lý nén dữ liệu, giúp phát hiện các motif bằng cách tìm kiếm các chuỗi con lặp lại. Phương pháp này giúp giảm thiểu kích thước dữ liệu và tăng tốc độ tìm kiếm.

3.2. Ưu điểm của giải thuật Sequitur

Một trong những ưu điểm lớn của giải thuật Sequitur là khả năng phát hiện motif với độ chính xác cao. Nó cũng có thể xử lý dữ liệu lớn mà không làm giảm hiệu suất, điều này rất quan trọng trong các ứng dụng thực tiễn.

IV. Phương pháp giải thuật Hashing trong tìm kiếm motif

Giải thuật Hashing là một phương pháp khác được sử dụng để tìm kiếm motif trong chuỗi thời gian. Nó sử dụng kỹ thuật băm để nhanh chóng xác định các chuỗi con tương tự. Nghiên cứu này sẽ phân tích cách thức hoạt động của giải thuật Hashing và những lợi ích mà nó mang lại.

4.1. Cách thức hoạt động của giải thuật Hashing

Giải thuật Hashing sử dụng bảng băm để lưu trữ và truy xuất các chuỗi con. Điều này giúp tăng tốc độ tìm kiếm và giảm thiểu thời gian xử lý, đặc biệt là với dữ liệu lớn.

4.2. Lợi ích của giải thuật Hashing

Giải thuật Hashing có khả năng xử lý nhanh chóng và hiệu quả, giúp phát hiện motif trong thời gian thực. Điều này rất hữu ích trong các ứng dụng yêu cầu phản hồi nhanh và chính xác.

V. So sánh hiệu quả giữa Sequitur và Hashing trong tìm kiếm motif

Việc so sánh hiệu quả giữa hai giải thuật Sequitur và Hashing là cần thiết để xác định giải pháp tối ưu cho việc tìm kiếm motif. Nghiên cứu này sẽ phân tích các yếu tố như thời gian thực thi, độ chính xác và khả năng xử lý dữ liệu lớn của từng giải thuật.

5.1. Đánh giá thời gian thực thi của hai giải thuật

Thời gian thực thi là một yếu tố quan trọng trong việc đánh giá hiệu quả của các giải thuật. Nghiên cứu sẽ so sánh thời gian tìm kiếm motif giữa Sequitur và Hashing trên các tập dữ liệu khác nhau.

5.2. Độ chính xác và độ tin cậy của kết quả

Độ chính xác của các giải thuật sẽ được đánh giá thông qua các thử nghiệm thực tế. Kết quả sẽ cho thấy giải thuật nào có khả năng phát hiện motif tốt hơn trong các điều kiện khác nhau.

VI. Kết luận và triển vọng tương lai trong nghiên cứu motif chuỗi thời gian

Nghiên cứu này đã chỉ ra rằng cả hai giải thuật Sequitur và Hashing đều có những ưu điểm và nhược điểm riêng trong việc tìm kiếm motif chuỗi thời gian. Tương lai của nghiên cứu này có thể mở ra nhiều hướng đi mới trong việc cải tiến các giải thuật hiện tại.

6.1. Tương lai của giải thuật Sequitur

Giải thuật Sequitur có thể được cải tiến để xử lý tốt hơn với các loại dữ liệu phức tạp hơn. Nghiên cứu có thể tập trung vào việc tối ưu hóa thuật toán để tăng cường độ chính xác và hiệu suất.

6.2. Tương lai của giải thuật Hashing

Giải thuật Hashing cũng có thể được phát triển để cải thiện khả năng xử lý dữ liệu lớn và tăng cường độ chính xác. Nghiên cứu có thể tìm kiếm các phương pháp mới để tối ưu hóa bảng băm và thuật toán tìm kiếm.

24/07/2025

Bạn đang xem trước tài liệu:

So sánh tìm kiếm motif trên chuỗi thời gian của hai giải thuật sequitur và hashing

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh dữ liệu chuỗi thời gian ngày càng gia tăng về kích thước và độ phức tạp, việc khai thác các mẫu lặp lại (motif) trong chuỗi thời gian trở thành một vấn đề nghiên cứu quan trọng và thiết thực. Theo ước tính, dữ liệu chuỗi thời gian có thể lên đến hàng gigabyte trong các ứng dụng như điện tâm đồ, chứng khoán, và tín hiệu âm thanh. Việc tìm kiếm motif giúp phát hiện các mẫu tương tự lặp đi lặp lại, từ đó hỗ trợ phân tích xu hướng, dự báo và phát hiện bất thường trong nhiều lĩnh vực như tài chính, y học, và kỹ thuật.

Luận văn tập trung nghiên cứu và so sánh hai giải thuật tìm kiếm motif trên chuỗi thời gian là Sequitur và Hashing, áp dụng trên dữ liệu đã được thu giảm số chiều và rời rạc hóa. Mục tiêu cụ thể là đánh giá hiệu quả về thời gian thực thi và độ chính xác của hai giải thuật này trên các bộ dữ liệu thực tế, bao gồm Freezer và HumanY, với các chiều dài chuỗi lần lượt là 128, 256 và 512. Nghiên cứu được thực hiện trong khoảng thời gian từ tháng 7/2019 đến tháng 1/2020 tại Trường Đại học Công nghiệp TP. Hồ Chí Minh, sử dụng dữ liệu mẫu từ Đại học California, Mỹ.

Việc so sánh này không chỉ giúp lựa chọn giải thuật phù hợp cho các ứng dụng khai thác dữ liệu chuỗi thời gian lớn mà còn góp phần nâng cao hiệu quả xử lý, giảm thiểu chi phí tính toán và tài nguyên bộ nhớ. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống phân tích dữ liệu thời gian thực và ứng dụng trong các lĩnh vực khoa học máy tính, tài chính và y tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Dữ liệu chuỗi thời gian (Time Series Data): Là dãy các giá trị số thực được ghi nhận theo thời gian, có thể biểu diễn các hiện tượng tự nhiên hoặc nhân tạo như tín hiệu điện tâm đồ, biến động chứng khoán, hoặc dữ liệu thời tiết.
Motif trong chuỗi thời gian: Là các chuỗi con tương tự nhau xuất hiện lặp lại nhiều lần trong chuỗi dữ liệu. Motif giúp phát hiện các mẫu hành vi hoặc sự kiện lặp lại, có thể dùng để dự báo hoặc phân tích.
Giải thuật Sequitur: Một thuật toán nén chuỗi dựa trên suy luận văn phạm phi ngữ cảnh, phát hiện các cụm từ lặp lại trong chuỗi dữ liệu và biểu diễn chúng dưới dạng các quy tắc văn phạm. Sequitur giúp phát hiện motif với cấu trúc phân cấp và giảm kích thước dữ liệu.
Giải thuật Hashing: Sử dụng kỹ thuật băm để phát hiện motif trên chuỗi thời gian đã được rời rạc hóa. Thuật toán xây dựng bảng băm từ các đặc trưng của chuỗi con, từ đó tìm kiếm các ứng viên motif hiệu quả trên dữ liệu lớn.
Phương pháp thu giảm số chiều: Bao gồm PAA (Piecewise Aggregate Approximation) và EPAA (Extended PAA), giúp giảm kích thước dữ liệu bằng cách gộp các đoạn dữ liệu liên tiếp thành các giá trị trung bình hoặc đặc trưng.
Phương pháp rời rạc hóa: SAX (Symbolic Aggregate Approximation) và ESAX (Extended SAX) chuyển đổi dữ liệu số thành chuỗi ký tự, giúp đơn giản hóa quá trình xử lý và tìm kiếm motif.
Đo độ tương tự: Sử dụng khoảng cách Euclid để đánh giá mức độ giống nhau giữa các chuỗi con, đồng thời phân biệt so trùng tầm thường và không tầm thường.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng các bộ dữ liệu chuỗi thời gian thực tế từ Đại học California, Mỹ, bao gồm các tập Freezer và HumanY với kích thước chuỗi 10.000 đến 15.000 điểm dữ liệu.
Phương pháp phân tích: Thực hiện chuẩn hóa dữ liệu bằng phương pháp Zero-Mean, thu giảm số chiều bằng PAA và EPAA, rời rạc hóa bằng SAX và ESAX. Hai giải thuật Sequitur và Hashing được cài đặt và chạy trên dữ liệu đã xử lý để tìm kiếm motif.
Cỡ mẫu và chọn mẫu: Dữ liệu được chọn đại diện cho các ứng dụng thực tế với kích thước lớn và đa dạng về đặc trưng. Các chuỗi con được xác định bằng cửa sổ trượt với kích thước w do người dùng định nghĩa.
Timeline nghiên cứu: Nghiên cứu được tiến hành trong 6 tháng, từ tháng 7/2019 đến tháng 1/2020, bao gồm các bước thu thập tài liệu, thiết kế giải thuật, hiện thực và đánh giá kết quả.
Đánh giá hiệu quả: So sánh thời gian thực thi và độ chính xác của hai giải thuật dựa trên số lần tính khoảng cách Euclid và tỷ lệ motif tìm được chính xác. Hiệu quả được đo bằng hệ số Efficiency, tỷ lệ giữa số lần tính toán của giải thuật so với phương pháp Brute Force.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thời gian: Giải thuật Hashing thể hiện thời gian thực thi nhanh hơn so với Sequitur trên các bộ dữ liệu có kích thước lớn. Ví dụ, trên bộ dữ liệu Freezer với chiều dài chuỗi 10.000 điểm, Hashing giảm thời gian thực thi khoảng 30% so với Sequitur. Khi chiều dài chuỗi tăng lên 15.000 điểm, hiệu suất của Hashing vẫn duy trì ưu thế với tốc độ nhanh hơn khoảng 25%.
Độ chính xác tìm kiếm motif: Cả hai giải thuật đều đạt độ chính xác cao trong việc phát hiện motif xấp xỉ, với tỷ lệ motif tìm được chính xác trên 85% trên bộ dữ liệu HumanY. Tuy nhiên, Sequitur có xu hướng phát hiện được nhiều motif có cấu trúc phức tạp hơn nhờ khả năng xây dựng văn phạm phân cấp.
Ảnh hưởng của phương pháp rời rạc hóa: Việc sử dụng ESAX thay vì SAX giúp cải thiện độ chính xác tìm kiếm motif lên khoảng 10%, do ESAX biểu diễn dữ liệu chi tiết hơn với ba ký tự đại diện cho mỗi đoạn dữ liệu.
Khả năng mở rộng: Hashing có khả năng xử lý tốt với dữ liệu chuỗi thời gian có kích thước lớn nhờ cấu trúc bảng băm hiệu quả, trong khi Sequitur phù hợp với các chuỗi có tính lặp lại rõ ràng và có thể tạo ra các quy tắc văn phạm giúp phân tích sâu hơn.

Thảo luận kết quả

Nguyên nhân Hashing có thời gian thực thi nhanh hơn là do cấu trúc bảng băm giúp giảm số lần tính toán khoảng cách Euclid, trong khi Sequitur phải xây dựng và duy trì các quy tắc văn phạm phức tạp. Tuy nhiên, Sequitur lại cung cấp thông tin phong phú hơn về cấu trúc motif nhờ khả năng nén và phân cấp chuỗi.

So với các nghiên cứu trước đây sử dụng giải thuật Random Projection, hai giải thuật này cho thấy hiệu quả vượt trội về độ chính xác và khả năng xử lý dữ liệu lớn. Kết quả cũng phù hợp với báo cáo của ngành về việc áp dụng kỹ thuật thu giảm số chiều và rời rạc hóa để tăng tốc độ xử lý mà vẫn giữ được đặc trưng dữ liệu.

Dữ liệu có thể được trình bày qua biểu đồ so sánh thời gian thực thi và độ chính xác giữa hai giải thuật trên các bộ dữ liệu khác nhau, cũng như bảng thống kê số lần tính khoảng cách Euclid để minh họa hiệu quả tính toán.

Đề xuất và khuyến nghị

Tối ưu hóa thuật toán Hashing: Đề xuất cải tiến cấu trúc bảng băm để giảm thiểu xung đột và tăng tốc độ truy xuất, nhằm nâng cao hiệu quả xử lý trên các bộ dữ liệu chuỗi thời gian có kích thước cực lớn. Thời gian thực hiện dự kiến trong 6 tháng, do nhóm nghiên cứu phát triển thuật toán đảm nhiệm.
Kết hợp Sequitur với kỹ thuật học sâu: Áp dụng Sequitur để trích xuất các motif làm đầu vào cho các mô hình học máy nhằm nâng cao khả năng dự báo và phân loại chuỗi thời gian. Khuyến nghị triển khai trong vòng 1 năm, phối hợp giữa nhóm nghiên cứu và các chuyên gia AI.
Phát triển giao diện trực quan: Xây dựng công cụ trực quan hóa các motif và quy tắc văn phạm từ Sequitur giúp người dùng dễ dàng phân tích và hiểu dữ liệu. Thời gian thực hiện khoảng 4 tháng, do bộ phận phát triển phần mềm đảm nhận.
Mở rộng ứng dụng trong lĩnh vực y tế và tài chính: Áp dụng hai giải thuật trên các dữ liệu điện tâm đồ và biến động chứng khoán để phát hiện sớm các bất thường và xu hướng thị trường. Khuyến nghị thực hiện thử nghiệm trong 1 năm, phối hợp với các tổ chức y tế và tài chính.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu khoa học máy tính: Có thể áp dụng các giải thuật và phương pháp xử lý dữ liệu chuỗi thời gian để phát triển các thuật toán mới hoặc cải tiến thuật toán hiện có trong lĩnh vực khai thác dữ liệu và học máy.
Chuyên gia phân tích dữ liệu tài chính: Sử dụng kết quả nghiên cứu để phát hiện các mẫu lặp lại trong dữ liệu chứng khoán, hỗ trợ dự báo biến động thị trường và ra quyết định đầu tư chính xác hơn.
Chuyên viên y tế và sinh học: Áp dụng kỹ thuật tìm kiếm motif để phân tích dữ liệu điện tâm đồ, phát hiện các dấu hiệu bất thường trong tim mạch, từ đó nâng cao hiệu quả chẩn đoán và điều trị.
Nhà phát triển phần mềm và hệ thống: Tham khảo để xây dựng các công cụ phân tích dữ liệu chuỗi thời gian có khả năng xử lý nhanh, chính xác và trực quan, phục vụ cho các ứng dụng trong công nghiệp và nghiên cứu.

Câu hỏi thường gặp

Giải thuật Sequitur và Hashing khác nhau như thế nào trong tìm kiếm motif?
Sequitur dựa trên nén chuỗi và xây dựng văn phạm phi ngữ cảnh để phát hiện motif, phù hợp với dữ liệu có cấu trúc lặp lại rõ ràng. Hashing sử dụng bảng băm để tìm kiếm motif nhanh trên dữ liệu lớn, ưu thế về tốc độ nhưng ít cung cấp thông tin cấu trúc sâu.
Tại sao cần thu giảm số chiều và rời rạc hóa dữ liệu chuỗi thời gian?
Thu giảm số chiều giúp giảm kích thước dữ liệu, giảm chi phí tính toán. Rời rạc hóa chuyển đổi dữ liệu số thành chuỗi ký tự, đơn giản hóa quá trình xử lý và tăng hiệu quả tìm kiếm motif.
Độ chính xác của hai giải thuật này có đảm bảo cho các ứng dụng thực tế không?
Cả hai giải thuật đều đạt độ chính xác trên 85% trong thử nghiệm với dữ liệu thực tế, đủ để ứng dụng trong nhiều lĩnh vực như tài chính, y tế, và kỹ thuật, đặc biệt khi kết hợp với các bước tiền xử lý phù hợp.
Giải thuật nào phù hợp hơn với dữ liệu có kích thước rất lớn?
Hashing có ưu thế về tốc độ và khả năng mở rộng trên dữ liệu lớn nhờ cấu trúc bảng băm hiệu quả, trong khi Sequitur có thể gặp khó khăn khi dữ liệu quá lớn hoặc không có cấu trúc lặp rõ ràng.
Có thể áp dụng kết quả nghiên cứu này cho dữ liệu chuỗi thời gian đa chiều không?
Nghiên cứu tập trung trên chuỗi thời gian một chiều, tuy nhiên các phương pháp thu giảm số chiều và rời rạc hóa có thể được mở rộng để xử lý dữ liệu đa chiều với một số điều chỉnh phù hợp.

Kết luận

Luận văn đã nghiên cứu và so sánh hiệu quả của hai giải thuật tìm kiếm motif trên chuỗi thời gian là Sequitur và Hashing, áp dụng trên dữ liệu đã thu giảm số chiều và rời rạc hóa.
Kết quả thực nghiệm cho thấy Hashing vượt trội về thời gian thực thi, trong khi Sequitur cung cấp thông tin cấu trúc motif phong phú hơn.
Phương pháp rời rạc hóa ESAX cải thiện độ chính xác tìm kiếm motif so với SAX khoảng 10%.
Giải thuật phát hiện tính chu kỳ dựa trên motif giúp nâng cao khả năng phân tích và dự báo chuỗi thời gian.
Đề xuất các hướng phát triển tiếp theo bao gồm tối ưu thuật toán, kết hợp với học máy và mở rộng ứng dụng trong y tế, tài chính.

Để tiếp tục nghiên cứu và ứng dụng, độc giả được khuyến khích triển khai các giải pháp tối ưu hóa thuật toán, phát triển công cụ trực quan và thử nghiệm trên các bộ dữ liệu đa dạng hơn. Hãy bắt đầu áp dụng các giải thuật này để nâng cao hiệu quả khai thác dữ liệu chuỗi thời gian trong lĩnh vực của bạn!

Trích đoạn nội dung tài liệu

CHƯƠNG 1 GIỚI THIỆU VỀ ĐỀ TÀI 1.1 Tổng quan về đề tài Chuỗi dữ liệu thời gian phát sinh trong nhiều ứng dụng về khoa học và kỹ thuật, tài chính, y học hay âm thanh kỹ thuật,. Motif trong chuỗi thời gian là các chuỗi con được lặp lại tương tự nhau một cách đơn lẻ hoặc trong nhiều tập hợp dữ liệu. Tìm kiếm các motif trên chuỗi dữ liệu thời gian là vấn đề có liên quan chặt chẽ và rất hữu ích trong nhiều lĩnh vực [3]. Vì vậy, gần đây việc nghiên cứu tìm kiếm motif trên dữ liệu chuỗi thời gian đang nhận được rất nhiều sự quan tâm trên khắp mọi nơi.

Thông thường kích thước của dữ liệu chuỗi thời gian rất lớn do đó trước khi thực hiện giải thuật phát hiện motif thì phải tiến hành thu giảm. Hiện nay, các nhà nghiên cứu cũng đang tập trung vào kỹ thuật khai thác motif trên dữ liệu chuỗi thời gian. Vì khi khám phá motif trên chuỗi thời gian thì sẽ biết được sự biến động của thị trường từ đó có thể đưa ra những phương hướng, chính sách phù hợp và đúng đắn trong tương lai. Biết được nhu cầu này, luận văn tiến hành nghiên cứu về vấn đề tìm kiếm các motif và xác định motif trên lượng dữ liệu lớn.

Sau đó, hiện thực dữ liệu đó trên giải thuật để đánh giá độ hiệu quả.2 Tổng quan các hướng tiếp cận Phương pháp chiếu ngẫu nhiên (Random Projection Algorithm - RP) [7] là giải thuật tìm kiếm motif phổ biến. Từ ý tưởng này luận văn trình bày về hai giải thuật đó là giải thuật Sequitur và Hashing. Hai giải thuật này phù hợp với những dữ liệu chuỗi thời gian có kích thước lớn. Tiến hành tạo dữ liệu xấp xỉ để cho tương khớp với bộ dữ liệu chính, nhưng vẫn phù hợp với các đặc trưng.

Từ dữ liệu thô (raw data) ban đầu sau khi thực hiện bước chuẩn hóa (normalization) sẽ tiếp tục thực hiện thu giảm số chiều (dimensionality reduction) và rời rạc hóa (discretization) về dạng chuỗi các ký tự. Sử dụng cửa sổ trượt (sliding window) có kích thước w (w do người dùng định nghĩa) trượt qua tất cả các ký tự trong chuỗi dữ liệu. Các chuỗi con sinh ra từ cửa sổ trượt gọi là các từ (word), mỗi từ được xem 4 như một đặc trưng (feature). Tìm thùng băm có kích thước lớn nhất, các phần tử của thùng băm này sẽ là ứng viên motif.

Thực hiện tìm motif thực sự từ ứng viên motif và ngưỡng khoảng cách tối đa ThresholdMax (ThresholdMax do người dùng định nghĩa) dựa trên hàm tính khoảng cách Euclid. Kết quả tìm được là motif xấp xỉ. Giải quyết bài toán tìm kiếm motif xấp xỉ. Thực hiện tìm kiếm motif từ các ứng viên dựa trên các hàm tính toán.

Từ đó, đưa ra được kết quả tìm kiếm tất cả motif và đánh giá kết quả.3 Khó khăn và thách thức Chiều dài của các motif vẫn do người nghiên cứu tự định nghĩa bằng các phương pháp phù hợp như phương thử,. Đối với các loại dữ liệu phân bố thưa thì giải thuật không được nhạy. Dữ liệu chuỗi thời gian thường rất lớn và không đồng nhất do khác nhau về định dạng hay tần số lấy mẫu. Chẳng hạn, trong một giờ, dữ liệu điện tâm đồ (Electrocardiogram viết tắt là ECG) có thể lên đến 1GB.

Phụ thuộc nhiều vào yếu tố chủ quan của người dùng và tập dữ liệu khi đánh giá mức độ tương tự giữa các chuỗi thời gian.Dữ liệu không đồng nhất: định dạng của dữ liệu khác nhau, tần số lấy mẫu khác nhau. Ngoài ra, dữ liệu có thể bị nhiễu, thiếu một vài giá trị. Từ khi được hình thức hóa vào năm 2002, phát hiện motif trên dữ liệu chuỗi thời gian đã và đang được dùng để giải quyết các bài toán trong nhiều lĩnh vực ứng dụng khác nhau ví dụ như dùng motif để kiểm tra chữ ký [2], dùng motif để phát hiện những hình ảnh lặp trong cơ sở dữ liệu hình dạng [3], dùng motif để dự báo giá chứng khoán [4] và cũng được dùng như bước tiền xử lý trong nhiều công việc khai thác dữ liệu cao cấp hơn, ví dụ như gom cụm chuỗi thời gian [5], phân lớp chuỗi thời gian [6]. Hiển nhiên, độ phức tạp của phương pháp phát hiện chính xác motif theo kiểu brute-force là bậc hai theo số chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài 5 của chuỗi thời gian mà từ đó các chuỗi con được trích ra.

Vì lý do đó, có nhiều thuật toán phát hiện motif xấp xỉ đã được giới thiệu. Các cách tiếp cận này thường có độ phức tạp tính toán là O(n) hay O(nlogn), với n là số chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con được trích ra. Độ phức tạp của các giải thuật này giảm hơn so với phương pháp tìm kiếm chính xác. Tuy nhiên, chúng yêu cầu một số lượng lớn các tham số cần xác định trước.

Vì vậy, việc nghiên cứu đề xuất các thuật toán mới hoặc cải tiến các thuật toán đã có sao cho hiệu quả hơn vẫn luôn được các nhà nghiên cứu quan tâm thực hiện.4 Đề xuất hướng giải quyết Tối ưu thuật toán để chạy dữ liệu chuẩn xác và hiệu quả hơn. Tuy nhiên sẽ nghiên cứu trong tương lai cách tối ưu này. Ước lượng chính xác độ dài từng motif bằng phương pháp mang lại kết quả tốt nhất. 6 CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 2.1 Dữ liệu chuỗi thời gian Motif chuỗi thời gian là những motiflặp đi lặp lại trong chuỗi thời gian dài và ồn ào.

Motifs thường được sử dụng để hiểu động lực của nguồn vì các mô hình lặp đi lặp lại với độ tương đồng cao rõ ràng loại trừ sự hiện diện của nhiễu. Gần đây, các motif chuỗi thời gian cũng đã được sử dụng để phân cụm, tóm tắt, khám phá quy tắc và nén dưới dạng các tính năng [1]. Các motif chuỗi thời gian thường gợi ý thông tin hữu ích về các mối liên hệ theo mùa hoặc thời gian giữa các sự kiện và việc phát hiện các mô hình như vậy có thể rất hữu ích trong thực tế.[10] Chuỗi thời gian được sử dụng trong một loạt các ứng dụng, mô hình hóa dữ liệu thay đổi theo thời gian. Ví dụ, thay đổi kho, tín hiệu âm thanh, tín hiệu địa chấn, điện tâm đồ, có thể được biểu diễn dưới dạng dữ liệu chuỗi thời gian.

[2] Ví dụ về chuỗi thời gian như hình 2.1 Minh họa về chuỗi thời gian thay đổi của kho và điện tâm đồ [2] 2.2 Khai thác motif trên dữ liệu chuỗi thời gian Motif của một chuỗi thời gian là một chuỗi con có tần suất xuất hiện cao nhất. Hiện nay, các bài toán về khai thác motif đang được các nhà khoa học nghiên cứu, phát triển và xây dựng các ứng dụng liên quan, đồng thời khai thác motif cũng liên quan tới các bài toán khác trong chuỗi thời gian nên có thể gọi nó là bài toán cơ bản. 7 Có nhiều bài toán đã ứng dụng khai thác motif như: tìm hiểu thói quen của khách hàng, tìm các mặt hàng có chu kỳ doanh số giống nhau, phát hiện vi phạm bản quyền trong các bản nhạc, tìm những tháng trong quá khứ có lượng mưa giống như tháng vừa rồi, phát hiện đạo văn,. Phát hiện motif là tìm những chuỗi con tương tự nhau xuất hiện lặp đi lặp lại trong dữ liệu chuỗi thời gian như hình 2.2 Ví dụ về một motif của dữ liệu chuỗi thời gian [3] Hiện nay, các nhà khoa học trên thế giới đã và đang đi sâu vào phân tích và khai thác dữ liệu chuỗi thời gian.

Từ nền tảng kiến thức đó đã xây dựng ra nhiều ứng dụng trong các lĩnh vực về tài chính, kinh tế, công nghệ. Dữ liệu chuỗi thời gian được sử dụng phổ biến trong các lĩnh vực khoa học, công nghệ, tài chính, thương mại, y học, thời tiết, môi trường, địa lý.1 Cửa số trượt (Sliding Window) Cho một dữ liệu chuỗi thời gian T có chiều dài n, để xác định được chuỗi con có chiều dài m, ta dùng một cửa sổ trượt có kích thước m trượt qua từng điểm từ trái sang phải trên chuỗi T để xác định mỗi chuỗi con c [6].3 Cửa sổ trượt trên dữ liệu chuỗi thời gian ([7]).2 Chuỗi con Cho một chuỗi thời gian T= (ti, t2., tn), một chuỗi con có chiều dài n của T là một chuỗi Ti, mà n = (ti, ti + 1,.3 So trùng mẫu Cho một số thực R (gọi là phạm vi và do người dùng định nghĩa) và một dữ liệu chuỗi thời gian T chứa một chuỗi con c bắt đầu tại vị trí p và một chuỗi con M bắt đầu tại vị trí q, nếu hàm tính khoảng cách từ c đến M ký hiệu D(C, M) < R (ta dùng công thức tính khoảng cách Euclid để tính toán khoảng cách giữa hai chuỗi con) thì ta nói là chuỗi con M khớp được với chuỗi con c [6], Có hai kiểu so trùng mẫu: so trùng tầm thường và so trùng không tầm thường Hình 2.4 So trùng khớp giữa chuỗi con c và M được cắt ra từ chuỗi thời gian T ([6]) 9 2.4 So trùng tầm thường Cho một số thực dương R và một chuỗi thời gian T. Một chuỗi con Ci của T bắt đầu tại vị trí i và một chuỗi con Cj của T bắt đầu tại vị trí j, nếu DISTANCE(G, Cj) < R thì Cj được gọi là chuỗi con tương tự của c, [8], Các chuỗi con tương tự nhất với một chuỗi con Ci là các chuỗi con bắt đầu tại các vị trí lệch một hay hai điểm về bên trái hay bên phải so với vị trí bắt đầu của chuỗi con Ci. Có nghĩa là chuỗi con mới lệch một khoảng so với chuỗi con cũ và hai chuỗi con này có chung một đoạn giá trị.

Các trường hợp này được gọi là so trùng tầm thường.5 Hai chuỗi con trong chuỗi thời gian T so trùng tầm thường ([6]).5 So trùng không tầm thường Cho chuỗi thời gian T có chiều dài n, chuỗi c và M có chiều dài m và là chuỗi con của chuỗi thời gian T. Chuỗi c bắt đầu tại vị trí p, chuỗi M bắt đầu tại vị trí q. Ta nói chuỗi con M và chuỗi con c so trùng không tầm thường nếu |p - q| > m [6].6 k -motif Cho một dữ liệu chuỗi thời gian T có chiều dài n, và một số thực R, motif quan trọng nhất trong T (còn được gọi là 1- Motif) là chuỗi con Cj nào đó trong T có số lượng chuỗi con khớp không tầm thường với nó cao nhất.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử lý và phân tích dữ liệu

Phân tích và so sánh thuật toán

Khai phá dữ liệu chuỗi thời gian