I. Giới thiệu về dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian là một loại dữ liệu được tổ chức theo thứ tự thời gian, cho phép phân tích và nhận diện các mẫu trong quá trình xảy ra. Trong bối cảnh hiện đại, dữ liệu chuỗi thời gian có mặt trong nhiều lĩnh vực như tài chính, y tế, và kỹ thuật. Việc xử lý và phân tích dữ liệu này gặp phải nhiều thách thức, đặc biệt là khi dữ liệu có kích thước lớn và không đồng nhất. E. Keogh đã chỉ ra rằng, "Dữ liệu quá lớn và phụ thuộc vào cách đánh giá độ tương tự" là những vấn đề chính mà các nhà nghiên cứu phải đối mặt. Điều này dẫn đến nhu cầu cấp thiết cho các phương pháp tìm kiếm tương tự hiệu quả hơn trong các cơ sở dữ liệu chuỗi thời gian.
1.1. Dữ liệu chuỗi thời gian dạng luồng
Chuỗi thời gian dạng luồng là một trường hợp đặc biệt của dữ liệu chuỗi thời gian, trong đó dữ liệu được cập nhật liên tục theo thời gian. M. Kontaki đã phân loại dữ liệu này thành hai loại: chuỗi thời gian tĩnh và chuỗi thời gian dạng luồng. Việc xử lý dữ liệu dạng luồng đòi hỏi các thuật toán có khả năng hoạt động trong thời gian thực và có thể xử lý khối lượng dữ liệu lớn. Các phương pháp như cửa sổ trượt (sliding windows) đã được đề xuất để giải quyết bài toán này. Như Kamber đã tổng hợp, "Các phương pháp xử lý dữ liệu dạng luồng bao gồm lấy mẫu ngẫu nhiên và mô hình đa phân giải".
II. Bài toán tìm kiếm tương tự trên chuỗi thời gian
Bài toán tìm kiếm tương tự trong dữ liệu chuỗi thời gian đã trở thành một lĩnh vực nghiên cứu quan trọng, đặc biệt trong việc phát hiện các mẫu và xu hướng. Các phương pháp hiện tại đã phân loại truy vấn thành hai loại chính: so trùng toàn bộ và so trùng chuỗi con. M. Kontaki đã tổng kết ba loại truy vấn tương tự: truy vấn tương tự vùng, truy vấn k-lân-cận gần nhất, và truy vấn tương tự ghép nối. Điều này cho thấy rằng, để thể hiện sự tương tự giữa hai chuỗi thời gian, cần phải dựa trên độ đo khoảng cách. "Tìm kiếm tương tự là một hướng nghiên cứu quan trọng trong khai phá dữ liệu", điều này khẳng định tầm quan trọng của việc phát triển các phương pháp hiệu quả cho bài toán này.
2.1. Các phương pháp thu giảm số chiều
Phương pháp thu giảm số chiều là một trong những kỹ thuật quan trọng nhằm tối ưu hóa việc xử lý dữ liệu chuỗi thời gian. Bằng cách áp dụng các phương pháp như xấp xỉ gộp từng đoạn (PAA), có thể giảm thiểu kích thước dữ liệu mà vẫn giữ lại thông tin quan trọng. Kỹ thuật này không chỉ giúp giảm tải cho hệ thống mà còn cải thiện hiệu suất tìm kiếm. "Xấp xỉ gộp từng đoạn hoạt động theo kiểu gia tăng, đáp ứng yêu cầu của môi trường luồng", điều này cho thấy tính linh hoạt và hiệu quả của phương pháp này trong việc xử lý dữ liệu chuỗi thời gian dạng luồng.
III. Cấu trúc chỉ mục và ứng dụng
Cấu trúc chỉ mục đóng vai trò quan trọng trong việc tối ưu hóa quá trình tìm kiếm tương tự trên dữ liệu chuỗi thời gian. Trong luận văn, cấu trúc chỉ mục Skyline được đề xuất như một giải pháp thay thế cho R*-Tree. Cấu trúc này cho phép truy xuất dữ liệu nhanh chóng và hiệu quả hơn trong môi trường luồng. Các thực nghiệm cho thấy rằng, "Cấu trúc chỉ mục Skyline là hiệu quả hơn R*-Tree trong môi trường luồng", điều này khẳng định giá trị thực tiễn của nghiên cứu. Việc áp dụng cấu trúc chỉ mục này có thể giúp cải thiện đáng kể thời gian đáp ứng truy vấn và giảm thiểu số lượng truy cập đĩa.
3.1. Đánh giá hiệu suất và kết quả thực nghiệm
Đánh giá hiệu suất của các phương pháp tìm kiếm tương tự được thực hiện thông qua các tiêu chí như thời gian CPU, số truy cập đĩa, và thời gian tạo cấu trúc chỉ mục. Kết quả thực nghiệm đã chứng minh rằng, các phương pháp mới đề xuất không chỉ cải thiện thời gian xử lý mà còn nâng cao độ chính xác trong việc tìm kiếm tương tự. "Các kết quả thực nghiệm cho thấy rằng, phương pháp mới có thể xử lý hiệu quả hơn trong môi trường dữ liệu lớn", điều này mở ra hướng đi mới cho các nghiên cứu tiếp theo trong lĩnh vực này.