I. Giới thiệu
Luận văn tập trung vào việc khảo sát và đánh giá hiệu quả của phương pháp phát hiện chuỗi con bất thường trên dữ liệu chuỗi thời gian sử dụng máy vector hỗ trợ (SVM). Vấn đề phát hiện bất thường trong dữ liệu chuỗi thời gian có ý nghĩa quan trọng trong nhiều lĩnh vực như y tế, tài chính và công nghiệp. Các phương pháp truyền thống như Brute-Force và HOTSAX đã được áp dụng, nhưng vẫn tồn tại những hạn chế. Luận văn đề xuất sử dụng máy vector hỗ trợ hai lớp để cải thiện độ chính xác và hiệu quả trong việc phát hiện bất thường.
1.1. Bối cảnh nghiên cứu
Phát hiện bất thường trong dữ liệu chuỗi thời gian là một bài toán quan trọng, đặc biệt trong các lĩnh vực như y tế và tài chính. Các phương pháp hiện có như Brute-Force và HOTSAX đã được sử dụng, nhưng chúng có những hạn chế về độ chính xác và khả năng áp dụng. Luận văn này tập trung vào việc cải tiến phương pháp bằng cách sử dụng máy vector hỗ trợ hai lớp.
1.2. Mục tiêu nghiên cứu
Mục tiêu chính của luận văn là khảo sát và đánh giá hiệu quả của phương pháp phát hiện chuỗi con bất thường trên dữ liệu chuỗi thời gian sử dụng máy vector hỗ trợ hai lớp. Nghiên cứu cũng nhằm so sánh hiệu quả của phương pháp này với các phương pháp truyền thống như HOTSAX.
II. Cơ sở lý thuyết
Luận văn trình bày các khái niệm cơ bản về dữ liệu chuỗi thời gian, chuỗi con bất thường, và các phương pháp phát hiện bất thường hiện có. Phương pháp máy vector hỗ trợ hai lớp được giới thiệu như một giải pháp mới để cải thiện độ chính xác trong việc phát hiện bất thường. Phương pháp này sử dụng quá trình nhúng thời gian trễ để chuyển đổi dữ liệu chuỗi thời gian thành các vector đặc trưng.
2.1. Dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian là một chuỗi các điểm dữ liệu được thu thập theo thời gian. Việc phát hiện các chuỗi con bất thường trong dữ liệu này có ý nghĩa quan trọng trong việc dự đoán các sự kiện bất thường như hỏng hóc hệ thống hoặc biến động tài chính.
2.2. Máy vector hỗ trợ hai lớp
Phương pháp máy vector hỗ trợ hai lớp được sử dụng để phân loại các vector đặc trưng thành hai lớp: bình thường và bất thường. Phương pháp này yêu cầu một tập huấn luyện bao gồm cả vector bình thường và bất thường, nhưng trong thực tế, tập huấn luyện thường chỉ chứa vector bình thường. Để khắc phục vấn đề này, phương pháp vùng bao được áp dụng để tạo ra các vector bất thường nhân tạo.
III. Phương pháp nghiên cứu
Luận văn đề xuất một phương pháp mới để phát hiện chuỗi con bất thường trên dữ liệu chuỗi thời gian sử dụng máy vector hỗ trợ hai lớp. Phương pháp này bao gồm các bước chính: chuyển đổi dữ liệu chuỗi thời gian thành các vector đặc trưng, tạo tập huấn luyện bằng phương pháp vùng bao, và sử dụng máy vector hỗ trợ hai lớp để phân loại các vector đặc trưng.
3.1. Chuyển đổi dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian được chuyển đổi thành các vector đặc trưng bằng quá trình nhúng thời gian trễ. Quá trình này giúp tạo ra các vector đặc trưng phù hợp để sử dụng trong máy vector hỗ trợ hai lớp.
3.2. Phương pháp vùng bao
Phương pháp vùng bao được sử dụng để tạo ra các vector bất thường nhân tạo từ các vector bình thường trong tập huấn luyện. Điều này giúp tăng cường độ chính xác của máy vector hỗ trợ hai lớp trong việc phát hiện bất thường.
IV. Kết quả và đánh giá
Luận văn trình bày các kết quả thực nghiệm trên các bộ dữ liệu chuẩn và dữ liệu mô phỏng. Phương pháp máy vector hỗ trợ hai lớp được so sánh với phương pháp HOTSAX về độ chính xác và thời gian thực hiện. Kết quả cho thấy phương pháp mới có khả năng phát hiện bất thường với độ chính xác cao hơn, đặc biệt trong các trường hợp chuỗi bất thường có độ dài bất kỳ.
4.1. Thực nghiệm trên dữ liệu chuẩn
Phương pháp máy vector hỗ trợ hai lớp được thử nghiệm trên các bộ dữ liệu chuẩn như Koski, ERP, và Memory. Kết quả cho thấy phương pháp này có khả năng phát hiện bất thường với độ chính xác cao hơn so với HOTSAX.
4.2. So sánh với phương pháp HOTSAX
Phương pháp máy vector hỗ trợ hai lớp được so sánh với HOTSAX về độ chính xác và thời gian thực hiện. Kết quả cho thấy phương pháp mới có ưu điểm trong việc phát hiện các chuỗi bất thường có độ dài bất kỳ, trong khi HOTSAX chỉ phát hiện được các chuỗi bất thường có độ dài cố định.
V. Kết luận và hướng phát triển
Luận văn kết luận rằng phương pháp máy vector hỗ trợ hai lớp là một giải pháp hiệu quả để phát hiện chuỗi con bất thường trên dữ liệu chuỗi thời gian. Phương pháp này có độ chính xác cao hơn so với các phương pháp truyền thống như HOTSAX. Hướng phát triển trong tương lai bao gồm việc tối ưu hóa thời gian thực hiện và mở rộng ứng dụng của phương pháp trong các lĩnh vực khác.
5.1. Kết luận
Phương pháp máy vector hỗ trợ hai lớp đã chứng minh hiệu quả trong việc phát hiện chuỗi con bất thường trên dữ liệu chuỗi thời gian. Phương pháp này có độ chính xác cao hơn so với HOTSAX, đặc biệt trong các trường hợp chuỗi bất thường có độ dài bất kỳ.
5.2. Hướng phát triển
Hướng phát triển trong tương lai bao gồm việc tối ưu hóa thời gian thực hiện của phương pháp và mở rộng ứng dụng của nó trong các lĩnh vực khác như y tế, tài chính và công nghiệp.