I. Giới thiệu tổng quan về đề tài
Phần này giới thiệu các khái niệm cơ bản liên quan đến phân lớp bán giám sát dữ liệu chuỗi thời gian, bao gồm dữ liệu chuỗi thời gian, bài toán phân lớp, và bài toán phân lớp bán giám sát. Đề tài tập trung vào việc cải tiến các phương pháp hiện có để tăng độ chính xác trong phân lớp dữ liệu chuỗi thời gian, đặc biệt trong bối cảnh dữ liệu có ít nhãn. Các kết quả chính của luận văn bao gồm việc đề xuất mô hình mới và cải tiến tiêu chuẩn dừng dựa trên nguyên lý Chiều dài Mô tả Nhỏ nhất (MDL).
1.1. Dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian là tập hợp các giá trị được quan sát tại các thời điểm cách đều nhau, xuất hiện trong nhiều lĩnh vực như kinh tế, tài chính, y tế, và môi trường. Ví dụ bao gồm giá cổ phiếu, nhịp tim, và lượng mưa hàng ngày. Việc phân tích và phân lớp dữ liệu này đóng vai trò quan trọng trong việc đưa ra các quyết định dựa trên dữ liệu.
1.2. Bài toán phân lớp dữ liệu chuỗi thời gian
Bài toán phân lớp dữ liệu chuỗi thời gian liên quan đến việc xây dựng mô hình dự đoán nhãn cho các chuỗi thời gian chưa được gán nhãn dựa trên tập huấn luyện đã được gán nhãn. Các phương pháp truyền thống như k-láng giềng-gần nhất (k-NN) và Mạng nơ-ron nhân tạo (ANN) thường yêu cầu một lượng lớn dữ liệu đã được gán nhãn, điều này không phù hợp với thực tế khi dữ liệu có ít nhãn.
1.3. Bài toán phân lớp bán giám sát dữ liệu chuỗi thời gian
Phân lớp bán giám sát là phương pháp phù hợp khi số lượng dữ liệu đã được gán nhãn ít. Mô hình của Wei và Keogh (2006) là nền tảng cho việc phân lớp bán giám sát dữ liệu chuỗi thời gian. Đề tài này tập trung vào cải tiến mô hình này bằng cách đề xuất tiêu chuẩn dừng mới và quá trình tinh chế để tăng độ chính xác của tập huấn luyện.
II. Mục tiêu và giới hạn đề tài
Mục tiêu chính của đề tài là nghiên cứu và cải tiến các phương pháp phân lớp bán giám sát dữ liệu chuỗi thời gian, đặc biệt là việc áp dụng độ đo xoắn thời gian động (DTW) và cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL). Đề tài cũng đề xuất quá trình tinh chế để làm cho tập huấn luyện kết quả chính xác hơn.
2.1. Nghiên cứu độ đo xoắn thời gian động
Độ đo xoắn thời gian động (DTW) là một phương pháp quan trọng trong việc so sánh và phân lớp dữ liệu chuỗi thời gian. Đề tài nghiên cứu các ràng buộc và phương pháp tối ưu hóa DTW để áp dụng trong phân lớp bán giám sát.
2.2. Cải tiến tiêu chuẩn dừng
Đề tài đề xuất cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL), giúp tăng độ chính xác của mô hình phân lớp bán giám sát. Kết quả thực nghiệm cho thấy cải tiến này hiệu quả hơn so với các phương pháp trước đó.
2.3. Quá trình tinh chế
Quá trình tinh chế được đề xuất nhằm phát hiện và sửa chữa các mẫu có nhãn sai trong tập huấn luyện. Kết quả thực nghiệm cho thấy quá trình này làm tăng đáng kể độ chính xác của tập huấn luyện kết quả.
III. Các kết quả đã đạt được
Đề tài đã đạt được những kết quả quan trọng trong việc cải tiến phân lớp bán giám sát dữ liệu chuỗi thời gian. Cụ thể, đề tài đã đề xuất mô hình mới kết hợp học bán giám sát và quá trình tinh chế, cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL), và thực hiện các thực nghiệm so sánh để chứng minh hiệu quả của các cải tiến này.
3.1. Mô hình phân lớp bán giám sát mới
Mô hình mới kết hợp học bán giám sát và quá trình tinh chế giúp tăng độ chính xác của tập huấn luyện. Kết quả thực nghiệm cho thấy mô hình này hiệu quả hơn so với các phương pháp trước đó.
3.2. Cải tiến tiêu chuẩn dừng
Cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL) giúp mô hình dừng đúng thời điểm, tránh việc dừng quá sớm hoặc quá muộn. Kết quả thực nghiệm cho thấy cải tiến này làm tăng độ chính xác của mô hình.
3.3. Thực nghiệm so sánh
Các thực nghiệm so sánh được thực hiện trên nhiều bộ dữ liệu khác nhau, bao gồm MIT-BIH Supraventricular Arrhythmia Database và St. Petersburg Arrhythmia Database. Kết quả cho thấy các cải tiến của đề tài hiệu quả hơn so với các phương pháp trước đó.