Luận Văn Thạc Sĩ Khoa Học Máy Tính: Phân Lớp Bán Giám Sát Dữ Liệu Chuỗi Thời Gian

Luận văn thạc sĩ khoa học máy tính tập trung phân lớp bán giám sát dữ liệu chuỗi thời gian, ứng dụng hiệu quả trong phân tích dữ liệu phức tạp.

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

105

Phí lưu trữ

35 Point

Tóm tắt

I. Giới thiệu tổng quan về đề tài

Phần này giới thiệu các khái niệm cơ bản liên quan đến phân lớp bán giám sát dữ liệu chuỗi thời gian, bao gồm dữ liệu chuỗi thời gian, bài toán phân lớp, và bài toán phân lớp bán giám sát. Đề tài tập trung vào việc cải tiến các phương pháp hiện có để tăng độ chính xác trong phân lớp dữ liệu chuỗi thời gian, đặc biệt trong bối cảnh dữ liệu có ít nhãn. Các kết quả chính của luận văn bao gồm việc đề xuất mô hình mới và cải tiến tiêu chuẩn dừng dựa trên nguyên lý Chiều dài Mô tả Nhỏ nhất (MDL).

1.1. Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian là tập hợp các giá trị được quan sát tại các thời điểm cách đều nhau, xuất hiện trong nhiều lĩnh vực như kinh tế, tài chính, y tế, và môi trường. Ví dụ bao gồm giá cổ phiếu, nhịp tim, và lượng mưa hàng ngày. Việc phân tích và phân lớp dữ liệu này đóng vai trò quan trọng trong việc đưa ra các quyết định dựa trên dữ liệu.

1.2. Bài toán phân lớp dữ liệu chuỗi thời gian

Bài toán phân lớp dữ liệu chuỗi thời gian liên quan đến việc xây dựng mô hình dự đoán nhãn cho các chuỗi thời gian chưa được gán nhãn dựa trên tập huấn luyện đã được gán nhãn. Các phương pháp truyền thống như k-láng giềng-gần nhất (k-NN) và Mạng nơ-ron nhân tạo (ANN) thường yêu cầu một lượng lớn dữ liệu đã được gán nhãn, điều này không phù hợp với thực tế khi dữ liệu có ít nhãn.

1.3. Bài toán phân lớp bán giám sát dữ liệu chuỗi thời gian

Phân lớp bán giám sát là phương pháp phù hợp khi số lượng dữ liệu đã được gán nhãn ít. Mô hình của Wei và Keogh (2006) là nền tảng cho việc phân lớp bán giám sát dữ liệu chuỗi thời gian. Đề tài này tập trung vào cải tiến mô hình này bằng cách đề xuất tiêu chuẩn dừng mới và quá trình tinh chế để tăng độ chính xác của tập huấn luyện.

II. Mục tiêu và giới hạn đề tài

Mục tiêu chính của đề tài là nghiên cứu và cải tiến các phương pháp phân lớp bán giám sát dữ liệu chuỗi thời gian, đặc biệt là việc áp dụng độ đo xoắn thời gian động (DTW) và cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL). Đề tài cũng đề xuất quá trình tinh chế để làm cho tập huấn luyện kết quả chính xác hơn.

2.1. Nghiên cứu độ đo xoắn thời gian động

Độ đo xoắn thời gian động (DTW) là một phương pháp quan trọng trong việc so sánh và phân lớp dữ liệu chuỗi thời gian. Đề tài nghiên cứu các ràng buộc và phương pháp tối ưu hóa DTW để áp dụng trong phân lớp bán giám sát.

2.2. Cải tiến tiêu chuẩn dừng

Đề tài đề xuất cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL), giúp tăng độ chính xác của mô hình phân lớp bán giám sát. Kết quả thực nghiệm cho thấy cải tiến này hiệu quả hơn so với các phương pháp trước đó.

2.3. Quá trình tinh chế

Quá trình tinh chế được đề xuất nhằm phát hiện và sửa chữa các mẫu có nhãn sai trong tập huấn luyện. Kết quả thực nghiệm cho thấy quá trình này làm tăng đáng kể độ chính xác của tập huấn luyện kết quả.

III. Các kết quả đã đạt được

Đề tài đã đạt được những kết quả quan trọng trong việc cải tiến phân lớp bán giám sát dữ liệu chuỗi thời gian. Cụ thể, đề tài đã đề xuất mô hình mới kết hợp học bán giám sát và quá trình tinh chế, cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL), và thực hiện các thực nghiệm so sánh để chứng minh hiệu quả của các cải tiến này.

3.1. Mô hình phân lớp bán giám sát mới

Mô hình mới kết hợp học bán giám sát và quá trình tinh chế giúp tăng độ chính xác của tập huấn luyện. Kết quả thực nghiệm cho thấy mô hình này hiệu quả hơn so với các phương pháp trước đó.

3.2. Cải tiến tiêu chuẩn dừng

Cải tiến tiêu chuẩn dừng dựa trên Chiều dài Mô tả Nhỏ nhất (MDL) giúp mô hình dừng đúng thời điểm, tránh việc dừng quá sớm hoặc quá muộn. Kết quả thực nghiệm cho thấy cải tiến này làm tăng độ chính xác của mô hình.

3.3. Thực nghiệm so sánh

Các thực nghiệm so sánh được thực hiện trên nhiều bộ dữ liệu khác nhau, bao gồm MIT-BIH Supraventricular Arrhythmia Database và St. Petersburg Arrhythmia Database. Kết quả cho thấy các cải tiến của đề tài hiệu quả hơn so với các phương pháp trước đó.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phân lớp bán giám sát dữ liệu chuỗi thời gian

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI Chương này giới thiệu sợ lược về đề tài cũng như giới thiệu các định nghĩa, các vấn đề có liên quan như: Dữ liệu chuỗi thời gian, Bài toán phân lớp, Bài toán phân lớp bán giám sát, Mục tiêu nghiên cứu của đề tài, Tóm lược các kết quả đạt được của đề tài và Cấu trúc của luận văn. NHỮNG CÔNG TRÌNH LIÊN QUAN Chương này trình bày sơ lược về các công trình có liên quan đến bài toán phân lớp bán giám sát dữ liệu chuỗi thời gian như: Các độ đo tương tự trên dữ liệu chuỗi thời gian, Các phương pháp thu giảm số chiều trên dữ liệu chuỗi thời gian, Các giải thuật gom cụm, Vấn đề phân lớp có giám sát dựa trên k-láng giềng-gần nhất (k-NN), Các mô hình phân lớp bán giám sát dữ liệu chuỗi thời gian, Các công trình về tiêu chuẩn dừng cho phân lớp bán giám sát dữ liệu chuỗi thời gian cho mô hình của Wei và Keogh. CƠ SỞ LÝ THUYẾT Chương này trình bày chi tiết về các kỹ thuật được áp dụng trong đề tài như: độ đo xoắn thời gian động, ràng buộc dải Sakoe-Chiba trong độ đo xoắn thời gian động, thu giảm số chiều dữ liệu chuỗi thời gian bằng phương pháp xấp xỉ gộp từng đoạn, giải thuật gom cụm X-means, mô hình phân lớp bán giám sát dữ liệu chuỗi thời gian của Wei và Keogh, Các tiêu chuẩn dừng trong phân lớp bán giám sát dữ liệu chuỗi thời gian cho mô hình của Wei và Keogh, phương pháp phân lớp bán giám sát dữ liệu chuỗi thời gian SUCCESS của Marussy và Buza.

Chương này cũng 7 trình bày một số nhận xét về các phương pháp trước đây và đề xuất một số hướng cải tiến. PHƯƠNG PHÁP ĐỀ NGHỊ Chương này trình bày mô hình phân lớp bán giám sát được sử dụng trong đề tài, Một cải tiến trong tiêu chuẩn dừng dựa trên nguyên lý Chiều dài Mô tả Nhỏ nhất và trình bày đề xuất thêm một bước tinh chế cho tập huấn luyện (Refinement step). THỰC NGHIỆM Chương này trình bày hai kết quả thực nghiệm quan trọng là so sánh tiêu chuẩn dừng MDL cải tiến (Phương pháp đề nghị) so với các tiêu chuẩn dừng trước đó và thực nghiệm so sánh tập huấn luyện trước và sau khi tinh chế (Phương pháp đề nghị). Bên cạnh đó cũng trình bày thêm một số thực nghiệm khác như: so sánh phương pháp đề nghị với phương pháp SUCCESS của Marussy và Buza, thực nghiệm phân lớp bán giám sát dựa trên X-means (X-means-Classifier), thời gian thực thi của các giải thuật.

Kết quả các thực nghiệm cho thấy tiểu chuẩn dừng dựa trên MDL cải tiến và quá trình tinh chế góp phần làm cho tập huấn luyện kết quả trở nên tốt hơn. TỔNG KẾT Chương này trình bày tóm lược về phân lớp bán giám sát dữ liệu chuỗi thời gian, rút ra một số nhận xét, các kết quả đạt được của đề tài, rút ra kết luận về các kết quả đã đạt được và hướng phát triển của đề tài. NHỮNG CÔNG TRÌNH LIÊN QUAN Phần đầu của chương trình bày những công trình về độ đo tương tự trên dữ liệu chuỗi thời gian như độ đo Minkowski, độ đo xoắn thời gian động và độ đo chuỗi con chung dài nhất. Phần thứ hai trình bày về một số phương pháp thu giảm số chiều dữ liệu chuỗi thời gian.

Phần thứ ba trình bày một số phương pháp gom cụm trong khai phá dữ liệu như giải thuật K-means, giải thuật X-means, phương pháp gom cụm phân cấp. Phần phần cuối cùng trình bày những công trình liên quan đến bài toán phân lớp trên dữ liệu chuỗi thời gian như phân lớp có giám sát dựa trên tìm kiếm k-láng giềng-gần nhất, phân lớp bán giám sát dữ liệu chuỗi thời gian với mô hình của Wei và Keogh cùng với những công trình về tiêu chuẩn dừng trong phân lớp bán giám sát dữ liệu chuỗi thời gian theo mô hình của Wei và Keogh, các phương pháp phân lớp bán giám sát dữ liệu chuỗi thời gian dựa vào gom cụm như: LCLC và En-LCLC của Nhut và các cộng sự, phương pháp SUCCESS của Murassy và Buza. NHỮNG CÔNG TRÌNH VỀ ĐỘ ĐO TƯƠNG TỰ Phần này trình bày một số nghiên cứu về cách đánh giá độ tương tự cho dữ liệu chuỗi thời gian. Cho đến thời điểm hiện tại, nhiều tác giả đã đề nghị nhiều độ đo tương tự khác nhau, mỗi độ đo tương tự thích hợp với từng loại dữ liệu trong từng hoàn cảnh khác nhau.

Vấn đề quan trọng của bài toán phân lớp dựa vào sự tương tự là việc đánh giá khoảng cách của hai đối tượng dữ liệu Oi, Oj. Trong trường hợp hai đối tượng này hoàn toàn giống nhau thì khoảng cách này sẽ là 0 và ngược lại chúng càng khác nhau thì khoảng cách càng lớn. Để có thể tính toán và so sánh với nhau thì các khoảng cách này được biểu diễn thành các số thực. 9 Độ đo khoảng cách giữa các đối tượng nên thỏa các tính chất sau: 1.

D(x, y) = 0 nếu và chỉ nếu x = y 2. D(x, y) < D(x, z) + D(y, z) Độ đo tương tự có ý nghĩa quan trọng trong hầu hết các bài toán trên dữ liệu chuỗi thời gian. Trong các mô hình có dùng rút trích đặc trưng hay thu giảm số chiều, độ đo tương tự phải thỏa mãn tính chất sau. Gọi Xf, Yf là biểu diễn của X,Y sau khi trích xuất đặc trưng hay thu giảm số chiều, độ đo khoảng cách D phải đảm bảo: D(Xf, Yf) ≤ D(X, Y).

Trong phần này, độ đo tương tự được định nghĩa trên hai chuỗi có chiều dài bằng nhau X, Y và được ký hiệu Sim(X, Y) [1]. Sau đây là những phương pháp đánh giá độ tương tự đã được một số tác giả đề nghị: 2. Độ đo Minkowski Hầu hết các công trình đều dựa trên độ đo khoảng cách này. Khoảng cách Minkowski được định nghĩa như sau: 𝑝 𝑆𝑖𝑚(𝑋, 𝑌) = √∑𝑛𝑖=1(𝑥𝑖 − 𝑦𝑖 )𝑝 , trong đó 𝑝 = 1 … ∞ Tuy p có thể có nhiều giá trị khác nhau nhưng trong các nghiên cứu p thường nhận các giá trị 1 (khoảng cách Manhattan), 2 (khoảng cách Euclid),  (khoảng cách Max).

Giá trị p = 2 được dùng phổ biến nhất. Một số ưu điểm và nhược điểm của phương pháp này:  Ưu điểm - Quá trình tính toán đơn giản và dễ dàng. 10 - Phù hợp khi sử dụng các biến đổi: Discrete Fourier Tranform (DFT), Discrete Wavelet Transform (DWT), Piecewise Aggregate Approximation (PAA), Adaptive Piecewise Constant Approximation (APCA), SAX (Symbolic Aggregate approXimation).  Nhược điểm - Nhạy cảm với nhiễu.

- Không hiệu quả với dữ liệu được đo ở nhiều thang đo khác nhau. Để khắc phục những nhược điểm trên, nhiều tác giả đã đưa ra những phương pháp sau đây:  Das, G. và các cộng sự (1997) [1] đề nghị nên chuẩn hóa dữ liệu chuỗi thời gian trước khi áp dụng các giải thuật so trùng mẫu dựa trên giá trị trung bình và độ lệch chuẩn X’ = X - mean(X) hoặc X’ = (X- mean(X)) / var(X). Phương pháp xoắn thời gian động Phương pháp xoắn thời gian động (Dynamic Time Warping – DTW) tương tự cách tính khoảng cách Minkowski nhưng thay vì so trùng hai đường biểu diễn dữ 11 liệu bằng cách tính khoảng cách từng cặp điểm 1 - 1 (điểm thứ i của chuỗi thứ nhất so với điểm thứ i của chuỗi thứ hai) thì một điểm có thể ánh xạ với nhiều điểm và ánh xạ này không tuyến tính.1 minh họa cách ánh xạ điểm trong độ đo xoắn thời gian động so với độ đo Euclid.

Cách tính khoảng cách xoắn thời gian động sẽ được trình bày chi tiết trong phần 3. So sánh cách ánh xạ cặp điểm trong độ đo Euclid và độ đo DTW (nguồn [11]) Một số ưu điểm và nhược điểm của phương pháp này:  Ưu điểm - Phương pháp DTW cho phép nhận dạng những mẫu có hình dạng giống nhau nhưng chiều dài hình dạng về mặt thời gian có thể khác nhau. - Phương pháp DTW thì hiệu quả hơn rất nhiều so với phương pháp tính khoảng cách theo Euclid. Đặc biệt trong các bài toán phân loại (classfication), gom cụm (clustering) hay trong các các ứng dụng nhận dạng giọng nói.

 Nhược điểm - Nhược điểm lớn nhất của DTW là thời gian chạy rất lâu, độ phức tạp là O(wn), trong đó w là chiều dài cửa sổ xoắn, n là chiều dài chuỗi. Để khắc phục nhược điểm trên, một số tác giả đã đưa ra những phương pháp sau đây nhằm tăng tốc quá trình tính khoảng cách DTW trong những hoàn cảnh cụ thể như sau: 12  Sakoe, H. (1978) [9] đã đưa ra ràng buộc gọi là dải Sakoe- Chiaba. (1975) [10] đã đưa ra ràng buộc hình bình hành Itakura, đây là những ràng buộc đường xoắn khi tính khoảng cách xoắn thời gian động.

Các ràng buộc này sẽ được trình bày chi tiết trong phần 3. và các cộng sự (2002) [11] đã đề xuất phương pháp tính chặn dưới gọi là chặn dưới LB_Keogh. Phương pháp này nhằm giải quyết vấn đề so sánh độ tương tự trong quá trình tìm kiếm. Nếu giá trị của chặn dưới là lớn hơn khoảng cách tốt nhất hiện tại thì chúng ta không cần tính khoảng cách thực.

Trong quá trình tính khoảng cách xoắn thời gian động, nếu khoảng cách đang tính là lớn hơn khoảng cách tốt nhất hiện tại thì chúng ta không cần phải tính tiếp khoảng cách này.2 minh họa việc từ bỏ sớm khi tính khoảng cách xoắn thời gian động. Hình ảnh minh họa việc từ bỏ sớm trong tính khoảng cách giữa hai chuỗi thời gian (nguồn [21]) 2. Phương pháp chuỗi con chung dài nhất Trong phương pháp này, độ tương tự Sim(X, Y) được tính bằng chiều dài của chuỗi con chung dài nhất (Longest Common Subsequence - LCS). Giải thuật chi tiết cho việc tìm LCS có thể được tìm thấy trong [4][1].3 diễn tả ý tưởng của phương pháp chuỗi con chung dài nhất.

13 Đoạn này có thể bỏ qua khi so trùng Hình 2. Hình Phương pháp 2. Phương pháp chuỗi chuỗi con con chung chung dài dài nhất nhất (nguồn (nguồn [1]) [1]) Một số ưu điểm và nhược điểm của phương pháp chuỗi con chung dài nhất:  Ưu điểm: cho phép bỏ qua những điểm bất thường khi so sánh.  Nhược điểm: phải chuẩn hóa dữ liệu ban đầu thông qua các phép biến đổi như tịnh tiến (shifting) đường căn bản hay phép co giãn biên độ (scaling) trước khi thực hiện giải thuật.

NHỮNG CÔNG TRÌNH LIÊN QUAN ĐẾN THU GIẢM SỐ CHIỀU DỮ LIỆU CHUỖI THỜI GIAN Dữ liệu chuỗi thời gian thường rất lớn. Do đó, việc tìm kiếm trực tiếp trên loại dữ liệu này sẽ rất phức tạp và không hiệu quả. Để khắc phục vấn đề này, chúng ta nên áp dụng một số phương pháp biến đổi để thu giảm độ lớn của dữ liệu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Phân Lớp Bán Giám Sát Dữ Liệu Chuỗi Thời Gian Trong Luận Văn Thạc Sĩ Khoa Học Máy Tính là một nghiên cứu chuyên sâu về phương pháp phân lớp dữ liệu chuỗi thời gian với sự kết hợp giữa kỹ thuật bán giám sát và các thuật toán máy học. Tài liệu này không chỉ cung cấp cái nhìn tổng quan về lý thuyết mà còn đưa ra các ứng dụng thực tiễn, giúp người đọc hiểu rõ cách thức xử lý và phân tích dữ liệu chuỗi thời gian trong các bài toán phức tạp. Đặc biệt, nghiên cứu nhấn mạnh vào việc tối ưu hóa hiệu suất và độ chính xác của mô hình, mang lại giá trị lớn cho các nhà nghiên cứu và chuyên gia trong lĩnh vực khoa học máy tính.

Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo thêm Luận văn thạc sĩ khoa học máy tính phân lớp dữ liệu chuỗi thời gian dựa vào mạng nơron tích chập CNN, nơi phương pháp mạng nơron tích chập được áp dụng để giải quyết bài toán tương tự. Ngoài ra, Luận văn thạc sĩ khoa học máy tính cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian cũng là một tài liệu hữu ích, tập trung vào việc nâng cao hiệu quả của thuật toán KMeans trong xử lý dữ liệu chuỗi thời gian. Cuối cùng, Luận văn thạc sĩ khoa học máy tính khai phá cụm hướng thời gian trên dữ liệu giáo dục sẽ mang đến góc nhìn mới về ứng dụng của các phương pháp phân tích chuỗi thời gian trong lĩnh vực giáo dục.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#khoa học máy tính

#dữ liệu chuỗi thời gian

#mô hình học máy

#phân lớp bán giám sát

Chủ đề

Khoa học Dữ liệu

Trí tuệ nhân tạo

Xử lý tín hiệu

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Phân Lớp Bán Giám Sát Dữ Liệu Chuỗi Thời Gian

I. Giới thiệu tổng quan về đề tài

1.1. Dữ liệu chuỗi thời gian

1.2. Bài toán phân lớp dữ liệu chuỗi thời gian

1.3. Bài toán phân lớp bán giám sát dữ liệu chuỗi thời gian

II. Mục tiêu và giới hạn đề tài

2.1. Nghiên cứu độ đo xoắn thời gian động

2.2. Cải tiến tiêu chuẩn dừng

2.3. Quá trình tinh chế

III. Các kết quả đã đạt được

3.1. Mô hình phân lớp bán giám sát mới

3.2. Cải tiến tiêu chuẩn dừng

3.3. Thực nghiệm so sánh

THÔNG TIN CHI TIẾT

Tác giả: Võ Thành Vinh

Người hướng dẫn: PGS. Dương Tuấn Anh

Trường học: Đại học Bách Khoa, Đại học Quốc gia TP. HCM

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Phân Lớp Bán Giám Sát Dữ Liệu Chuỗi Thời Gian

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2014

Địa điểm: TP. Hồ Chí Minh

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Phân Lớp Bán Giám Sát Dữ Liệu Chuỗi Thời Gian

I. Giới thiệu tổng quan về đề tài

1.1. Dữ liệu chuỗi thời gian

1.2. Bài toán phân lớp dữ liệu chuỗi thời gian

1.3. Bài toán phân lớp bán giám sát dữ liệu chuỗi thời gian

II. Mục tiêu và giới hạn đề tài

2.1. Nghiên cứu độ đo xoắn thời gian động

2.2. Cải tiến tiêu chuẩn dừng

2.3. Quá trình tinh chế

III. Các kết quả đã đạt được

3.1. Mô hình phân lớp bán giám sát mới

3.2. Cải tiến tiêu chuẩn dừng

3.3. Thực nghiệm so sánh

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Võ Thành Vinh

Người hướng dẫn: PGS. Dương Tuấn Anh

Trường học: Đại học Bách Khoa, Đại học Quốc gia TP. HCM

Chuyên ngành: Khoa Học Máy Tính

Đề tài: Phân Lớp Bán Giám Sát Dữ Liệu Chuỗi Thời Gian

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2014

Địa điểm: TP. Hồ Chí Minh

Có thể bạn quan tâm