Luận văn thạc sĩ về phân lớp dữ liệu chuỗi thời gian sử dụng bộ phân lớp 1-NN

Trường đại học

Đại học Quốc gia TP.HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2020

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu vấn đề

1.2. Phạm vi nghiên cứu

1.3. Tóm lược kết quả đạt được

1.4. Cấu trúc của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Chuỗi thời gian

2.2. Các thành phần dữ liệu chuỗi thời gian

2.2.1. Thành phần xu hướng

2.2.2. Thành phần chu kỳ

2.2.3. Thành phần theo mùa

2.2.4. Thành phần bất quy tắc

2.3. Phân lớp dữ liệu

2.3.1. Khái niệm phân lớp dữ liệu

2.3.2. Giải thuật phân lớp k-NN

2.3.3. Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)

2.3.4. Complexity-invariant Distance (CID)

2.4. Chuẩn hoá dữ liệu

2.5. Tiêu chí đáng giá độ chính xác phân lớp

3. CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN

3.1. Phân loại các phương pháp phân lớp dữ liệu chuỗi thời gian

3.2. Phân lớp dữ liệu chuỗi thời gian dựa vào tổ hợp bộ phân lớp

3.3. Một độ đo xoắn thời gian động cải tiến: DDTW

3.4. Phương pháp tính chặn dưới

3.4.1. Phương pháp tính chặn dưới Kim

3.4.2. Phương pháp tính chặn dưới của Yi

3.4.3. Kỹ thuật tính chặn dưới của Keogh

4. CHƯƠNG 4: PHƯƠNG PHÁP PHÂN LỚP ĐỀ XUẤT

4.1. Sơ đồ tổng quát của hệ thống

4.2. Giải thích sơ đồ trình tự của hệ thống

4.3. Quy trình tổng quát của hệ thống

4.4. Phân lớp dữ liệu với tổ hợp bộ phân lớp 1-NN với độ đo khoảng cách

5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Mô trình thực nghiệm

5.2. Các giải thuật và các bộ dữ liệu thực nghiệm

5.2.1. Bộ dữ liệu Fish

5.2.2. Bộ dữ liệu Trace

5.2.3. Bộ dữ liệu CBF

5.2.4. Bộ dữ liệu Haptics

5.3. Kết quả thực nghiệm

5.3.1. Kết quả thực nghiệm phân lớp với loại dữ liệu hình ảnh

5.3.2. Kết quả thực nghiệm phân lớp với loại dữ liệu quang phổ trong thực phẩm

5.3.3. Kết quả thực nghiệm với loại dữ liệu tổng hợp

5.3.4. Kết quả thực nghiệm với loại dữ liệu mô phỏng hình học

5.3.5. Kết quả thực nghiệm với loại dữ liệu cảm biến

5.3.6. Kết quả phân lớp với loại dữ liệu nhịp tim

5.3.7. Kết quả tổng hợp tỉ lệ lỗi phân lớp của các bộ dữ liệu thực nghiệm

5.3.8. Kết quả tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm

6. CHƯƠNG 6: KẾT LUẬN

6.1. Những kết luận của luận văn

6.2. Hướng phát triển trong tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phân lớp dữ liệu chuỗi thời gian

Phân lớp dữ liệu chuỗi thời gian ngày càng trở nên quan trọng trong bối cảnh công nghệ phát triển nhanh chóng. Dữ liệu chuỗi thời gian được thu thập từ nhiều nguồn khác nhau, từ cảm biến đến các thiết bị thông minh. Việc phân lớp dữ liệu này không chỉ giúp trong việc phân tích mà còn trong việc dự đoán các xu hướng tương lai. Phân lớp dữ liệu chuỗi thời gian được thực hiện thông qua việc xây dựng các bộ phân lớp dựa trên các chuỗi thời gian đã được gán nhãn. Tuy nhiên, các phương pháp truyền thống thường gặp khó khăn trong việc xử lý loại dữ liệu này do tính chất đặc thù của nó, bao gồm số chiều lớn và mối tương quan cao giữa các điểm dữ liệu. Các phương pháp phân lớp hiện tại có thể chia thành ba loại chính: dựa vào đặc trưng, mô hình và khoảng cách. Đặc biệt, phương pháp dựa vào khoảng cách cho thấy hiệu quả cao trong việc xử lý dữ liệu chuỗi thời gian. Do đó, nghiên cứu này tập trung vào việc phát triển một bộ tổ hợp phân lớp 1-NN với các độ đo khoảng cách khác nhau nhằm tăng cường độ chính xác trong phân lớp.

II. Các phương pháp đo khoảng cách trong phân lớp dữ liệu

Độ đo khoảng cách là yếu tố quyết định trong việc phân lớp dữ liệu chuỗi thời gian. Các độ đo phổ biến bao gồm khoảng cách Euclidean, khoảng cách Manhattan, và Dynamic Time Warping (DTW). Mỗi độ đo có ưu điểm và nhược điểm riêng, phù hợp với các loại dữ liệu khác nhau. Đặc biệt, DTW được ưa chuộng do khả năng xử lý các biến thể về độ dài chuỗi và sự dịch chuyển trong thời gian. Nghiên cứu cho thấy rằng việc áp dụng các độ đo khoảng cách này trong bộ phân lớp 1-NN có thể cải thiện đáng kể độ chính xác phân lớp. Việc kết hợp các độ đo này thành một tổ hợp giúp tận dụng được ưu điểm của từng phương pháp, từ đó tăng cường khả năng phân lớp. Kết quả thực nghiệm cho thấy tổ hợp các độ đo khoảng cách mang lại độ chính xác cao hơn so với việc sử dụng từng độ đo riêng lẻ.

III. Kỹ thuật xử lý song song trong phân lớp

Kỹ thuật xử lý song song là một phương pháp quan trọng nhằm cải thiện hiệu suất của các thuật toán phân lớp. Trong nghiên cứu này, kỹ thuật xử lý song song đa luồng được áp dụng để giảm thời gian thực thi của bộ phân lớp 1-NN. Kết quả cho thấy rằng việc áp dụng kỹ thuật này giúp giảm thời gian phân lớp từ 2 đến 3 lần so với phương pháp phân lớp truyền thống. Điều này đặc biệt quan trọng trong các ứng dụng thực tế, nơi mà thời gian xử lý nhanh chóng là một yếu tố then chốt. Việc cải tiến này không chỉ mang lại hiệu quả trong xử lý mà còn nâng cao khả năng ứng dụng của phương pháp phân lớp trong các lĩnh vực khác nhau như y tế, tài chính và dự báo thời tiết.

IV. Đánh giá và kết quả thực nghiệm

Nghiên cứu đã thực hiện đánh giá hiệu suất của các thuật toán phân lớp 1-NN với các độ đo khác nhau trên 28 tập dữ liệu mẫu từ website UCR. Kết quả cho thấy rằng bộ phân lớp 1-NN với tổ hợp các độ đo khoảng cách đạt được độ chính xác cao hơn so với từng độ đo riêng lẻ. Đặc biệt, độ đo CID được xác định là có độ chính xác tốt và thời gian xử lý nhanh nhất. Những kết quả này không chỉ khẳng định tính khả thi của phương pháp mà còn mở ra hướng đi mới trong nghiên cứu và ứng dụng phân lớp dữ liệu chuỗi thời gian. Việc áp dụng các kỹ thuật cải tiến như xử lý song song đa luồng cũng cho thấy tiềm năng lớn trong việc nâng cao hiệu suất của các thuật toán phân lớp.

V. Kết luận và hướng phát triển

Luận văn đã trình bày một cách tiếp cận mới trong phân lớp dữ liệu chuỗi thời gian dựa trên tổ hợp bộ phân lớp 1-NN với các độ đo khoảng cách khác nhau. Kết quả thực nghiệm cho thấy rằng phương pháp này không chỉ cải thiện độ chính xác mà còn giảm thiểu thời gian xử lý. Hướng phát triển trong tương lai có thể bao gồm việc áp dụng các kỹ thuật học sâu để cải thiện khả năng phân lớp và mở rộng nghiên cứu sang các loại dữ liệu khác. Việc tiếp tục nghiên cứu và phát triển các phương pháp phân lớp mới sẽ góp phần quan trọng vào việc nâng cao hiệu quả trong phân tích dữ liệu chuỗi thời gian.

05/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phân lớp dữ liệu chuỗi thời gian dựa vào tổ hợp bộ phân lớp 1 nn với độ đo khoảng cách khác nhau

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phân lớp dữ liệu chuỗi thời gian là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính, đặc biệt trong khai phá dữ liệu và học máy. Với sự phát triển nhanh chóng của công nghệ, dữ liệu chuỗi thời gian được thu thập từ nhiều thiết bị khác nhau, phục vụ cho các ứng dụng đa dạng như y tế, dự báo thời tiết, tài chính và kỹ thuật. Theo ước tính, hàng triệu chuỗi thời gian được tạo ra mỗi ngày, đòi hỏi các phương pháp phân lớp hiệu quả để khai thác thông tin có giá trị.

Vấn đề nghiên cứu tập trung vào việc nâng cao độ chính xác phân lớp dữ liệu chuỗi thời gian bằng cách sử dụng tổ hợp bộ phân lớp 1-NN (một láng giềng gần nhất) với các độ đo khoảng cách khác nhau. Mục tiêu cụ thể là đề xuất, hiện thực và đánh giá hiệu năng của giải thuật phân lớp dựa trên tổ hợp các độ đo khoảng cách như Euclid, DTW, DTW với kỹ thuật tính chặn dưới LB_Keogh, DDTW và CID. Phạm vi nghiên cứu áp dụng trên 28 bộ dữ liệu mẫu chuẩn từ website UCR, với thời gian thực hiện từ tháng 2 đến tháng 6 năm 2020 tại Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM.

Ý nghĩa nghiên cứu được thể hiện qua việc cải thiện độ chính xác phân lớp so với các phương pháp truyền thống, đồng thời giảm thiểu thời gian phân lớp nhờ áp dụng kỹ thuật xử lý song song đa luồng trên nền tảng CPU. Kết quả thực nghiệm cho thấy thời gian phân lớp được cải thiện nhanh gấp 2 đến 3 lần, mở ra hướng phát triển cho các ứng dụng thực tế trong nhiều lĩnh vực.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Chuỗi thời gian (Time Series): Chuỗi giá trị số thực theo thời gian, gồm các thành phần xu hướng, chu kỳ, theo mùa và bất quy tắc. Chuỗi thời gian có đặc điểm số chiều cao, mối tương quan giữa các điểm dữ liệu và có thể chứa nhiễu.
Phân lớp dữ liệu (Classification): Kỹ thuật phân tích dữ liệu nhằm xây dựng bộ phân lớp dựa trên dữ liệu đã gán nhãn để dự đoán nhãn cho dữ liệu mới. Giải thuật k-lân cận gần nhất (k-NN) là một trong những phương pháp đơn giản và hiệu quả, trong đó 1-NN được sử dụng phổ biến cho dữ liệu chuỗi thời gian.
Độ đo khoảng cách (Distance Measures): Các phương pháp tính khoảng cách giữa hai chuỗi thời gian, bao gồm:
- Độ đo Euclid: đơn giản, yêu cầu chuỗi có độ dài bằng nhau, nhạy với nhiễu.
- Độ đo xoắn thời gian động (DTW): cho phép so sánh chuỗi có độ dài khác nhau, tính toán phức tạp hơn.
- Độ đo DTW với kỹ thuật tính chặn dưới LB_Keogh: tăng tốc tính toán DTW bằng cách giới hạn không gian tìm kiếm.
- Độ đo Derivative Dynamic Time Warping (DDTW): biến thể của DTW giảm ảnh hưởng của điểm kỳ dị.
- Độ đo Complexity-invariant Distance (CID): điều chỉnh độ đo Euclid dựa trên độ phức tạp của chuỗi.
Kỹ thuật chuẩn hóa dữ liệu: Min-max normalization và z-score normalization được sử dụng để đưa dữ liệu về cùng thang đo, giúp cải thiện hiệu quả phân lớp.
Tiêu chí đánh giá: Độ chính xác (accuracy), tỉ lệ lỗi (error rate), sensitivity, specificity, precision và F-measure được sử dụng để đánh giá chất lượng phân lớp.

Phương pháp nghiên cứu

Nguồn dữ liệu: 28 bộ dữ liệu chuỗi thời gian chuẩn từ website UCR, bao gồm các loại dữ liệu hình ảnh, quang phổ thực phẩm, dữ liệu tổng hợp, mô phỏng hình học, cảm biến và nhịp tim.
Phương pháp phân tích: Hiện thực giải thuật 1-NN với từng độ đo khoảng cách riêng lẻ và với tổ hợp các độ đo khoảng cách. Tổ hợp bộ phân lớp được xây dựng dựa trên cơ chế bỏ phiếu có trọng số, trong đó trọng số được điều chỉnh theo tỉ lệ lỗi phân lớp của từng bộ phân lớp thành phần.
Kỹ thuật xử lý: Áp dụng kỹ thuật xử lý song song đa luồng trên nền tảng CPU để cải thiện thời gian phân lớp.
Timeline nghiên cứu: Nghiên cứu và hiện thực từ tháng 2 đến tháng 6 năm 2020, với các bước chính gồm thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác phân lớp: Giải thuật 1-NN với tổ hợp các độ đo khoảng cách đạt độ chính xác cao hơn so với 1-NN với từng độ đo riêng lẻ. Ví dụ, trên bộ dữ liệu Fish, tỉ lệ lỗi phân lớp giảm đáng kể khi sử dụng tổ hợp so với chỉ dùng DTW hoặc Euclid riêng biệt.
Hiệu năng thời gian: Thời gian phân lớp của giải thuật 1-NN với tổ hợp các độ đo khoảng cách lâu hơn đáng kể so với các độ đo riêng lẻ. Tuy nhiên, khi áp dụng kỹ thuật xử lý song song đa luồng, thời gian phân lớp được cải thiện nhanh gấp 2 đến 3 lần.
So sánh các độ đo: Độ đo CID cho kết quả cân bằng tốt giữa độ chính xác và thời gian chạy, nhanh hơn các độ đo DTW và DDTW nhưng vẫn giữ được độ chính xác cao.
Ảnh hưởng của kỹ thuật tính chặn dưới LB_Keogh: Giúp giảm thời gian tính toán DTW mà không làm giảm đáng kể độ chính xác phân lớp.

Thảo luận kết quả

Nguyên nhân chính của việc tăng độ chính xác khi sử dụng tổ hợp bộ phân lớp là do mỗi độ đo khoảng cách có ưu điểm riêng phù hợp với các đặc điểm khác nhau của chuỗi thời gian. Việc kết hợp các độ đo này giúp tận dụng điểm mạnh của từng phương pháp, giảm thiểu nhược điểm cá nhân, từ đó nâng cao hiệu quả phân lớp.

So sánh với các nghiên cứu trước đây, kết quả phù hợp với báo cáo của các nhà nghiên cứu cho thấy tổ hợp bộ phân lớp vượt trội hơn bộ phân lớp đơn lẻ. Việc áp dụng kỹ thuật tính chặn dưới và xử lý song song cũng đồng nhất với xu hướng cải tiến hiệu năng tính toán trong lĩnh vực phân lớp chuỗi thời gian.

Dữ liệu có thể được trình bày qua các biểu đồ tỉ lệ lỗi phân lớp và thời gian phân lớp trên từng bộ dữ liệu, minh họa rõ sự khác biệt giữa các phương pháp và hiệu quả của tổ hợp bộ phân lớp.

Đề xuất và khuyến nghị

Triển khai tổ hợp bộ phân lớp 1-NN với đa dạng độ đo khoảng cách: Khuyến nghị các nhà nghiên cứu và phát triển hệ thống phân lớp chuỗi thời gian áp dụng tổ hợp các độ đo như Euclid, DTW, LB_Keogh, DDTW và CID để nâng cao độ chính xác phân lớp. Thời gian thực hiện đề xuất trong vòng 6 tháng.
Áp dụng kỹ thuật xử lý song song đa luồng: Để giảm thiểu thời gian phân lớp, các tổ chức nên đầu tư vào hạ tầng CPU đa nhân và phát triển phần mềm hỗ trợ xử lý song song. Mục tiêu giảm thời gian phân lớp ít nhất 2 lần trong vòng 3 tháng.
Chuẩn hóa dữ liệu đầu vào: Thực hiện chuẩn hóa dữ liệu bằng phương pháp z-score để đảm bảo tính đồng nhất và giảm ảnh hưởng của nhiễu, giúp cải thiện hiệu quả phân lớp. Khuyến nghị áp dụng trong giai đoạn tiền xử lý dữ liệu.
Nghiên cứu mở rộng các độ đo khoảng cách mới: Khuyến khích nghiên cứu phát triển và thử nghiệm các độ đo khoảng cách mới phù hợp với đặc điểm dữ liệu chuỗi thời gian đa dạng, nhằm tiếp tục nâng cao độ chính xác và hiệu quả tính toán trong tương lai.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu khoa học máy tính và học máy: Có thể sử dụng kết quả và phương pháp luận để phát triển các thuật toán phân lớp chuỗi thời gian mới, cải tiến hiệu năng và độ chính xác.
Chuyên gia phân tích dữ liệu và khai phá dữ liệu: Áp dụng kỹ thuật tổ hợp bộ phân lớp 1-NN với các độ đo khoảng cách để nâng cao chất lượng phân tích dữ liệu chuỗi thời gian trong các lĩnh vực như y tế, tài chính, kỹ thuật.
Nhà phát triển phần mềm và hệ thống: Tận dụng các giải pháp xử lý song song đa luồng và kỹ thuật tính chặn dưới để xây dựng các hệ thống phân lớp dữ liệu thời gian thực với hiệu suất cao.
Sinh viên và học viên cao học chuyên ngành khoa học máy tính: Tham khảo luận văn để hiểu sâu về các phương pháp phân lớp chuỗi thời gian, các độ đo khoảng cách và kỹ thuật tối ưu hóa thuật toán, phục vụ cho nghiên cứu và học tập.

Câu hỏi thường gặp

Tại sao chọn giải thuật 1-NN cho phân lớp chuỗi thời gian?
Giải thuật 1-NN đơn giản, dễ triển khai và đã được chứng minh là có hiệu quả cao trong phân lớp chuỗi thời gian nhờ khả năng tận dụng các độ đo khoảng cách phù hợp.
Các độ đo khoảng cách nào được sử dụng trong nghiên cứu?
Nghiên cứu sử dụng các độ đo Euclid, DTW, DTW với kỹ thuật tính chặn dưới LB_Keogh, DDTW và CID, mỗi độ đo có ưu điểm riêng phù hợp với đặc điểm dữ liệu.
Lợi ích của tổ hợp bộ phân lớp là gì?
Tổ hợp bộ phân lớp kết hợp ưu điểm của nhiều độ đo khoảng cách, giúp tăng độ chính xác phân lớp so với sử dụng từng độ đo riêng lẻ.
Kỹ thuật tính chặn dưới LB_Keogh có tác dụng gì?
Kỹ thuật này giúp giảm không gian tìm kiếm trong tính toán DTW, từ đó giảm thời gian tính toán mà vẫn giữ được độ chính xác cao.
Xử lý song song đa luồng cải thiện hiệu năng như thế nào?
Kỹ thuật này tận dụng khả năng xử lý đồng thời của CPU đa nhân, giúp giảm thời gian phân lớp nhanh gấp 2 đến 3 lần so với xử lý tuần tự.

Kết luận

Đề xuất tổ hợp bộ phân lớp 1-NN với các độ đo khoảng cách khác nhau giúp nâng cao độ chính xác phân lớp dữ liệu chuỗi thời gian trên 28 bộ dữ liệu chuẩn.
Kỹ thuật tính chặn dưới LB_Keogh và độ đo DDTW cải thiện hiệu quả tính toán và giảm thiểu ảnh hưởng của nhiễu.
Độ đo CID cân bằng tốt giữa độ chính xác và thời gian thực thi, phù hợp cho các ứng dụng yêu cầu hiệu năng cao.
Áp dụng xử lý song song đa luồng trên nền tảng CPU giúp giảm thời gian phân lớp nhanh gấp 2-3 lần, phù hợp với các hệ thống xử lý dữ liệu lớn.
Hướng phát triển tiếp theo là mở rộng nghiên cứu các độ đo khoảng cách mới và tối ưu hóa thuật toán phân lớp cho dữ liệu chuỗi thời gian đa chiều và phức tạp hơn.

Để tiếp tục phát triển, các nhà nghiên cứu và chuyên gia nên áp dụng và thử nghiệm các giải pháp đề xuất trong các ứng dụng thực tế, đồng thời nghiên cứu mở rộng các kỹ thuật xử lý song song và tổ hợp bộ phân lớp nhằm nâng cao hiệu quả và khả năng ứng dụng của phân lớp chuỗi thời gian.

Bài viết "Luận văn thạc sĩ về phân lớp dữ liệu chuỗi thời gian sử dụng bộ phân lớp 1-NN" của tác giả Phạm Minh Trí, dưới sự hướng dẫn của PGS.TS Dương Tuấn Anh, trình bày một nghiên cứu sâu sắc về phương pháp phân lớp dữ liệu chuỗi thời gian thông qua bộ phân lớp 1-NN. Luận văn này không chỉ cung cấp cái nhìn tổng quan về các kỹ thuật phân lớp mà còn chỉ ra tầm quan trọng của việc áp dụng độ đo khoảng cách khác nhau trong quá trình phân lớp. Độc giả sẽ thấy được lợi ích của việc ứng dụng phương pháp này trong nhiều lĩnh vực khác nhau như phân tích dữ liệu, nhận diện mẫu và dự đoán xu hướng.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo các bài viết liên quan như "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói", nơi khám phá ứng dụng của học máy trong việc chọn lọc dữ liệu, và "Nghiên cứu tìm kiếm tương tự trên dữ liệu chuỗi thời gian sử dụng phép biến đổi PLA và chỉ mục Skyline", cung cấp cái nhìn sâu sắc về tìm kiếm dữ liệu trong chuỗi thời gian. Cuối cùng, bạn cũng nên xem qua "Luận văn thạc sĩ: Cấu trúc chỉ mục cho dữ liệu chuỗi thời gian sử dụng độ đo khoảng cách động", để hiểu rõ hơn về cách tổ chức và truy xuất dữ liệu trong các ứng dụng thực tế.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#chuỗi thời gian

#phân lớp dữ liệu

#bộ phân lớp 1-NN

#đo khoảng cách

Chủ đề

Phân tích chuỗi thời gian

thuật toán phân lớp

nghiên cứu và ứng dụng trong khoa học dữ liệu