Luận văn thạc sĩ: Giải pháp phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc theo thời gian thực

Luận văn thạc sĩ nghiên cứu máy tính xây dựng giải pháp phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc theo thời gian thực, đánh giá hiện trạng, phân tích vấn đề, đề xuất

Trường đại học

Đại học Bách Khoa - ĐHQG Tp. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Vấn đề dữ liệu đối với hệ thống quan trắc

1.2. Mục tiêu nghiên cứu

1.3. Các hướng tiếp cận và giải quyết bài toán

1.3.1. Nhận dạng dựa trên các quy tắc định nghĩa trước

1.3.2. Nhận dạng hoạt động dựa trên dữ liệu

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

3. CHƯƠNG 3: KẾT QUẢ VÀ BÀN LUẬN

4. CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ NHỮNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phát hiện bất thường

Trong bối cảnh khoa học máy tính, phát hiện bất thường là một lĩnh vực quan trọng, đặc biệt trong việc xử lý dữ liệu quan trắc theo thời gian thực. Dữ liệu này thường xuyên thay đổi và có thể chứa các giá trị không chính xác do nhiều nguyên nhân khác nhau như lỗi cảm biến hoặc lỗi phần mềm. Việc phát hiện và xử lý những bất thường này không chỉ giúp cải thiện chất lượng dữ liệu mà còn đảm bảo tính chính xác trong các quyết định dựa trên dữ liệu. Theo một nghiên cứu gần đây, việc áp dụng các phương pháp học sâu như Generative Adversarial Networks (GANs) đã cho thấy hiệu quả cao trong việc phát hiện các điểm bất thường trong dữ liệu lớn. Sự kết hợp giữa công nghệ thông tin và khoa học máy tính đã mở ra những hướng đi mới trong việc phát hiện và xử lý dữ liệu bất thường.

1.1. Tầm quan trọng của phát hiện bất thường

Phát hiện bất thường đóng vai trò quan trọng trong nhiều lĩnh vực, từ giám sát môi trường đến an ninh mạng. Việc phát hiện sớm các bất thường giúp ngăn chặn các sự cố nghiêm trọng và bảo vệ tài nguyên. Theo một báo cáo, các hệ thống giám sát có khả năng phát hiện bất thường kịp thời đã giảm thiểu đáng kể thiệt hại do sự cố môi trường. Hơn nữa, việc áp dụng các phương pháp học máy trong phát hiện bất thường không chỉ giúp tự động hóa quy trình mà còn nâng cao độ chính xác của các dự đoán. Điều này cho thấy rằng phân tích dữ liệu và xử lý dữ liệu là những yếu tố không thể thiếu trong việc phát triển các hệ thống giám sát hiện đại.

II. Các phương pháp phát hiện bất thường

Có nhiều phương pháp khác nhau để phát hiện bất thường trong dữ liệu quan trắc. Một trong những phương pháp phổ biến là phân tích dữ liệu dựa trên các quy tắc định nghĩa trước. Phương pháp này yêu cầu người dùng phải xác định các quy tắc và điều kiện mà dữ liệu phải tuân thủ. Tuy nhiên, phương pháp này có nhược điểm là không linh hoạt và khó áp dụng trong các tình huống thay đổi liên tục. Ngược lại, phương pháp nhận dạng hoạt động dựa trên dữ liệu sử dụng các mô hình học máy để tự động phát hiện bất thường. Phương pháp này cho phép hệ thống học từ dữ liệu lịch sử và tự động điều chỉnh khi có sự thay đổi trong dữ liệu. Theo một nghiên cứu, việc áp dụng machine learning trong phát hiện bất thường đã cho thấy hiệu quả vượt trội so với các phương pháp truyền thống.

2.1. Phương pháp giám sát

Phương pháp giám sát (Supervised Learning) yêu cầu một tập dữ liệu đã được gán nhãn để huấn luyện mô hình. Mô hình sẽ học từ các ví dụ đã biết và sau đó áp dụng kiến thức này để phát hiện bất thường trong dữ liệu mới. Phương pháp này có ưu điểm là độ chính xác cao nhưng lại yêu cầu một lượng lớn dữ liệu đã được gán nhãn, điều này có thể khó khăn trong thực tế. Hơn nữa, việc duy trì và cập nhật mô hình cũng là một thách thức lớn. Do đó, nghiên cứu hiện tại đang tìm kiếm các giải pháp kết hợp giữa các phương pháp giám sát và không giám sát để tối ưu hóa quá trình phát hiện bất thường.

III. Giải pháp công nghệ cho phát hiện bất thường

Giải pháp công nghệ cho phát hiện bất thường trong dữ liệu quan trắc thường bao gồm việc sử dụng các mô hình học sâu như GANs. Các mô hình này có khả năng học từ dữ liệu lớn và phát hiện các mẫu bất thường mà không cần phải gán nhãn trước. Việc áp dụng GANs trong phát hiện bất thường đã cho thấy khả năng phát hiện chính xác và nhanh chóng các điểm bất thường trong dữ liệu. Hơn nữa, các mô hình này có thể được tối ưu hóa để hoạt động trong thời gian thực, giúp cải thiện khả năng phản ứng với các tình huống bất thường. Theo một nghiên cứu, việc sử dụng GANs đã giúp cải thiện đáng kể độ chính xác trong việc phát hiện bất thường so với các phương pháp truyền thống.

3.1. Ứng dụng trong hệ thống IoT

Hệ thống IoT (Internet of Things) đang trở thành một phần quan trọng trong việc thu thập và phân tích dữ liệu quan trắc. Việc áp dụng các giải pháp phát hiện bất thường trong hệ thống IoT không chỉ giúp cải thiện chất lượng dữ liệu mà còn nâng cao khả năng giám sát và phản ứng với các tình huống bất thường. Các cảm biến IoT có thể thu thập dữ liệu liên tục và gửi về các trung tâm xử lý, nơi mà các mô hình học sâu có thể được áp dụng để phát hiện bất thường. Điều này không chỉ giúp tiết kiệm thời gian mà còn giảm thiểu rủi ro trong việc xử lý dữ liệu.

08/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính xây dựng giải pháp phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc theo thời gian thực

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và trí tuệ nhân tạo, việc thu thập và xử lý dữ liệu quan trắc theo thời gian thực ngày càng trở nên quan trọng, đặc biệt trong lĩnh vực giám sát chất lượng nước. Dữ liệu quan trắc nước thường có tính biến động cao do ảnh hưởng của các yếu tố môi trường như thời tiết, hoạt động con người và các hiện tượng tự nhiên. Theo ước tính, hệ thống IoT thu thập hàng nghìn điểm dữ liệu mỗi ngày, tạo ra thách thức lớn trong việc phát hiện và xử lý các điểm dữ liệu bất thường nhằm đảm bảo độ chính xác và tin cậy của hệ thống. Vấn đề nghiên cứu tập trung vào phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc theo thời gian thực, nhằm nâng cao chất lượng dữ liệu và hỗ trợ quản lý môi trường hiệu quả hơn.

Mục tiêu cụ thể của nghiên cứu là xây dựng mô hình học sâu ứng dụng Generative Adversarial Networks (GANs) để phát hiện các điểm bất thường trong dữ liệu chuỗi thời gian và thực hiện hiệu chỉnh dữ liệu tại thời điểm xảy ra bất thường. Phạm vi nghiên cứu tập trung vào dữ liệu chất lượng nước thu thập từ các cảm biến IoT trong quý 1 năm 2023 tại một số địa phương, với trọng tâm là các thông số nhiệt độ, độ dẫn điện, pH và oxy hòa tan. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác phát hiện bất thường, giảm sai số dữ liệu xuống khoảng 2%, từ đó nâng cao hiệu quả giám sát và quản lý nguồn nước, góp phần bảo vệ môi trường và sức khỏe cộng đồng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: lý thuyết học sâu (Deep Learning) và mô hình Mạng Đối Nghịch Tạo Sinh (Generative Adversarial Networks - GANs). Học sâu cung cấp khả năng tự động trích xuất đặc trưng từ dữ liệu phức tạp, trong khi GANs gồm hai mạng nơ-ron đối kháng — Generator tạo dữ liệu giả và Discriminator phân biệt dữ liệu thật và giả — giúp mô hình hóa phân phối dữ liệu và phát hiện bất thường hiệu quả.

Ba khái niệm chuyên ngành quan trọng được sử dụng gồm:

Phát hiện bất thường (Anomaly Detection): Quá trình xác định các điểm dữ liệu không tuân theo quy luật hoặc mẫu thông thường trong chuỗi thời gian.
Chuỗi thời gian (Time Series): Dữ liệu được thu thập theo trình tự thời gian, có tính liên tục và phụ thuộc lẫn nhau.
Cửa sổ trượt (Sliding Window): Kỹ thuật cắt dữ liệu thành các đoạn nhỏ có kích thước cố định để xử lý tuần tự, giúp mô hình học sâu nắm bắt đặc trưng theo ngữ cảnh thời gian.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu quan trắc chất lượng nước thu thập từ các cảm biến IoT trong quý 1 năm 2023, với hơn 10,800 điểm dữ liệu về nhiệt độ nước. Dữ liệu được tiền xử lý bằng phương pháp chuẩn hóa Min-Max trong khoảng [-1, 1] và áp dụng kỹ thuật cửa sổ trượt với kích thước cửa sổ 100 điểm, tỷ lệ chồng lấn từ 0 đến 90%, nhằm tạo ra các mẫu dữ liệu phù hợp cho mô hình.

Phương pháp phân tích sử dụng mô hình TadGAN (Time-series Anomaly Detection using Generative Adversarial Networks), bao gồm các thành phần encoder, generator, criticX và criticZ. Encoder sử dụng LSTM song song để mã hóa dữ liệu đầu vào thành không gian tiềm ẩn, generator tái tạo dữ liệu từ không gian tiềm ẩn, criticX và criticZ đánh giá dữ liệu thật và giả trong không gian quan sát và tiềm ẩn. Quá trình huấn luyện tối ưu hóa hàm mất mát kết hợp Wasserstein loss và cycle consistency loss nhằm đảm bảo mô hình học được phân phối dữ liệu chính xác và ổn định.

Timeline nghiên cứu kéo dài từ tháng 1 đến tháng 5 năm 2024, bao gồm các bước thu thập dữ liệu, tiền xử lý, xây dựng và huấn luyện mô hình, đánh giá kết quả và hiệu chỉnh dữ liệu bất thường.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phát hiện bất thường: Mô hình TadGAN đạt độ chính xác cao trong phát hiện các điểm bất thường trong dữ liệu nhiệt độ nước với sai số tái tạo thấp, thể hiện qua các chỉ số MSE và MAE lần lượt khoảng 0.6 và 0.4 trên tập test. Phương pháp cửa sổ trượt kết hợp ngưỡng 4 độ lệch chuẩn giúp nhận diện chính xác các khung thời gian có bất thường.
Khả năng hiệu chỉnh dữ liệu: Mô hình có thể nội suy và hiệu chỉnh các điểm dữ liệu bất thường với sai số dự đoán chỉ khoảng 2%, giúp cải thiện độ tin cậy của dữ liệu quan trắc. Thử nghiệm trên dữ liệu thay đổi ngày 07-01-2023 cho thấy mô hình phát hiện và sửa lỗi hiệu quả.
So sánh với mô hình BiLSTM: TadGAN vượt trội hơn BiLSTM trong việc phát hiện các bất thường nhỏ và phức tạp nhờ khả năng mô hình hóa linh hoạt của GAN. Mặc dù thời gian huấn luyện dài hơn và yêu cầu điều chỉnh phức tạp, TadGAN cho kết quả chính xác hơn trong phát hiện và tái tạo dữ liệu.
Ổn định trong huấn luyện: Hàm mất mát của criticX và criticZ giảm dần và ổn định sau khoảng 20 epochs, chứng tỏ mô hình học được cách phân biệt dữ liệu thật và giả hiệu quả, đảm bảo chất lượng phát hiện bất thường.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình TadGAN đạt hiệu quả cao là do cơ chế đối kháng giữa generator và discriminator giúp mô hình học được phân phối dữ liệu phức tạp và phát hiện các điểm lệch chuẩn một cách chính xác. So với các nghiên cứu trước đây sử dụng LSTM hoặc các mô hình học sâu khác, việc kết hợp GAN với kỹ thuật cửa sổ trượt và chuẩn hóa dữ liệu đã nâng cao khả năng phát hiện bất thường trong dữ liệu chuỗi thời gian đa biến.

Kết quả này phù hợp với các nghiên cứu gần đây về ứng dụng GAN trong phát hiện bất thường chuỗi thời gian, đồng thời mở rộng khả năng ứng dụng trong các hệ thống IoT với dữ liệu biến động nhanh và kích thước lớn. Việc mô hình có thể hiệu chỉnh dữ liệu bất thường cũng góp phần giảm thiểu sai số trong các phân tích và dự báo tiếp theo, nâng cao độ tin cậy của hệ thống giám sát.

Dữ liệu có thể được trình bày qua biểu đồ nhiệt độ theo thời gian, biểu đồ điểm bất thường theo cửa sổ trượt, và bảng so sánh sai số giữa dữ liệu thực tế và dữ liệu nội suy, giúp minh họa rõ ràng hiệu quả của mô hình.

Đề xuất và khuyến nghị

Tối ưu hóa siêu tham số mô hình: Tiến hành nghiên cứu sâu về các siêu tham số của GAN như kích thước không gian tiềm ẩn, tỷ lệ học, và cấu trúc mạng để nâng cao hiệu suất phát hiện bất thường, giảm thời gian huấn luyện và tăng độ ổn định. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 6 tháng tiếp theo.
Mở rộng dữ liệu đầu vào: Kết hợp thêm các đặc trưng khác như độ pH, độ dẫn điện, nồng độ các chất hóa học để xây dựng mô hình đa chiều, giúp phát hiện bất thường toàn diện hơn. Chủ thể thực hiện: phòng thí nghiệm và đơn vị quản lý dữ liệu; Thời gian: 1 năm.
Phân tích đa chiều không gian-thời gian: Áp dụng kỹ thuật phân tích dữ liệu đa chiều kết hợp không gian và thời gian nhằm nhận diện các mẫu bất thường trong phạm vi rộng lớn và dài hạn, nâng cao độ chính xác và khả năng dự báo. Chủ thể thực hiện: nhóm nghiên cứu; Thời gian: 1 năm.
Triển khai thực tế và tích hợp hệ thống: Xây dựng hệ thống giám sát thời gian thực tích hợp mô hình phát hiện và hiệu chỉnh dữ liệu, áp dụng trong các mạng lưới quan trắc nước và môi trường khác. Chủ thể thực hiện: các cơ quan quản lý môi trường và doanh nghiệp công nghệ; Thời gian: 1-2 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học máy tính, trí tuệ nhân tạo: Nghiên cứu về ứng dụng GAN trong phát hiện bất thường chuỗi thời gian, học sâu và xử lý dữ liệu IoT.
Chuyên gia môi trường và quản lý tài nguyên nước: Áp dụng các giải pháp phát hiện và hiệu chỉnh dữ liệu quan trắc để nâng cao chất lượng giám sát và quản lý nguồn nước.
Doanh nghiệp phát triển công nghệ IoT và hệ thống giám sát: Tích hợp mô hình phát hiện bất thường thời gian thực vào sản phẩm và dịch vụ nhằm tăng tính cạnh tranh và hiệu quả.
Cơ quan quản lý nhà nước và tổ chức nghiên cứu ứng phó biến đổi khí hậu: Sử dụng kết quả nghiên cứu để xây dựng các hệ thống cảnh báo sớm và quản lý môi trường bền vững.

Câu hỏi thường gặp

Mô hình GAN hoạt động như thế nào trong phát hiện bất thường chuỗi thời gian?
GAN gồm hai mạng đối nghịch: Generator tạo dữ liệu giả và Discriminator phân biệt dữ liệu thật và giả. Khi huấn luyện, Generator học cách tạo dữ liệu giống thật nhất, Discriminator học cách phân biệt. Điểm bất thường được xác định dựa trên sai số tái tạo và điểm phân biệt của Discriminator, giúp phát hiện các điểm dữ liệu không phù hợp với mẫu thông thường.
Tại sao chọn dữ liệu nhiệt độ nước để xây dựng mô hình?
Nhiệt độ là một trong những thông số quan trọng phản ánh chất lượng nước và có tính biến động rõ ràng theo thời gian. Việc sử dụng dữ liệu nhiệt độ giúp đơn giản hóa mô hình ban đầu, đồng thời vẫn đảm bảo tính đại diện cho các biến động bất thường trong môi trường nước.
Phương pháp cửa sổ trượt có vai trò gì trong nghiên cứu?
Cửa sổ trượt giúp chia nhỏ chuỗi thời gian thành các đoạn dữ liệu có kích thước cố định, cho phép mô hình học sâu nắm bắt đặc trưng theo ngữ cảnh thời gian. Kỹ thuật này cũng hỗ trợ phát hiện bất thường ngữ cảnh, khi các điểm dữ liệu bất thường chỉ thể hiện rõ trong một khoảng thời gian nhất định.
Mô hình TadGAN có ưu điểm gì so với BiLSTM?
TadGAN tận dụng cơ chế đối kháng của GAN giúp mô hình hóa phân phối dữ liệu phức tạp và phát hiện các bất thường nhỏ, phức tạp hiệu quả hơn. Mặc dù thời gian huấn luyện dài hơn, TadGAN cho kết quả chính xác và khả năng tái tạo dữ liệu tốt hơn so với BiLSTM.
Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế?
Kết quả có thể được tích hợp vào hệ thống giám sát chất lượng nước thời gian thực, giúp phát hiện và hiệu chỉnh dữ liệu bất thường nhanh chóng. Các cơ quan quản lý và doanh nghiệp có thể sử dụng mô hình để nâng cao độ tin cậy dữ liệu, từ đó cải thiện các quyết định quản lý và bảo vệ môi trường.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình TadGAN phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc chất lượng nước theo thời gian thực với độ chính xác cao.
Mô hình cho phép phát hiện các điểm bất thường nhỏ và phức tạp, đồng thời nội suy dữ liệu với sai số dự đoán khoảng 2%.
So sánh với BiLSTM, TadGAN thể hiện ưu thế vượt trội về khả năng phát hiện và tái tạo dữ liệu.
Kết quả nghiên cứu mở ra triển vọng ứng dụng rộng rãi trong giám sát môi trường và các hệ thống IoT khác.
Các bước tiếp theo bao gồm tối ưu hóa mô hình, mở rộng dữ liệu đầu vào và triển khai thực tế nhằm nâng cao hiệu quả và tính ứng dụng của giải pháp.

Hãy tiếp tục nghiên cứu và ứng dụng các phương pháp học sâu tiên tiến để nâng cao chất lượng dữ liệu và bảo vệ môi trường bền vững.

Trích đoạn nội dung tài liệu

Chương 1 Tổng quan 1.1 Vấn đề dữ liệu đối với hệ thống quan trắc Dữ liệu quan trắc là dữ liệu được thu thập từ các phương tiện quan trắc, thiết bị cảm biến, thiết bị đo lường, hoặc hệ thống giám sát nhằm ghi lại các yếu tố trong môi trường, hệ thống, hoặc quá trình nào đó. Các yếu tố này có thể bao gồm chất lượng không khí, chất lượng nước, nhiệt độ, độ ẩm, áp suất,. Hiện nay, với sự phát triển của khoa học công nghệ đặc biệt dựa trên nền tảng Internet of Things thì việc thu thập dữ liệu và truyền về máy chủ tập trung đã trở nên dễ dàng hơn, đáp ứng được các yêu cầu cơ bản của việc giám sát thông tin như: giám sát được dữ liệu thời gian thực, hoạt động tự động,. Tuy nhiên, dữ liệu IoT cũng có thể chứa các giá trị bất thường, không chính xác làm sai lệch các thông tin thu thập được từ bên ngoài.

Một số nguyên nhân dẫn đến việc không chính xác đó có thể được biết đến như: • Lỗi cảm biến: Cảm biến có thể bị hư hỏng, mất điện hoặc quá cũ dẫn đến hoạt động sai lệch, làm cho dữ liệu thu thập được không chính xác. • Lỗi phần mềm: Phần mềm thu thập và xử lý dữ liệu có thể bị lỗi, dẫn đến dữ liệu bị sai lệch hoặc mất mát. • Lỗi do các yếu tố khác: Cảm biến có thể bị sai lệch do biến động của môi trường làm cho các thông số hóa học, vật lý của vùng quan trắc thay đổi đột ngột. Một số hình ảnh minh họa cho dự liệu thu thập từ sensor được biểu thị như trong các hình dưới đây: Luận văn Thạc Sĩ 2 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Hình 1.1: Dữ liệu thu thập bình thường [1] Hình 1.2: Dữ liệu bị mất trong quá trình thu thập [1] Hình 1.3: Một hoặc nhiều điểm ngoại lệ xuất hiện trong dữ liệu [1] Một bài toán quan trọng hay được đề cập đến trong lĩnh vực thu thập dữ liệu quan trắc là phát hiện những điểm bất thường (anomaly detection) của dữ liệu hay còn được gọi là phát hiện điểm ngoại lai (outlier detection).

Đây là một bài toán không chỉ quan trọng mà còn đầy thách thức, bởi dữ liệu thường được thu thập từ nhiều nguồn khác nhau và có thể chứa các biến thể không mong muốn hoặc không phản ánh đúng sự thật. Các thuật toán phát hiện bất thường đóng vai Luận văn Thạc Sĩ 3 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính trò như những trạm kiểm tra, giúp phân tích dữ liệu ở nhiều giai đoạn khác nhau trong quá trình thu thập và xử lý, từ các thiết bị IoT cho đến các trung tâm lưu trữ dữ liệu quy mô lớn. Trong môi trường của các trung tâm dữ liệu, nhu cầu về khả năng phát hiện và loại bỏ dữ liệu không đáng tin cậy là vô cùng quan trọng. Việc này giúp tăng tính đáng tin cậy của dữ liệu, từ đó đảm bảo rằng các quyết định dựa trên dữ liệu là chính xác và đáng tin cậy.

Đồng thời, việc làm sạch và phân loại dữ liệu cũng là bước quan trọng trong quá trình chuẩn bị dữ liệu cho việc phân tích và sử dụng trong các ứng dụng khác nhau Hầu hết các thuật toán học máy thường không hoạt động với các giá trị bị thiếu, do đó đối với các thuật toán này, giá trị bị thiếu cần phải được loại bỏ hoặc chuyển đổi thành số. Việc xử lý giá trị bị thiếu nên được thực hiện trước khi xây dựng mô hình. Nhiều yếu tố có thể gây ra dữ liệu bị thiếu: • Thiếu sót trong cấu trúc dữ liệu • Kết hợp với các bộ dữ liệu khác • Sự kiện ngẫu nhiên • Lỗi đo lường, v. Thời gian gần đây, mặc dù lĩnh vực nghiên cứu về việc phát hiện bất thường đang đạt được nhiều thành công, tuy nhiên vẫn còn nhiều thách thức cần phải giải quyết để có thể đưa được các hệ thống trên vào ứng dụng thực tế như: • Làm thế nào một hệ thống phát hiện được các dữ liệu bất thường trong các ngữ cảnh thực tế khác nhau với độ chính xác cao để có thể sử dụng cho các ứng dụng cảnh báo • Các mô hình đơn lẻ thực tế chỉ xem xét một trong hai yếu tố thời gian hoặc không gian nên việc ứng dụng trong thực tế sẽ còn nhiều bất cập hạn chế.

• Các vấn đề về việc bổ sung dữ liệu lỗi theo thời gian thực cũng đang được quan tâm để tăng độ cường độ chính xác của dữ liệu thời gian • Đặc biệt dữ liệu quan trắc thường có kích thước lớn và tốc độ thay đổi nhanh chóng. Điều này khiến cho việc phát hiện lỗi trong thời gian thực trở cực kì khó khăn, vì các thuật toán phát hiện lỗi cần phải xử lý một lượng lớn dữ liệu trong một khoảng thời gian ngắn. Luận văn Thạc Sĩ 4 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính Độ phức tạp của việc xử lý lỗi trong thời gian thực được thể hiện ở hai khía cạnh chính: • Yêu cầu về độ chính xác của kết quả: Các lỗi trong dữ liệu quan trắc có thể gây ra những hậu quả nghiêm trọng, do đó việc xử lý lỗi trong thời gian thực cần có độ chính xác cao. Điều này đòi hỏi các thuật toán xử lý lỗi phải có khả năng phân loại chính xác các dữ liệu lỗi.

• Thời gian phản hồi: Việc xử lý lỗi trong thời gian thực cần được thực hiện nhanh chóng để có thể ngăn chặn các hậu quả nghiêm trọng của lỗi. Điều này đòi hỏi các thuật toán xử lý lỗi phải có thời gian phản hồi thấp.2 Mục tiêu nghiên cứu Mục tiêu nghiên cứu của tôi sẽ tập trung vào viêc xây dựng mô hình học sâu để đạt được những yêu cầu sau: • Nhận biết bất thường của dữ liệu quan trắc: Phát hiện ra những vấn đề của dữ liệu như dữ liệu thiếu, thiết bị thu thập bị lỗi.gây ảnh hưởng đến chất lượng dữ liệu. • Sửa chữa lỗi của dữ liệu bất thường: Xác định và triển khai các phương pháp tự động để sửa lỗi dữ liệu, nhằm cải thiện độ tin cậy và chính xác của dữ liệu đang được sử dụng. Sẽ có hai bài toán cần quan tâm trong nghiên cứu: • Bài toán 1: Phát hiện bất thường của bộ dữ liệu thời gian thực • Bài toán 2: Hiệu chỉnh dữ liệu tại thời điểm xảy ra bất thường Qua những phân tích trên, tôi sẽ giới hạn phạm vi nghiên cứu trong những mục sau: • Nghiên cứu sẽ giới hạn phạm vi của mình vào việc giải quyết vấn đề nhận biết và sửa lỗi trong dữ liệu IoT liên quan đến chất lượng nước.

Sự chú ý sẽ được tập trung vào việc xử lý dữ liệu từ các cảm biến đo chất lượng nước, và các thông số khác có ảnh hưởng đáng kể đến môi trường và sức khỏe. • Nghiên cứu sẽ tập trung vào phân tích, đánh giá, và chọn lựa giải pháp để giái quyết bài toán số 1 trước, sau đó sẽ vận dụng để đưa vào thực tế với bài toán số 2. Luận văn Thạc Sĩ 5 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính 1.3 Các hướng tiếp cận và giải quyết bài toán Hai phương pháp tiếp cận phổ biến để giải quyết bài toán phát hiện bất thường là dựa trên tập hợp các quy tắc được định nghĩa trước (Rule-based de- tection) hoặc nhận dạng dựa trên các hoạt động dữ liệu (Data-Driven Detection) [3].1 Nhận dạng dựa trên các quy tắc định nghĩa trước Phương pháp này xác định các sự kiện hoặc hành vi bất thường trong dữ liệu dựa trên một tập hợp các quy tắc được định nghĩa trước. Các quy tắc này thường được xây dựng dựa trên kiến thức chuyên môn, hiểu biết sâu sắc về hệ thống và môi trường hoạt động sau đó sử dụng suy luận logic để mô tả mẫu hoặc đặc điểm của các hoạt động bình thường và bất thường.

Cách thức chung đối với phương pháp nhận dạng hoạt động loại này bao gồm: • Dựa trên các quy tắc có sẵn, xác định các quy tắc và nguyên tắc mà hệ thống thường tuân thủ khi hoạt động ổn định, bao gồm việc mô tả các biểu hiện bình thường, giới hạn cho các giá trị thực, hoặc quy luật về mối quan hệ giữa các tham số. • Tạo các quy tắc dựa trên những điều kiện và nguyên tắc đã xác định. Quyết định cách hệ thống sẽ nhận dạng và xử lý các trạng thái không bình thường. • Thực hiện các suy diễn logic để trích xuất và giải thích được các quan sát.

Ưu điểm của cách tiếp cận này là: • Các quy tắc dễ hiểu và cho phép giải thích rõ ràng tại sao một bất thường được phát hiện. • Phương pháp thường đơn giản và nhanh chóng khi xử lý các trường hợp được quy tắc bao phủ. • Các quy tắc cụ thể có thể dẫn đến độ chính xác cao trong việc phát hiện các bất thường đã biết. Tuy nhiên, hệ thống này còn chưa một số hạn chế quan trọng: Bao gồm việc đòi hỏi các kiến thức chuyên sâu từ các chuyên gia về hệ thống, việc tự động cập Luận văn Thạc Sĩ 6 Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học & Kỹ Thuật Máy Tính nhật các quy tắc trở nên không khả thi do dữ liệu đầu vào thường không có cấu trúc và liên tục biến động.

Hệ thống cũng thiếu khả năng xử lý thông tin tạm thời một cách linh hoạt và không rõ ràng. Vì lí do này, phương pháp này có vẻ ít được sử dụng trong thực tế.2 Nhận dạng hoạt động dựa trên dữ liệu Phương pháp này sử dụng mô hình học máy hoặc học sâu để tự động học và nhận biết các biểu hiện bất thường dựa trên dữ liệu đầu vào. Mô hình sẽ được huấn luyện trên dữ liệu lịch sử để học được mô hình hành vi bình thường của hệ thống. Phương pháp này liên quan đến việc tạo ra các mô hình hoạt động dựa trên xác suất hoặc thống kê, kết hợp với các quy trình học và huấn luyện.

Cách thức chung đối với phương pháp nhận dạng hoạt động loại này bao gồm: • Thu thập dữ liệu từ các nguồn, tiến hành loc, xử lý và chuẩn hóa để phù hợp với thuật toán học máy. Xác định tập dữ liệu huấn luyện và dữ liệu kiểm thử. • Huấn luyện mô hình trên dữ liệu huấn luyện để học các đặc điểm và mối quan hệ trong dữ liệu. Đánh giá độ chính xác của mô hỉnh dựa trên dữ liệu kiểm thử.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Giải pháp phát hiện bất thường và hiệu chỉnh dữ liệu quan trắc thời gian thực trong khoa học máy tính" trình bày các phương pháp và công nghệ tiên tiến nhằm phát hiện và xử lý các bất thường trong dữ liệu quan trắc thời gian thực. Những giải pháp này không chỉ giúp cải thiện độ chính xác của dữ liệu mà còn nâng cao hiệu quả trong việc ra quyết định dựa trên thông tin thu thập được. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các kỹ thuật này trong các lĩnh vực như phân tích dữ liệu lớn, học máy và trí tuệ nhân tạo.

Nếu bạn muốn mở rộng kiến thức về các ứng dụng trong khoa học máy tính, hãy tham khảo bài viết Luận văn thạc sĩ khoa học máy tính sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition, nơi bạn có thể tìm hiểu về cách lựa chọn dữ liệu hiệu quả trong các bài toán nhận diện giọng nói. Ngoài ra, bài viết Luận văn thạc sĩ khoa học máy tính nghiên cứu các phương pháp trích xuất thông tin trong ảnh tài liệu và ứng dụng sẽ cung cấp cho bạn cái nhìn sâu sắc về các phương pháp trích xuất thông tin từ hình ảnh, một lĩnh vực liên quan mật thiết đến việc xử lý dữ liệu. Cuối cùng, bạn có thể khám phá thêm về Luận văn thạc sĩ kỹ thuật viễn thông phân loại chủ đề bản tin online sử dụng máy học, giúp bạn hiểu rõ hơn về ứng dụng của máy học trong việc phân loại và xử lý thông tin. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và áp dụng vào thực tiễn trong lĩnh vực khoa học máy tính.

#Phân tích dữ liệu

#khoa học máy tính

#phát hiện bất thường

#thời gian thực

#thuật toán phát hiện bất thường

#hiệu chỉnh dữ liệu

Chủ đề

Công nghệ thông tin

Khoa học Dữ liệu

Hệ thống thông tin

Phân tích và xử lý dữ liệu