Luận văn tốt nghiệp: Hệ thống làm sạch dữ liệu OpenK với phương pháp phân cụm để phát hiện bất thường

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

graduation thesis

2021

84
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Hệ thống làm sạch dữ liệu OpenK được phát triển nhằm giải quyết vấn đề chất lượng dữ liệu trong các tổ chức. Trong bối cảnh hiện tại, việc xử lý và phân tích dữ liệu lớn là một thách thức lớn do sự tồn tại của các dữ liệu không chính xác, trùng lặp và bất thường. Để cải thiện chất lượng dữ liệu, hệ thống này áp dụng các phương pháp phân cụm nhằm phát hiện bất thường trong dữ liệu. Theo nghiên cứu, việc làm sạch dữ liệu không chỉ giúp tăng cường độ chính xác của các quyết định kinh doanh mà còn nâng cao hiệu suất của các hệ thống phân tích. Hệ thống OpenK sử dụng các thuật toán như Levenshtein Distance, Jaro-Winkler Similarity và các phương pháp Key Collision để phát hiện và phân nhóm các dữ liệu bất thường. Sự cần thiết của việc làm sạch dữ liệu là không thể phủ nhận, vì dữ liệu sạch sẽ là nền tảng cho mọi quyết định quan trọng trong kinh doanh.

1.1. Vấn đề cần giải quyết

Dữ liệu lớn hiện nay được thu thập từ nhiều nguồn khác nhau, dẫn đến việc tồn tại nhiều dữ liệu không chính xác hoặc trùng lặp. Điều này ảnh hưởng nghiêm trọng đến khả năng phân tích và ra quyết định. Hệ thống OpenK được thiết kế để phát hiện và xử lý các bất thường trong dữ liệu, giúp người dùng có thể dễ dàng phát hiện các vấn đề tiềm ẩn trong dữ liệu của họ. Hệ thống này không chỉ giúp cải thiện chất lượng dữ liệu mà còn tối ưu hóa quy trình phân tích dữ liệu.

II. Các phương pháp và thiết kế

Hệ thống OpenK sử dụng phương pháp phân cụm để phát hiện các bất thường trong dữ liệu. Các thuật toán như K-NN (K-Nearest Neighbors) và các phương pháp tương tự được áp dụng để nhóm các dữ liệu có đặc điểm tương đồng. Các thuật toán này giúp xác định các nhóm dữ liệu mà trong đó các điểm dữ liệu có thể được coi là bất thường so với các nhóm khác. Hệ thống cũng sử dụng các công nghệ hiện đại như Flask, Jinja, Pandas và Numpy để xây dựng giao diện người dùng thân thiện và hiệu quả. Điều này cho phép người dùng dễ dàng tương tác với dữ liệu và thực hiện các thao tác như tìm kiếm, phân loại và phân tích dữ liệu một cách trực quan.

2.1. Thiết kế kiến trúc hệ thống

Kiến trúc tổng thể của OpenK bao gồm nhiều thành phần chính, trong đó có các module xử lý dữ liệu và module giao diện người dùng. Các module này được thiết kế để hoạt động độc lập nhưng vẫn có thể tương tác với nhau thông qua API. Hệ thống cho phép người dùng tải lên dữ liệu, thực hiện các thao tác làm sạch và phân tích dữ liệu một cách dễ dàng. Bên cạnh đó, OpenK cũng cung cấp các công cụ để người dùng có thể theo dõi và đánh giá hiệu suất của hệ thống trong việc phát hiện bất thường.

III. Đánh giá hệ thống

Đánh giá hiệu suất của hệ thống OpenK được thực hiện thông qua các thử nghiệm với các tập dữ liệu lớn như dữ liệu hàng không và dữ liệu bất động sản. Các chỉ số đánh giá bao gồm thời gian tải, tỷ lệ lỗi và thời gian chạy. Kết quả cho thấy rằng OpenK có khả năng phát hiện bất thường trong dữ liệu một cách hiệu quả và nhanh chóng hơn so với một số công cụ làm sạch dữ liệu hiện có như OpenRefine. Hệ thống cũng cho phép người dùng thực hiện các thao tác CRUD (Create, Read, Update, Delete) trên dữ liệu một cách dễ dàng, từ đó nâng cao trải nghiệm người dùng.

3.1. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy rằng OpenK có thể xử lý các tập dữ liệu lớn một cách hiệu quả. Thời gian xử lý và phát hiện bất thường trong dữ liệu được giảm thiểu đáng kể so với các công cụ khác. Hệ thống cũng cho phép người dùng dễ dàng điều chỉnh các tham số để tối ưu hóa quá trình phát hiện. Điều này chứng tỏ rằng OpenK không chỉ là một công cụ làm sạch dữ liệu mà còn là một giải pháp toàn diện cho việc quản lý và phân tích dữ liệu lớn.

09/01/2025
Luận văn tốt nghiệp hệ thống thong tin openk data cleansing system a clustering based approach for detecting data anomalies
Bạn đang xem trước tài liệu : Luận văn tốt nghiệp hệ thống thong tin openk data cleansing system a clustering based approach for detecting data anomalies

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài viết "Luận văn tốt nghiệp: Hệ thống làm sạch dữ liệu OpenK với phương pháp phân cụm để phát hiện bất thường" của tác giả Nguyễn Đình Khương, dưới sự hướng dẫn của Tiến sĩ Đặng Trần Khánh, trình bày về một hệ thống tiên tiến giúp làm sạch dữ liệu thông qua phương pháp phân cụm nhằm phát hiện các bất thường trong dữ liệu. Nghiên cứu này không chỉ mang lại cái nhìn sâu sắc về việc tối ưu hóa quy trình làm sạch dữ liệu mà còn cung cấp các giải pháp thực tiễn cho các vấn đề liên quan đến dữ liệu trong lĩnh vực Công nghệ thông tin. Bài luận văn này được thực hiện tại Trường Đại học Bách Khoa TP.HCM vào năm 2021, mở ra hướng đi mới cho việc phát hiện và xử lý dữ liệu bất thường.

Để mở rộng thêm kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo các tài liệu sau: Giao Thức Xác Thực Cho Thiết Bị IoT Qua Bluetooth Low Energy, trong đó cũng đề cập đến các phương pháp tối ưu hóa trong lĩnh vực Công nghệ thông tin; hay Ứng dụng Table Union trong Xử lý Dữ liệu JSON của Open Data, giúp bạn hiểu thêm về việc xử lý dữ liệu trong các ứng dụng hiện đại; và cuối cùng là Quản Lý Ngữ Nghĩa Dữ Liệu Mở Liên Kết Sử Dụng Blockchain, một nghiên cứu thú vị về cách quản lý và xử lý dữ liệu trong môi trường mở. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các phương pháp và công nghệ hiện đại trong lĩnh vực dữ liệu.