Tổng quan nghiên cứu

Trong bối cảnh cách mạng công nghiệp 4.0 và sự bùng nổ của dữ liệu số, hệ thống dữ liệu lớn (Big Data) đã trở thành một lĩnh vực nghiên cứu trọng điểm với sự phát triển nhanh chóng về khối lượng, tốc độ và đa dạng dữ liệu. Theo ước tính, các hệ thống Big Data hiện nay xử lý dữ liệu từ vài terabyte đến hàng petabyte, đòi hỏi các phương pháp phân tích và khai phá dữ liệu tiên tiến để chuyển đổi lượng dữ liệu khổng lồ thành tri thức có giá trị. Một trong những thách thức lớn là phân tích dữ liệu trên bảng quyết định trong hệ thống dữ liệu lớn, đặc biệt là việc rút gọn thuộc tính nhằm giảm thiểu độ phức tạp tính toán mà vẫn bảo toàn thông tin phân lớp.

Luận văn tập trung nghiên cứu một số phương pháp phân tích dữ liệu trên bảng quyết định trong hệ thống dữ liệu lớn, dựa trên lý thuyết tập thô – một công cụ hiệu quả để xử lý dữ liệu mơ hồ và không chắc chắn. Mục tiêu cụ thể là tìm hiểu các thuật toán rút gọn thuộc tính trên bảng quyết định nhất quán, xây dựng phần mềm thử nghiệm và đánh giá hiệu quả các thuật toán này. Phạm vi nghiên cứu tập trung vào các nền tảng Big Data, các thuật toán rút gọn thuộc tính và ứng dụng trong khai phá dữ liệu lớn tại Việt Nam trong giai đoạn 2018-2019.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả xử lý dữ liệu lớn, giảm thiểu chi phí tính toán và tăng tốc độ phân tích, từ đó hỗ trợ các tổ chức, doanh nghiệp trong việc khai thác tri thức từ dữ liệu phức tạp và đa dạng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên lý thuyết tập thô do Z. Pawlak đề xuất, là công cụ hữu hiệu để xử lý dữ liệu không chắc chắn và mơ hồ. Lý thuyết này sử dụng hệ thông tin IS = (U, A, V, f), trong đó U là tập đối tượng, A là tập thuộc tính, V là tập giá trị thuộc tính, và f là hàm ánh xạ giá trị thuộc tính cho từng đối tượng. Trên cơ sở đó, các khái niệm chính bao gồm:

  • Quan hệ không phân biệt (IND(P)): Xác định các đối tượng không thể phân biệt dựa trên tập thuộc tính P.
  • Phân hoạch U/P: Tập các lớp tương đương của U theo quan hệ IND(P).
  • Xấp xỉ dưới và xấp xỉ trên (BX, BX): Biểu diễn tập đối tượng X thông qua các lớp tương đương, trong đó xấp xỉ dưới gồm các đối tượng chắc chắn thuộc X, xấp xỉ trên gồm các đối tượng có thể thuộc X.
  • Bảng quyết định (DS = (U, C ∪ D, V, f)): Hệ thông tin với tập thuộc tính điều kiện C và tập thuộc tính quyết định D, dùng để phân lớp dữ liệu.
  • Tập rút gọn (Reduct): Tập con nhỏ nhất của thuộc tính điều kiện bảo toàn thông tin phân lớp của bảng quyết định.
  • Thuật toán rút gọn thuộc tính: Các thuật toán heuristic nhằm tìm tập rút gọn tốt nhất theo tiêu chuẩn đánh giá chất lượng phân lớp.

Ngoài ra, luận văn còn áp dụng các mô hình và thuật toán liên quan đến tập tối thiểu của thuộc tính trong cơ sở dữ liệu quan hệ để giải quyết bài toán rút gọn thuộc tính.

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu tổng hợp và thực nghiệm:

  • Nguồn dữ liệu: Thu thập và tổng hợp các tài liệu, bài báo khoa học quốc tế và trong nước liên quan đến Big Data, lý thuyết tập thô, bảng quyết định và các thuật toán rút gọn thuộc tính.
  • Phương pháp phân tích: Phân tích lý thuyết tập thô, xây dựng và đánh giá các thuật toán rút gọn thuộc tính trên bảng quyết định nhất quán. Sử dụng các thuật toán đa thức để xác định tập rút gọn, tập lõi và tập dư thừa.
  • Timeline nghiên cứu: Nghiên cứu diễn ra trong giai đoạn 2018-2019, bao gồm các bước thu thập tài liệu, phân tích lý thuyết, thiết kế và xây dựng phần mềm thử nghiệm, đánh giá kết quả và hoàn thiện luận văn.

Cỡ mẫu nghiên cứu là các bộ dữ liệu thực tế và giả lập như bộ dữ liệu Flu, Example1, Example, được sử dụng để kiểm thử các thuật toán. Phương pháp chọn mẫu dựa trên tính đại diện và tính nhất quán của bảng quyết định.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả của thuật toán tìm tất cả các thuộc tính rút gọn: Thuật toán được xây dựng có độ phức tạp đa thức O(m^4 n) với m là số đối tượng và n là số thuộc tính, cho phép xác định tập tất cả các thuộc tính rút gọn trong bảng quyết định nhất quán. Ví dụ, với bảng quyết định về bệnh cúm gồm 6 đối tượng và 4 thuộc tính, thuật toán xác định chính xác tập lõi và các tập rút gọn với thời gian xử lý hợp lý.

  2. Thuật toán tìm một tập rút gọn tối ưu: Thuật toán heuristic cho phép tìm một tập rút gọn tốt nhất theo tiêu chuẩn phân lớp với độ phức tạp đa thức, giúp giảm đáng kể khối lượng tính toán so với việc tìm toàn bộ họ tập rút gọn. Ví dụ, trên bộ dữ liệu gồm 5 đối tượng và 3 thuộc tính, thuật toán tìm được tập rút gọn {b, c} bảo toàn thông tin phân lớp.

  3. Khả năng xác định thuộc tính dư thừa và lõi: Thuật toán xác định thuộc tính lõi (cần thiết) và thuộc tính dư thừa (không cần thiết) hiệu quả, giúp loại bỏ các thuộc tính không ảnh hưởng đến phân lớp. Trong bảng quyết định về bệnh cúm, thuộc tính "Thân nhiệt" được xác định là thuộc tính lõi duy nhất, trong khi "Mệt mỏi" là thuộc tính dư thừa.

  4. Họ tất cả các tập rút gọn có độ phức tạp hàm mũ: Việc tìm toàn bộ họ tập rút gọn Pawlak có độ phức tạp tính toán hàm mũ theo số thuộc tính, do đó không khả thi với bảng quyết định kích thước lớn. Tuy nhiên, việc áp dụng các thuật toán heuristic và đa thức giúp giải quyết hiệu quả các bài toán thực tế với kích thước vừa và nhỏ.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy các thuật toán dựa trên lý thuyết tập thô và tập tối thiểu của thuộc tính trong cơ sở dữ liệu quan hệ có thể áp dụng hiệu quả cho phân tích bảng quyết định trong hệ thống dữ liệu lớn. Việc xác định tập rút gọn giúp giảm thiểu số lượng thuộc tính cần xử lý, từ đó giảm chi phí tính toán và tăng tốc độ phân tích dữ liệu.

So sánh với các nghiên cứu khác, luận văn đã phát triển các thuật toán có độ phức tạp đa thức, phù hợp với yêu cầu xử lý dữ liệu lớn, đồng thời xây dựng phần mềm thử nghiệm minh họa tính khả thi. Các biểu đồ và bảng số liệu minh họa kết quả cho thấy sự khác biệt rõ rệt về thời gian xử lý và độ chính xác giữa các thuật toán.

Ý nghĩa của nghiên cứu nằm ở việc cung cấp các công cụ phân tích dữ liệu trên bảng quyết định phù hợp với hệ thống Big Data, hỗ trợ các nhà khoa học dữ liệu và kỹ sư trong việc khai thác tri thức từ dữ liệu phức tạp, đa dạng và khối lượng lớn.

Đề xuất và khuyến nghị

  1. Phát triển các thuật toán rút gọn thuộc tính đa luồng: Áp dụng kỹ thuật tính toán song song và phân tán để tăng tốc độ xử lý bảng quyết định kích thước lớn, hướng tới xử lý thời gian thực trong hệ thống Big Data. Chủ thể thực hiện: các nhà phát triển phần mềm và nhóm nghiên cứu CNTT, thời gian 12-18 tháng.

  2. Tích hợp các thuật toán rút gọn vào nền tảng khai phá dữ liệu lớn: Kết hợp các thuật toán với các framework Big Data phổ biến như Hadoop, Spark để tận dụng khả năng lưu trữ và tính toán phân tán, nâng cao hiệu quả phân tích. Chủ thể thực hiện: doanh nghiệp công nghệ và viện nghiên cứu, thời gian 6-12 tháng.

  3. Nâng cao khả năng xử lý dữ liệu phi cấu trúc và không đầy đủ: Mở rộng nghiên cứu để xử lý bảng quyết định không đầy đủ, dữ liệu phi cấu trúc trong Big Data, nhằm tăng tính ứng dụng trong thực tế. Chủ thể thực hiện: nhóm nghiên cứu học thuật, thời gian 12 tháng.

  4. Đào tạo và phổ biến kiến thức về lý thuyết tập thô và phân tích bảng quyết định: Tổ chức các khóa đào tạo, hội thảo cho các nhà khoa học dữ liệu, kỹ sư phân tích nhằm nâng cao năng lực ứng dụng các phương pháp này trong doanh nghiệp và tổ chức. Chủ thể thực hiện: các trường đại học, trung tâm đào tạo, thời gian liên tục.

Đối tượng nên tham khảo luận văn

  1. **Nhà khoa học dữ liệu và kỹ