I. Tổng Quan Về Kỹ Thuật Khai Phá Dữ Liệu Trong Hệ Thống
Cuối thập kỷ 80 của thế kỷ 20, sự phát triển rộng khắp của các cơ sở dữ liệu đã tạo ra sự bùng nổ thông tin trên toàn cầu. Người ta bắt đầu đề cập đến khái niệm khủng hoảng trong việc phân tích dữ liệu. Các doanh nghiệp cung cấp thông tin với yêu cầu chất lượng ngày càng cao cho người làm quyết định trong các tổ chức chính phủ, tài chính, thương mại, khoa học. Đúng như John Naisbitt đã cảnh báo: “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Lượng dữ liệu khổng lồ này thực sự là một nguồn tài nguyên có nhiều giá trị. Thông tin là yếu tố then chốt phục vụ cho mọi hoạt động quản lý, kinh doanh, phát triển sản xuất và dịch vụ. Nó giúp người điều hành và quản lý có những hiểu biết về môi trường và tiến trình hoạt động của tổ chức mình trước khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt được các mục tiêu một cách hiệu quả và bền vững. Khai phá dữ liệu (KPDL) là một lĩnh vực mới được nghiên cứu, nhằm tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ những cơ sở dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp. Từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh của các đơn vị, tổ chức này.
1.1. Khai Phá Dữ Liệu và Phát Hiện Tri Thức KDD
Khai phá dữ liệu (KPDL) là một quá trình tìm kiếm, phát hiện các tri thức mới, hữu ích, tiềm ẩn trong cơ sở dữ liệu lớn. KDD (Knowledge Discovery in Databases) là mục tiêu chính của KPDL, do vậy hai khái niệm KPDL và KDD được các nhà khoa học trên hai lĩnh vực xem là tương đương với nhau. Thế nhưng nếu phân chia một cách chi tiết thì KPDL là một bước chính trong quá trình KDD. Quá trình KDD có thể chia thành 5 bước như sau: Trích chọn dữ liệu, Tiền xử lý dữ liệu, Biến đổi dữ liệu, Khai phá dữ liệu, Đánh giá và biểu diễn tri thức. Theo Nguyễn Đông Huy, quá trình KPDL có thể phân thành các giai đoạn sau: Trích chọn dữ liệu, Tiền xử lý dữ liệu, Biến đổi dữ liệu, Khai phá dữ liệu, Đánh giá và biểu diễn tri thức.
1.2. Các Lĩnh Vực Liên Quan Đến Khai Phá Dữ Liệu
Khai phá dữ liệu là một lĩnh vực liên quan tới thống kê, học máy, cơ sở dữ liệu, thuật toán, tính toán song song, thu nhận tri thức từ hệ chuyên gia và dữ liệu trừu tượng. Đặc trưng của hệ thống khám phá tri thức là nhờ vào các phương pháp, thuật toán và kỹ thuật từ những lĩnh vực khác nhau để KPDL. Lĩnh vực học máy và nhận dạng mẫu trong KDD nghiên cứu các lý thuyết và thuật toán của hệ thống để trích ra các mẫu và mô hình từ dữ liệu lớn. KDD tập trung vào việc mở rộng các lý thuyết và thuật toán cho các vấn đề tìm ra các mẫu đặc biệt (hữu ích hoặc có thể rút ra tri thức quan trọng) trong cơ sở dữ liệu lớn. Ngoài ra, KDD có nhiều điểm chung với thống kê, đặc biệt là phân tích dữ liệu thăm dò (Exploratory Data Analysis - EDA). Hệ thống KDD thường gắn những thủ tục thống kê cho mô hình dữ liệu và tiến trình nhiễu trong khám phá tri thức nói chung.
II. Cách Ứng Dụng Kỹ Thuật Khai Phá Dữ Liệu Hiệu Quả Nhất
Khai phá dữ liệu là một lĩnh vực liên ngành, bao gồm: Tổ chức dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác. Sự kết hợp này có thể được diễn tả như sau: Đứng trên quan điểm của học máy, thì các kỹ thuật trong KPDL, bao gồm: Học có giám sát, Học không có giám sát, Học nửa giám sát. Nếu căn cứ vào lớp các bài toán cần giải quyết, thì KPDL bao gồm các kỹ thuật áp dụng sau: Phân lớp và dự báo, Luật kết hợp, Phân tích chuỗi theo thời gian, Phân cụm, Mô tả và tóm tắt khái niệm. Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu dữ liệu khác nhau. Sau đây là một số dạng dữ liệu điển hình: Dữ liệu quan hệ, dữ liệu đa chiều, dữ liệu dạng giao dịch, dữ liệu quan hệ- hướng đối tượng, dữ liệu không gian và thời gian, dữ liệu chuỗi thời gian, dữ liệu đa phương tiện, dữ liệu văn bản và Web.
2.1. Ứng Dụng Khai Phá Dữ Liệu Trong Thực Tế
Khai phá dữ liệu là một lĩnh vực được quan tâm và ứng dụng rộng rãi. Một số ứng dụng điển hình trong KPDL có thể liệt kê như sau: Phân tích dữ liệu và hỗ trợ ra quyết định, điều trị y học, khai phá văn bản, khai phá Web, tin-sinh học, tài chính và thị trường chứng khoán, bảo hiểm. Thương mại: Như phân tích dữ liệu bán hàng và thị trường, phân tích đầu tư, phát hiện gian lận, chứng thực khách hàng, dự báo xu hướng phát triển. Thông tin sản xuất: Điều khiển, lập kế hoạch, hệ thống quản lý, phân tích thử nghiệm. Thông tin khoa học: Dự báo thời tiết, bảo lụt, động đất, tin sinh học. Hiện nay các hệ quản trị cơ sở dữ liệu đã tích hợp những module để KPDL như SQL Server, Oracle, đến năm 2007 Microsoft đã cung cấp sẵn công cụ KPDL tích hợp cả trong MS-Word, MS-Excel.
2.2. Trực Quan Hóa Kết Quả Khai Phá Dữ Liệu
Trực quan hóa dữ liệu là một phần quan trọng của quá trình khai phá dữ liệu, giúp người dùng dễ dàng hiểu và diễn giải các kết quả phân tích. Các công cụ trực quan hóa dữ liệu cho phép biểu diễn thông tin dưới dạng đồ thị, biểu đồ, bản đồ nhiệt, và các hình thức trực quan khác, giúp nhận diện các mẫu, xu hướng, và mối quan hệ phức tạp trong dữ liệu. Việc sử dụng các công cụ trực quan hóa dữ liệu hiệu quả có thể cải thiện đáng kể quá trình ra quyết định và khám phá tri thức từ dữ liệu.
III. Kỹ Thuật Phân Cụm Dữ Liệu Trong Hệ Thống Thông Tin
Mục đích chính của phân cụm dữ liệu (PCDL) nhằm khám phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn. Nó cho phép người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu nhằm khám phá và tìm kiếm các thông tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết định. Ví dụ “nhóm các khách hàng trong cơ sở dữ liệu ngân hàng có vốn các đầu tư vào bất động sản cao”… Như vậy, PCDL là một phương pháp xử lý thông tin quan trọng và phổ biến. Nó nhằm khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm. Ta có thể khái quát hóa khái niệm PCDL: PCDL là một kỹ thuật trong khai phá dữ liệu, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên, tiềm ẩn, quan trọng trong tập dữ liệu lớn từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định.
3.1. Tổng Quan Về Kỹ Thuật Phân Cụm Dữ Liệu
Phân cụm dữ liệu (PCDL) là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" với nhau. Số các cụm dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định bởi phương pháp phân cụm. Độ tương tự được xác định dựa trên giá trị các thuộc tính mô tả đối tượng. Trong học máy, PCDL được xem là vấn đề học không có giám sát, vì nó phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chưa biết trước các thông tin về lớp hay các thông tin về tập huấn luyện. Trong nhiều trường hợp, nếu phân lớp được xem là vấn đề học có giám sát thì PCDL là một bước trong phân lớp dữ liệu, PCDL sẽ khởi tạo các lớp cho phân lớp bằng các xác định các nhãn cho các nhóm dữ liệu.
3.2. Ứng Dụng Của Phân Cụm Dữ Liệu Trong Thực Tiễn
Phân cụm dữ liệu (PCDL) là một trong những công cụ chính của khai phá dữ liệu, được ứng dụng trong nhiều lĩnh vực như thương mại và khoa học. Các kỹ thuật PCDL đã được áp dụng cho một số ứng dụng điển hình trong các lĩnh vực sau: Thương mại: PCDL có thể giúp các thương nhân khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu khách hàng. Sinh học: PCDL được sử dụng để xác định các loài sinh vật, phân loại các Gene với chức năng tương đồng và thu được các cấu trúc trong các mẫu. Phân tích dữ liệu không gian: Do sự đồ sộ của dữ liệu không gian như dữ liệu thu được từ các hình ảnh chụp từ vệ tinh, các thiết bị y học hoặc hệ thống thông tin địa lý (GIS),… làm cho người dùng rất khó để kiểm tra các dữ liệu không gian một cách chi tiết. PCDL có thể trợ giúp người dùng tự động phân tích và xử lý các dữ liệu không gian như nhận dạng và chiết xuất các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong cơ sở dữ liệu không gian.
IV. Yêu Cầu Kỹ Thuật Đối Với Phân Cụm Dữ Liệu Hiện Nay
Việc xây dựng, lựa chọn một thuật toán phân cụm là bước then chốt cho việc giải quyết vấn đề phân cụm. Sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các cụm hay tốc độ thực hiện thuật toán. Hầu hết các nghiên cứu và phát triển thuật toán PCDL đều nhằm thỏa mãn các yêu cầu cơ bản sau: Có khả năng mở rộng, Thích nghi với các kiểu dữ liệu khác nhau, Khám phá ra các cụm với hình thù bất kỳ, Tối thiểu lượng tri thức cần cho xác định các tham số vào, Ít nhạy cảm với thứ tự của dữ liệu vào, Khả năng thích nghi với dữ liệu nhiễu cao, Ít nhạy cảm với các tham số đầu vào, Thích nghi với dữ liệu đa chiều, Dễ hiểu, dễ cài đặt và khả thi. Các yêu cầu này đồng thời là các tiêu chí để đánh giá hiệu quả của các phương pháp PCDL. Đây là những thách thức cho các nhà nghiên cứu trong lĩnh vực PCDL.
4.1. Các Tiêu Chí Đánh Giá Thuật Toán Phân Cụm
Để đánh giá một thuật toán phân cụm, cần xem xét các tiêu chí sau: Khả năng mở rộng: Thuật toán có thể xử lý hiệu quả các tập dữ liệu lớn không? Thích nghi với các kiểu dữ liệu khác nhau: Thuật toán có thể xử lý dữ liệu số, dữ liệu phân loại, và dữ liệu hỗn hợp không? Khám phá ra các cụm với hình thù bất kỳ: Thuật toán có thể tìm ra các cụm có hình dạng phức tạp không? Tối thiểu lượng tri thức cần cho xác định các tham số vào: Thuật toán có yêu cầu nhiều tham số đầu vào không? Ít nhạy cảm với thứ tự của dữ liệu vào: Kết quả phân cụm có thay đổi khi thứ tự dữ liệu thay đổi không? Khả năng thích nghi với dữ liệu nhiễu cao: Thuật toán có thể xử lý dữ liệu chứa nhiều nhiễu không? Ít nhạy cảm với các tham số đầu vào: Kết quả phân cụm có thay đổi nhiều khi các tham số đầu vào thay đổi không? Thích nghi với dữ liệu đa chiều: Thuật toán có thể xử lý dữ liệu có nhiều thuộc tính không? Dễ hiểu, dễ cài đặt và khả thi: Thuật toán có dễ hiểu và dễ triển khai không?
4.2. Thách Thức Trong Phân Cụm Dữ Liệu
Phân cụm dữ liệu đối mặt với nhiều thách thức, bao gồm: Xử lý dữ liệu lớn: Các thuật toán phân cụm cần phải hiệu quả và có khả năng mở rộng để xử lý các tập dữ liệu lớn. Xử lý dữ liệu nhiễu: Dữ liệu thực tế thường chứa nhiều nhiễu, và các thuật toán phân cụm cần phải có khả năng loại bỏ hoặc giảm thiểu ảnh hưởng của nhiễu. Xác định số lượng cụm tối ưu: Việc xác định số lượng cụm phù hợp là một vấn đề khó khăn, và các thuật toán cần phải có khả năng tự động xác định số lượng cụm. Xử lý dữ liệu đa dạng: Các thuật toán phân cụm cần phải có khả năng xử lý các loại dữ liệu khác nhau, bao gồm dữ liệu số, dữ liệu phân loại, và dữ liệu hỗn hợp. Giải thích kết quả phân cụm: Kết quả phân cụm cần phải dễ hiểu và có ý nghĩa đối với người dùng.