I. Tổng Quan Về Khám Phá Dữ Liệu Tại Đại Học Thái Nguyên
Khám phá dữ liệu (Data Mining) là lĩnh vực quan trọng của công nghệ thông tin. Lĩnh vực này thu hút sự quan tâm của nhiều nhà khoa học trên thế giới và trong nước. Khai phá dữ liệu ra đời từ cuối thập kỷ 80 của thế kỷ XX. Mục tiêu là tự động khai thác thông tin, tri thức mới hữu ích, tiềm ẩn từ các cơ sở dữ liệu lớn. Các vấn đề được quan tâm trong khai phá dữ liệu bao gồm phân lớp, nhận dạng mẫu, luật kết hợp và phân cụm dữ liệu. Trong đó, phân cụm dữ liệu (Data Clustering) là một trong những kỹ thuật khai thác dữ liệu hiệu quả.
1.1. Giới Thiệu Chung Về Data Mining Đại Học Thái Nguyên
Data Mining Đại học Thái Nguyên là quá trình tìm kiếm tri thức mới từ cơ sở dữ liệu. Quá trình này bao gồm làm sạch dữ liệu, tích hợp dữ liệu, trích chọn dữ liệu, chuyển đổi dữ liệu, khai phá dữ liệu, đánh giá mẫu và biểu diễn tri thức. Giai đoạn khai phá dữ liệu là quan trọng nhất. Nhiều phương pháp và thuật toán mới liên tục được công bố, chứng tỏ ưu thế và ứng dụng thực tế của khai phá dữ liệu.
1.2. Các Bước Cơ Bản Trong Quy Trình Khai Phá Dữ Liệu
Quá trình khai phá dữ liệu bao gồm xác định nhiệm vụ, xác định dữ liệu liên quan, thu thập và tiền xử lý dữ liệu, giải thuật khai phá dữ liệu. Sau đó là lựa chọn thuật toán và thực hiện khai phá dữ liệu để tìm các mẫu có ý nghĩa. Bản chất của khai phá dữ liệu là tìm thông tin mới, tiềm ẩn trong cơ sở dữ liệu, phục vụ mô tả và dự đoán.
II. Thách Thức và Vấn Đề Trong Khai Phá Dữ Liệu Hiện Nay
Khai phá dữ liệu đang nỗ lực thăm dò các lĩnh vực ứng dụng mới, cải tiến phương pháp mở rộng, tương tác, tích hợp khai thác dữ liệu với dịch vụ web, cơ sở dữ liệu, kho dữ liệu, điện toán đám mây và khai thác mạng xã hội. Các xu hướng khác bao gồm khai thác dữ liệu thời gian và không gian, dữ liệu sinh học, hệ thống dữ liệu kỹ thuật, dữ liệu đa phương tiện và khai phá dữ liệu văn bản, khai phá web, dữ liệu phân tán, dữ liệu thời gian thực, dòng dữ liệu, khai thác dữ liệu hình ảnh, âm thanh và vấn đề an ninh trong khai thác dữ liệu.
2.1. Khó Khăn Khi Xử Lý Dữ Liệu Lớn và Đa Chiều
Các cơ sở dữ liệu lớn với hàng trăm trường, hàng triệu bản ghi và kích thước lên tới nhiều Gigabyte (GB) hoặc Terabyte (TB) là một thách thức. Số lượng trường lớn làm tăng số chiều của bài toán. Dữ liệu không gian có số chiều cao có thể rất thưa và bị lệch nhiều. Điều này đòi hỏi các phương pháp xử lý dữ liệu hiệu quả hơn.
2.2. Vấn Đề Dữ Liệu Thiếu và Nhiễu Ảnh Hưởng Đến Kết Quả
Dữ liệu thiếu và nhiễu là một vấn đề lớn. Mối quan hệ phức tạp giữa các trường (dữ liệu hỗn hợp) cũng gây khó khăn. Tính dễ hiểu của các mẫu cũng là một yếu tố quan trọng. Cần có các phương pháp làm sạch và tiền xử lý dữ liệu hiệu quả để giảm thiểu ảnh hưởng của dữ liệu nhiễu và thiếu.
2.3. Sự Thay Đổi Nhanh Chóng Của Dữ Liệu và Tính Hợp Lệ
Dữ liệu thay đổi nhanh chóng có thể làm cho các mẫu phát hiện trước đó không hợp lệ. Các biến đã đo trong một cơ sở dữ liệu ứng dụng có thể bị sửa đổi, xóa bỏ hoặc tăng thêm các phép đo mới. Điều này đòi hỏi các phương pháp khai phá dữ liệu thích ứng và linh hoạt hơn.
III. Kỹ Thuật Phân Cụm Dữ Liệu Trong Khai Phá Dữ Liệu ĐHTN
Phân cụm dữ liệu là quá trình nhóm các đối tượng tương tự nhau vào các cụm. Các đối tượng trong cùng một cụm tương đồng, còn các đối tượng thuộc các cụm khác nhau thì không tương đồng. Mục đích chính là khám phá cấu trúc của mẫu dữ liệu để thành lập các nhóm dữ liệu từ tập dữ liệu lớn. Nó cho phép phân tích sâu và nghiên cứu từng cụm dữ liệu để khám phá thông tin tiềm ẩn, hữu ích phục vụ ra quyết định. Phân cụm dữ liệu được sử dụng rộng rãi trong nhiều lĩnh vực như nhận dạng ảnh, nghiên cứu thị trường, phân cụm gen trong sinh học.
3.1. Tổng Quan Về Phân Cụm Dữ Liệu và Ứng Dụng
Phân cụm dữ liệu là kỹ thuật tìm kiếm các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn. Nó cung cấp thông tin, tri thức cho việc ra quyết định. Phân cụm dữ liệu có thể được sử dụng như một bước tiền xử lý cho các thuật khai phá dữ liệu khác như phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện ra các cụm.
3.2. Các Vấn Đề Cần Giải Quyết Trong Phân Cụm Dữ Liệu
Các vấn đề cần giải quyết bao gồm biểu diễn dữ liệu, xây dựng hàm tính độ tương tự, xây dựng các tiêu chuẩn phân cụm, xây dựng mô hình cho cấu trúc cụm dữ liệu, xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo. Cần xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm. Đến nay chưa có phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu.
3.3. Xử Lý Dữ Liệu Nhiễu Trong Phân Cụm Dữ Liệu
Hầu hết dữ liệu cần cho phân cụm đều chứa dữ liệu "nhiễu" do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ. Vì vậy, cần xây dựng các chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ ''nhiễu'' trước khi bước vào giai đoạn phân tích phân cụm dữ liệu. Một trong các kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị của các thuộc tính của đối tượng "nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất.
IV. Ứng Dụng Phân Tích Dữ Liệu Lương Cán Bộ Tại ĐHTN
Việc áp dụng phân cụm dữ liệu để phân tích trong ngành kế toán hiện nay là rất cần thiết. Lượng dữ liệu lưu trữ lương khá lớn, việc phân tích đánh giá lương để đưa ra các chiến lược cân đối nguồn chi phí của đơn vị, dự báo quỹ lương và có kế hoạch cân đối tài chính cho phù hợp cũng gặp nhiều khó khăn. Ngoài ra việc phân tích lương còn phục vụ công tác quản lý nhân sự, giúp nắm được tình hình sử dụng con người của đơn vị từ đó đưa ra các chính sách tuyển dụng phù hợp, có các giải pháp tạo động lực cho người lao động bằng các chính sách tài chính.
4.1. Phân Loại Giá Trị Lương Cán Bộ Theo Các Cụm
Việc phân cụm dữ liệu để phân tích lương cho kết quả thu được sẽ phân loại theo giá trị lương của mỗi cán bộ. Phân loại ra các mức thu nhập cao thấp khác nhau từ đó đưa ra các chính sách cân đối thu chi để có những chính sách ưu đãi phù hợp mà vẫn đảm bảo tài chính của đơn vị.
4.2. Hỗ Trợ Ra Quyết Định và Quản Lý Nhân Sự
Phân tích dữ liệu lương giúp đơn vị nắm bắt tình hình sử dụng nguồn nhân lực. Từ đó, đơn vị có thể đưa ra các chính sách tuyển dụng phù hợp và tạo động lực cho người lao động thông qua các chính sách tài chính. Điều này góp phần vào việc quản lý nhân sự hiệu quả hơn.
4.3. Cân Đối Thu Chi và Đảm Bảo Tài Chính Đơn Vị
Phân tích dữ liệu lương giúp phân loại các mức thu nhập khác nhau của cán bộ. Từ đó, đơn vị có thể đưa ra các chính sách cân đối thu chi và có những chính sách ưu đãi phù hợp, đồng thời vẫn đảm bảo tài chính của đơn vị.