## Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu thu thập được ngày càng lớn và đa dạng, việc khai thác thông tin có giá trị từ các bộ dữ liệu trở thành thách thức lớn. Theo ước tính, nhiều bộ dữ liệu thực tế tồn tại hiện tượng mất cân bằng, tức là sự chênh lệch lớn về số lượng giữa các lớp dữ liệu, trong đó lớp đa số có thể gấp 10 đến hàng trăm lần lớp thiểu số. Vấn đề này ảnh hưởng nghiêm trọng đến hiệu quả của các mô hình phân lớp truyền thống, đặc biệt trong các lĩnh vực như y học (chẩn đoán bệnh), tài chính (phát hiện gian lận), và an ninh mạng (phát hiện xâm nhập). Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá hiệu quả thuật toán DEC-SVM – một phương pháp kết hợp kỹ thuật điều chỉnh dữ liệu và phân cụm nhằm nâng cao hiệu quả phân lớp dữ liệu mất cân bằng. Nghiên cứu được thực hiện trên các bộ dữ liệu thực nghiệm lấy từ kho dữ liệu UCI, trong đó tỷ lệ mất cân bằng có thể lên đến 1:194 (bộ dữ liệu page-blocks). Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện các chỉ số đánh giá mô hình như AUC, G-mean và F-measure, góp phần nâng cao độ chính xác và độ tin cậy của các hệ thống phân lớp trong thực tế.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Khai phá dữ liệu (Data Mining)**: Quá trình tìm kiếm các mẫu, mô hình có ý nghĩa trong dữ liệu lớn, hỗ trợ ra quyết định.
- **Phân lớp dữ liệu (Classification)**: Kỹ thuật xây dựng mô hình dựa trên dữ liệu huấn luyện có nhãn để dự đoán nhãn cho dữ liệu mới.
- **Phân cụm dữ liệu (Clustering)**: Phân nhóm các đối tượng dữ liệu sao cho các đối tượng trong cùng nhóm có sự tương đồng cao.
- **Thuật toán SVM (Support Vector Machine)**: Phương pháp phân lớp nhị phân tìm siêu phẳng tối ưu phân cách hai lớp với lề cực đại.
- **Thuật toán DEC (Differential Evolution Clustering)**: Kỹ thuật điều chỉnh dữ liệu mất cân bằng bằng cách sinh thêm mẫu nhân tạo kết hợp phân cụm để loại bỏ nhiễu.

Các khái niệm chính bao gồm: lớp đa số, lớp thiểu số, mất cân bằng dữ liệu, kỹ thuật over-sampling, kỹ thuật under-sampling, ma trận nhầm lẫn, các chỉ số đánh giá mô hình (AUC, G-mean, F-measure).

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Sử dụng 4 bộ dữ liệu thực nghiệm từ kho dữ liệu UCI gồm Breast-w, Glass, Heart, Pima với số lượng mẫu lớp thiểu số dao động từ 9 đến 268 và lớp đa số từ 150 đến 500.
- **Phương pháp phân tích**: Áp dụng thuật toán DEC-SVM, kết hợp kỹ thuật sinh mẫu nhân tạo bằng Differential Evolution và làm sạch dữ liệu bằng phân cụm K-means, sau đó sử dụng SVM để phân lớp.
- **Thiết lập thực nghiệm**: Sử dụng phương pháp 10-Fold Cross Validation lặp lại 10 lần để đánh giá độ ổn định và chính xác của mô hình.
- **Cỡ mẫu và chọn mẫu**: Toàn bộ dữ liệu trong các bộ dữ liệu được sử dụng, không loại trừ mẫu, nhằm đảm bảo tính toàn diện.
- **Lý do lựa chọn phương pháp**: DEC-SVM được chọn vì khả năng xử lý hiệu quả dữ liệu mất cân bằng, giảm thiểu mẫu nhiễu và tăng độ chính xác phân lớp so với các phương pháp truyền thống như SMOTE-SVM hay DE-SVM.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Thuật toán DEC-SVM cải thiện đáng kể hiệu quả phân lớp so với DE-SVM và SMOTE-SVM trên các bộ dữ liệu mất cân bằng.
- Trên bộ dữ liệu Glass với tỷ lệ mất cân bằng 1:22,78, DEC-SVM đạt giá trị AUC khoảng 0.7, tăng 15% so với DE-SVM.
- Bộ dữ liệu Pima (tỷ lệ mất cân bằng 1:1,86) cho thấy G-mean của DEC-SVM đạt 0.75, cao hơn 10% so với các thuật toán so sánh.
- F-measure trên bộ dữ liệu Heart đạt 0.72 với DEC-SVM, thể hiện khả năng cân bằng giữa precision và recall tốt hơn.
- Riêng bộ dữ liệu Breast-w, DE-SVM có hiệu quả hơi nhỉnh hơn DEC-SVM, cho thấy tính đặc thù của từng bộ dữ liệu ảnh hưởng đến hiệu quả thuật toán.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do DEC-SVM kết hợp kỹ thuật sinh mẫu nhân tạo dựa trên Differential Evolution giúp tăng số lượng mẫu lớp thiểu số, đồng thời sử dụng phân cụm để loại bỏ các mẫu dư thừa và nhiễu, từ đó nâng cao chất lượng dữ liệu đầu vào cho SVM. So với SMOTE, phương pháp này tạo ra mẫu nhân tạo đa dạng hơn và giảm thiểu sự trùng lặp. Kết quả phù hợp với các nghiên cứu trước đây về lợi ích của việc kết hợp over-sampling và làm sạch dữ liệu. Biểu đồ so sánh hiệu quả phân lớp (AUC, G-mean, F-measure) minh họa rõ sự vượt trội của DEC-SVM trên hầu hết các bộ dữ liệu. Tuy nhiên, sự khác biệt hiệu quả trên bộ Breast-w cho thấy cần tiếp tục nghiên cứu điều chỉnh tham số thuật toán phù hợp với đặc điểm từng bộ dữ liệu.

## Đề xuất và khuyến nghị

- **Áp dụng thuật toán DEC-SVM trong các hệ thống phân lớp dữ liệu mất cân bằng** nhằm nâng cao độ chính xác phát hiện lớp thiểu số, đặc biệt trong y tế và tài chính, trong vòng 6-12 tháng tới.
- **Phát triển công cụ hỗ trợ tự động điều chỉnh tham số thuật toán** dựa trên đặc điểm bộ dữ liệu để tối ưu hiệu quả phân lớp, thực hiện trong 1 năm, do các nhóm nghiên cứu công nghệ thông tin đảm nhiệm.
- **Kết hợp tiền xử lý dữ liệu nâng cao** như chuẩn hóa, loại bỏ thuộc tính dư thừa trước khi áp dụng DEC-SVM để tăng hiệu quả, triển khai song song với nghiên cứu thuật toán.
- **Đào tạo và nâng cao nhận thức cho các nhà phân tích dữ liệu** về các kỹ thuật xử lý dữ liệu mất cân bằng và ứng dụng DEC-SVM, tổ chức các khóa học trong 6 tháng tới.
- **Mở rộng thử nghiệm trên các bộ dữ liệu thực tế đa dạng hơn** với tỷ lệ mất cân bằng khác nhau để hoàn thiện thuật toán, dự kiến thực hiện trong 2 năm tiếp theo.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu**: Nắm bắt kiến thức về xử lý dữ liệu mất cân bằng và thuật toán DEC-SVM để phát triển nghiên cứu sâu hơn.
- **Chuyên gia phân tích dữ liệu trong lĩnh vực y tế, tài chính, viễn thông**: Áp dụng phương pháp nâng cao hiệu quả phân lớp trong các bài toán thực tế như chẩn đoán bệnh, phát hiện gian lận.
- **Nhà phát triển phần mềm và kỹ sư dữ liệu**: Tích hợp thuật toán DEC-SVM vào các hệ thống phân tích dữ liệu lớn nhằm cải thiện chất lượng dự báo và phân loại.
- **Quản lý dự án và nhà hoạch định chính sách trong lĩnh vực công nghệ thông tin**: Hiểu rõ tầm quan trọng của xử lý dữ liệu mất cân bằng để đầu tư và định hướng phát triển công nghệ phù hợp.

## Câu hỏi thường gặp

1. **DEC-SVM là gì và ưu điểm chính của nó?**  
DEC-SVM là thuật toán kết hợp kỹ thuật sinh mẫu nhân tạo bằng Differential Evolution và phân cụm để làm sạch dữ liệu, giúp cải thiện hiệu quả phân lớp dữ liệu mất cân bằng. Ưu điểm là giảm nhiễu và tăng độ chính xác phân lớp.

2. **Tại sao dữ liệu mất cân bằng lại gây khó khăn cho phân lớp?**  
Dữ liệu mất cân bằng khiến mô hình phân lớp thiên về lớp đa số, dẫn đến việc bỏ sót hoặc phân loại sai các mẫu thuộc lớp thiểu số, gây hậu quả nghiêm trọng trong nhiều ứng dụng thực tế.

3. **Phương pháp đánh giá hiệu quả phân lớp nào được sử dụng?**  
Các chỉ số chính gồm AUC (diện tích dưới đường cong ROC), G-mean (cân bằng giữa độ chính xác của hai lớp), và F-measure (cân bằng giữa precision và recall), giúp đánh giá toàn diện hiệu quả mô hình.

4. **DEC-SVM khác gì so với SMOTE-SVM?**  
Khác với SMOTE chỉ sinh mẫu nhân tạo dựa trên láng giềng gần nhất, DEC-SVM sử dụng kỹ thuật đột biến và lai ghép chéo mẫu nhân tạo kết hợp phân cụm để loại bỏ mẫu nhiễu, nâng cao chất lượng dữ liệu huấn luyện.

5. **Có thể áp dụng DEC-SVM cho các bộ dữ liệu lớn không?**  
Có thể, tuy nhiên cần tối ưu hóa thuật toán và sử dụng các kỹ thuật tiền xử lý để xử lý hiệu quả bộ dữ liệu lớn và đa dạng thuộc tính, đây là hướng phát triển tiếp theo của nghiên cứu.

## Kết luận

- Đã phát triển và đánh giá thành công thuật toán DEC-SVM cho bài toán phân lớp dữ liệu mất cân bằng.  
- Thuật toán kết hợp sinh mẫu nhân tạo và phân cụm làm sạch dữ liệu, nâng cao hiệu quả phân lớp so với các phương pháp truyền thống.  
- Thực nghiệm trên 4 bộ dữ liệu UCI với tỷ lệ mất cân bằng đa dạng cho thấy cải thiện rõ rệt về AUC, G-mean và F-measure.  
- Thuật toán phù hợp ứng dụng trong các lĩnh vực y tế, tài chính, viễn thông, nơi dữ liệu mất cân bằng phổ biến.  
- Hướng phát triển tiếp theo là mở rộng thử nghiệm trên bộ dữ liệu lớn, đa dạng và tối ưu tham số thuật toán để nâng cao hiệu quả hơn nữa.

**Khuyến nghị hành động:** Các nhà nghiên cứu và chuyên gia phân tích dữ liệu nên áp dụng và tiếp tục phát triển thuật toán DEC-SVM nhằm giải quyết hiệu quả các bài toán phân lớp dữ liệu mất cân bằng trong thực tế.