Cải tiến Thuật Toán Phân Lớp cho Dữ Liệu Không Cân Bằng

I. Tổng Quan Cải Tiến Thuật Toán Phân Lớp Cho Bài Toán

Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN) đóng vai trò quan trọng trong việc thúc đẩy hợp tác giữa các nhà nghiên cứu. Mạng đồng tác giả, một phần của ASN, mô tả mối quan hệ hợp tác thông qua các bài báo khoa học. Các bài báo này trình bày kết quả nghiên cứu và được công bố trên các tạp chí khoa học thuộc nhiều lĩnh vực. Việc nghiên cứu các bài toán trong mạng đồng tác giả có ý nghĩa lớn đối với khoa học thông tin, khoa học dữ liệu và sự phát triển của cộng đồng nghiên cứu. Một trong những bài toán quan trọng là dự đoán đồng tác giả, giúp các nhà nghiên cứu tìm kiếm cộng sự tiềm năng, thúc đẩy các dự án nghiên cứu và ý tưởng sáng tạo. Larivière và cộng sự đã chỉ ra rằng các nhóm tác giả đa dạng giúp các công trình khoa học có tác động lớn hơn. Do đó, việc nghiên cứu các phương pháp dự đoán cộng tác đồng tác giả là rất cần thiết.

1.1. Bài Toán Dự Đoán Đồng Tác Giả và Ứng Dụng

Bài toán dự đoán đồng tác giả dự đoán khả năng hợp tác giữa các tác giả trong tương lai, dựa trên dữ liệu về mạng đồng tác giả hiện tại. Bài toán này có thể được xem như là một dạng bài toán dự đoán liên kết trong mạng xã hội. Mục tiêu là dự đoán các mối quan hệ tiềm năng giữa các tác giả, sử dụng các độ đo liên kết như số lượng hàng xóm chung hoặc chiều dài đường dẫn. Các phương pháp giải quyết bài toán này bao gồm sử dụng độ đo tương đồng, xây dựng mô hình dựa trên xác suất, khai phá đồ thị và học máy. Tiếp cận bằng học máy, đặc biệt là phân lớp nhị phân, đang được quan tâm vì khả năng tích hợp thông tin liên kết đa dạng và khả năng cải thiện mô hình thông qua huấn luyện.

1.2. Các Phương Pháp Tiếp Cận Thuật Toán Phân Lớp

Các phương pháp tiếp cận thuật toán phân lớp cho bài toán dự đoán đồng tác giả bao gồm sử dụng độ đo tương đồng (CN, PA, AA, RA, JC), xây dựng các mô hình dựa trên xác suất và khả năng tối đa, khai phá đồ thị, và học máy. Hướng tiếp cận học máy phân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiều ưu điểm như: tích hợp đa dạng thông tin liên kết, khả năng mở rộng linh hoạt trong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnh và cải thiện mô hình thông qua quá trình huấn luyện. Các thuật toán được sử dụng rất đa dạng như: Decision Tree, Neural Networks, Support Vector Machines, K-Nearest Neighbors, XGboost hay các mô hình dạng hồi quy.

II. Thách Thức Dữ Liệu Không Cân Bằng Ảnh Hưởng Thế Nào

Trong bài toán dự đoán đồng tác giả, việc xây dựng một mô hình dự đoán tốt đòi hỏi sự quan tâm đến các yếu tố như phương pháp xây dựng bộ dữ liệu, xây dựng các đặc trưng và lựa chọn thuật toán huấn luyện. Vấn đề xây dựng đặc trưng tập trung vào việc mở rộng các độ đo liên kết và đánh giá tầm quan trọng của chúng. Tuy nhiên, khả năng tìm kiếm thêm các độ đo liên kết mới để cải thiện chất lượng mô hình là hạn chế. Quan trọng hơn, không có mô hình học máy nào phù hợp với mọi bộ dữ liệu. Do đó, cần nghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu cụ thể để xây dựng các mô hình phân lớp chất lượng.

2.1. Bài Toán Dữ Liệu Không Cân Bằng Trong Thực Tế

Bộ dữ liệu huấn luyện được tạo ra từ mạng đồng tác giả được gọi là dữ liệu bảng ứng viên đồng tác giả. Khi đưa thông tin đầu vào là một tác giả vi nào đó, chúng ta xây dựng một danh sách các tác giả vj , vk , vh , . có tiềm năng cộng tác hiệu quả với tác giả vi trong tương lai. Các tác giả vj , vk , vh , . gọi là ứng viên đồng tác giả. Theo đó, mỗi cặp (vi , vj ) là một cặp ứng viên cộng tác tiềm năng và được xem như là một mẫu dữ liệu. Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn lớp (khả năng xảy ra liên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng đồng tác giả theo chiều thời gian.

2.2. Ảnh Hưởng Của Dữ Liệu Mất Cân Bằng Đến Mô Hình

Trong nhiều bài toán thực tế, đặc biệt là trong dự đoán đồng tác giả, dữ liệu không cân bằng là một vấn đề lớn. Số lượng các cặp tác giả thực sự hợp tác (lớp dương) thường ít hơn nhiều so với số lượng các cặp không hợp tác (lớp âm). Điều này dẫn đến việc các thuật toán phân lớp truyền thống thường bị thiên vị, có xu hướng dự đoán các mẫu thuộc lớp âm nhiều hơn. Do đó, cần có các phương pháp đặc biệt để xử lý dữ liệu không cân bằng, nhằm đảm bảo rằng mô hình có thể dự đoán chính xác cả hai lớp.

III. Cải Tiến AdaBoost Giải Pháp Cho Dữ Liệu Không Cân Bằng

Luận án đề xuất cải tiến thuật toán AdaBoost để xử lý dữ liệu không cân bằng. AdaBoost là một thuật toán học kết hợp mạnh mẽ, nhưng nó có thể bị ảnh hưởng bởi sự mất cân bằng dữ liệu. Phương pháp cải tiến bao gồm việc điều chỉnh trọng số của các mẫu và các bộ phân lớp thành viên để tập trung vào các mẫu thuộc lớp thiểu số. Đồng thời kết hợp với WSVM (Weight Support Vector Machine). Các thử nghiệm trên các bộ dữ liệu UCI và bộ dữ liệu dự đoán đồng tác giả cho thấy rằng phương pháp cải tiến này mang lại kết quả tốt hơn so với AdaBoost truyền thống.

3.1. Đề Xuất Thuật Toán Im. AdaBoost

Thuật toán Im.AdaBoost được đề xuất bao gồm các bước: phân tích thuật toán AdaBoost, phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằng, phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy cảm với nhãn dương. Thuật toán kết hợp WSVM (Weight Support Vector Machine) để cải thiện hiệu quả phân lớp. Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM được trình bày chi tiết trong luận án.

3.2. Thử Nghiệm Với Dữ Liệu UCI và Dự Đoán Đồng Tác Giả

Các thử nghiệm được thực hiện trên các bộ dữ liệu UCI và bộ dữ liệu dự đoán đồng tác giả cho thấy rằng thuật toán Im.AdaBoost mang lại kết quả tốt hơn so với AdaBoost truyền thống. Các giá trị Gmean, SE (Sensitivity), và SP (Specificity) được xác định cho các dữ liệu khác nhau, cho thấy sự cải thiện về hiệu suất phân lớp khi sử dụng thuật toán Im.AdaBoost.

IV. Fuzzy SVM CIL Thuật Toán Điều Chỉnh Trọng Số Mờ

Luận án cũng đề xuất một thuật toán điều chỉnh thích nghi trọng số mờ dựa trên Fuzzy SVM-CIL để xử lý dữ liệu không cân bằng. Phương pháp này xây dựng hàm thuộc mờ giàu ngữ nghĩa và điều chỉnh trọng số mờ cho các mẫu nhạy cảm. Các thử nghiệm trên các bộ dữ liệu UCI và bài toán dự đoán đồng tác giả cho thấy hiệu quả của phương pháp đề xuất.

4.1. Xây Dựng Hàm Thuộc Mờ Cho Fuzzy SVM CIL

Phương pháp xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM-CIL dựa trên việc xác định vị trí tương đối của các mẫu giữa hai lớp và xác định các trường hợp "mẫu nhạy cảm" được chỉ ra bởi TLPs (Tomek Links Pairs). Phương pháp này giúp cải thiện khả năng phân biệt giữa các lớp và xử lý dữ liệu không cân bằng hiệu quả hơn.

4.2. Thử Nghiệm Với Fuzzy SVM CIL và Kết Quả

So sánh kết quả phân lớp của FSVM-CILcen lin và FSVM-CIL trên các bộ dữ liệu UCI cho thấy sự cải thiện về hiệu suất phân lớp khi sử dụng phương pháp xây dựng hàm thuộc mờ. Các kết quả so sánh cũng cho thấy hiệu quả của phương pháp điều chỉnh F-AWA khi áp dụng vào FSVM-CIL trên các bộ dữ liệu UCI và bộ dữ liệu dự đoán đồng tác giả.

V. Ứng Dụng Dự Đoán Đồng Tác Giả Trong Mạng Học Thuật

Kết quả nghiên cứu này có thể được ứng dụng để xây dựng một hệ thống khuyến nghị cộng tác đồng tác giả trong mạng xã hội học thuật. Hệ thống này có thể giúp các nhà nghiên cứu tìm kiếm cộng sự tiềm năng, thúc đẩy các dự án nghiên cứu và tăng cường sự hợp tác trong cộng đồng khoa học. Các thuật toán được cải tiến, đặc biệt là AdaBoost và Fuzzy SVM-CIL, có thể giúp xây dựng các mô hình dự đoán chính xác hơn, ngay cả khi dữ liệu bị mất cân bằng.

5.1. Xây Dựng Hệ Thống Khuyến Nghị Cộng Tác

Các thuật toán phân lớp cải tiến, đặc biệt là AdaBoost và Fuzzy SVM-CIL, có thể được sử dụng để xây dựng hệ thống khuyến nghị cộng tác. Hệ thống này sẽ phân tích thông tin về các nhà nghiên cứu, các bài báo và các mối quan hệ hợp tác để đưa ra gợi ý về các cộng sự tiềm năng. Hệ thống cần có khả năng xử lý dữ liệu không cân bằng để đảm bảo tính chính xác của các gợi ý.

5.2. Tích Hợp Vào Mạng Xã Hội Học Thuật

Hệ thống khuyến nghị cộng tác có thể được tích hợp vào các mạng xã hội học thuật hiện có, như ResearchGate hoặc Academia.edu. Điều này sẽ giúp các nhà nghiên cứu dễ dàng tìm kiếm cộng sự và kết nối với nhau. Hệ thống cũng có thể cung cấp các công cụ để quản lý các dự án hợp tác và chia sẻ kết quả nghiên cứu.

VI. Kết Luận Tiềm Năng Phát Triển Thuật Toán Phân Lớp

Nghiên cứu này đã đề xuất các phương pháp cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả. Các kết quả thử nghiệm cho thấy rằng các phương pháp này có tiềm năng cải thiện đáng kể hiệu suất dự đoán. Trong tương lai, có thể tiếp tục nghiên cứu để phát triển các thuật toán mới, sử dụng các kỹ thuật học sâu hoặc kết hợp nhiều phương pháp khác nhau để đạt được kết quả tốt hơn. Ngoài ra, cần nghiên cứu sâu hơn về các yếu tố ảnh hưởng đến sự hợp tác giữa các nhà nghiên cứu, để xây dựng các mô hình dự đoán chính xác và hiệu quả hơn.

6.1. Hướng Nghiên Cứu Tiếp Theo Về Dữ Liệu Không Cân Bằng

Các hướng nghiên cứu tiếp theo có thể tập trung vào việc phát triển các thuật toán mới, sử dụng các kỹ thuật học sâu (deep learning) để tự động trích xuất các đặc trưng quan trọng từ dữ liệu. Cũng có thể nghiên cứu các phương pháp kết hợp nhiều kỹ thuật xử lý dữ liệu không cân bằng để đạt được hiệu quả tốt nhất. Ví dụ, kết hợp oversampling với cost-sensitive learning.

6.2. Mở Rộng Ứng Dụng Trong Các Lĩnh Vực Khác

Các thuật toán phân lớp cải tiến cho dữ liệu không cân bằng không chỉ có thể được áp dụng trong bài toán dự đoán đồng tác giả, mà còn có thể được sử dụng trong nhiều lĩnh vực khác, như phát hiện gian lận, chẩn đoán y tế và dự báo rủi ro tài chính. Việc nghiên cứu và phát triển các thuật toán này có ý nghĩa quan trọng đối với nhiều ngành công nghiệp và lĩnh vực khoa học.

Cải Tiến Thuật Toán Phân Lớp Cho Dữ Liệu Không Cân Bằng Và Ứng Dụng Trong Dự Đoán Đồng Tác Giả

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Bài toán phân lớp với dữ liệu không cân bằng. Một số thuật toán liên quan

1.2. Thuật toán SVM

1.3. Thuật toán Weighted-SVM

1.4. Fuzzy SVM-CIL

1.5. Thuật toán AdaBoost. Thuật toán CNN

1.6. Phương pháp Cây quyết định

1.7. K-nearest neighbors và Tomek link

1.8. Bài toán dự đoán đồng tác giả

1.9. Mô hình hóa bài toán

1.10. Phương pháp phân lớp cho bài toán dự đoán đồng tác giả

1.11. Phương pháp thực nghiệm và đánh giá. Tập dữ liệu thử nghiệm

1.12. Môi trường và kịch bản thử nghiệm

1.13. Kết luận Chương 1

2. CHƯƠNG 2: CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ LIỆU KHÔNG CÂN BẰNG

2.1. Đề xuất thuật toán Im. Phân tích thuật toán AdaBoost

2.2. Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằng

2.3. Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy cảm với nhãn dương

2.4. Mô tả thuật toán Im.AdaBoost kết hợp với WSVM

2.5. Thử nghiệm trên các bộ dữ liệu UCI

2.6. Thử nghiệm cho bài toán dự đoán đồng tác giả

2.7. Kết luận Chương 2

3. CHƯƠNG 3: ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL

3.1. Đề xuất thuật toán trọng số mờ thích nghi. Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM.

3.2. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm

3.3. Thuật toán phân lớp với trọng số mờ thích nghi. Thử nghiệm trên các bộ dữ liệu UCI

3.4. Thử nghiệm cho bài toán dự đoán đồng tác giả

3.5. Thử nghiệm so sánh các thuật toán đã đề xuất

3.6. Kết luận Chương 3

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

I. Tổng Quan Cải Tiến Thuật Toán Phân Lớp Cho Bài Toán

1.1. Bài Toán Dự Đoán Đồng Tác Giả và Ứng Dụng

1.2. Các Phương Pháp Tiếp Cận Thuật Toán Phân Lớp

II. Thách Thức Dữ Liệu Không Cân Bằng Ảnh Hưởng Thế Nào

2.1. Bài Toán Dữ Liệu Không Cân Bằng Trong Thực Tế

2.2. Ảnh Hưởng Của Dữ Liệu Mất Cân Bằng Đến Mô Hình

III. Cải Tiến AdaBoost Giải Pháp Cho Dữ Liệu Không Cân Bằng

3.1. Đề Xuất Thuật Toán Im. AdaBoost

3.2. Thử Nghiệm Với Dữ Liệu UCI và Dự Đoán Đồng Tác Giả

IV. Fuzzy SVM CIL Thuật Toán Điều Chỉnh Trọng Số Mờ

4.1. Xây Dựng Hàm Thuộc Mờ Cho Fuzzy SVM CIL

4.2. Thử Nghiệm Với Fuzzy SVM CIL và Kết Quả

V. Ứng Dụng Dự Đoán Đồng Tác Giả Trong Mạng Học Thuật

5.1. Xây Dựng Hệ Thống Khuyến Nghị Cộng Tác

5.2. Tích Hợp Vào Mạng Xã Hội Học Thuật

VI. Kết Luận Tiềm Năng Phát Triển Thuật Toán Phân Lớp

6.1. Hướng Nghiên Cứu Tiếp Theo Về Dữ Liệu Không Cân Bằng

6.2. Mở Rộng Ứng Dụng Trong Các Lĩnh Vực Khác

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Võ Đức Quang

Người hướng dẫn: PGS. Trần Đình Khang

Trường học: Đại Học Bách Khoa Hà Nội

Chuyên ngành: Hệ Thống Thông Tin

Đề tài: Cải tiến Thuật Toán Phân Lớp Cho Dữ Liệu Không Cân Bằng Và Ứng Dụng Trong Dự Đoán Đồng Tác Giả

Loại tài liệu: Luận Án Tiến Sĩ

Năm xuất bản: 2024

Địa điểm: Hà Nội