Cải Tiến Thuật Toán Phân Lớp Cho Dữ Liệu Không Cân Bằng Và Ứng Dụng Trong Dự Đoán Đồng Tác Giả

Trường đại học

Đại Học Bách Khoa Hà Nội

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Án Tiến Sĩ

2024

123
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Cải Tiến Thuật Toán Phân Lớp Cho Bài Toán

Trong lĩnh vực nghiên cứu khoa học, mạng xã hội học thuật (ASN) đóng vai trò quan trọng trong việc thúc đẩy hợp tác giữa các nhà nghiên cứu. Mạng đồng tác giả, một phần của ASN, mô tả mối quan hệ hợp tác thông qua các bài báo khoa học. Các bài báo này trình bày kết quả nghiên cứu và được công bố trên các tạp chí khoa học thuộc nhiều lĩnh vực. Việc nghiên cứu các bài toán trong mạng đồng tác giả có ý nghĩa lớn đối với khoa học thông tin, khoa học dữ liệu và sự phát triển của cộng đồng nghiên cứu. Một trong những bài toán quan trọng là dự đoán đồng tác giả, giúp các nhà nghiên cứu tìm kiếm cộng sự tiềm năng, thúc đẩy các dự án nghiên cứu và ý tưởng sáng tạo. Larivière và cộng sự đã chỉ ra rằng các nhóm tác giả đa dạng giúp các công trình khoa học có tác động lớn hơn. Do đó, việc nghiên cứu các phương pháp dự đoán cộng tác đồng tác giả là rất cần thiết.

1.1. Bài Toán Dự Đoán Đồng Tác Giả và Ứng Dụng

Bài toán dự đoán đồng tác giả dự đoán khả năng hợp tác giữa các tác giả trong tương lai, dựa trên dữ liệu về mạng đồng tác giả hiện tại. Bài toán này có thể được xem như là một dạng bài toán dự đoán liên kết trong mạng xã hội. Mục tiêu là dự đoán các mối quan hệ tiềm năng giữa các tác giả, sử dụng các độ đo liên kết như số lượng hàng xóm chung hoặc chiều dài đường dẫn. Các phương pháp giải quyết bài toán này bao gồm sử dụng độ đo tương đồng, xây dựng mô hình dựa trên xác suất, khai phá đồ thị và học máy. Tiếp cận bằng học máy, đặc biệt là phân lớp nhị phân, đang được quan tâm vì khả năng tích hợp thông tin liên kết đa dạng và khả năng cải thiện mô hình thông qua huấn luyện.

1.2. Các Phương Pháp Tiếp Cận Thuật Toán Phân Lớp

Các phương pháp tiếp cận thuật toán phân lớp cho bài toán dự đoán đồng tác giả bao gồm sử dụng độ đo tương đồng (CN, PA, AA, RA, JC), xây dựng các mô hình dựa trên xác suất và khả năng tối đa, khai phá đồ thị, và học máy. Hướng tiếp cận học máy phân lớp nhị phân thu hút được nhiều sự quan tâm nghiên cứu bởi mang nhiều ưu điểm như: tích hợp đa dạng thông tin liên kết, khả năng mở rộng linh hoạt trong việc đánh giá lựa chọn các phương pháp thuật toán, khả năng điều chỉnh và cải thiện mô hình thông qua quá trình huấn luyện. Các thuật toán được sử dụng rất đa dạng như: Decision Tree, Neural Networks, Support Vector Machines, K-Nearest Neighbors, XGboost hay các mô hình dạng hồi quy.

II. Thách Thức Dữ Liệu Không Cân Bằng Ảnh Hưởng Thế Nào

Trong bài toán dự đoán đồng tác giả, việc xây dựng một mô hình dự đoán tốt đòi hỏi sự quan tâm đến các yếu tố như phương pháp xây dựng bộ dữ liệu, xây dựng các đặc trưng và lựa chọn thuật toán huấn luyện. Vấn đề xây dựng đặc trưng tập trung vào việc mở rộng các độ đo liên kết và đánh giá tầm quan trọng của chúng. Tuy nhiên, khả năng tìm kiếm thêm các độ đo liên kết mới để cải thiện chất lượng mô hình là hạn chế. Quan trọng hơn, không có mô hình học máy nào phù hợp với mọi bộ dữ liệu. Do đó, cần nghiên cứu các phương pháp phù hợp với đặc tính của bộ dữ liệu cụ thể để xây dựng các mô hình phân lớp chất lượng.

2.1. Bài Toán Dữ Liệu Không Cân Bằng Trong Thực Tế

Bộ dữ liệu huấn luyện được tạo ra từ mạng đồng tác giả được gọi là dữ liệu bảng ứng viên đồng tác giả. Khi đưa thông tin đầu vào là một tác giả vi nào đó, chúng ta xây dựng một danh sách các tác giả vj , vk , vh , . có tiềm năng cộng tác hiệu quả với tác giả vi trong tương lai. Các tác giả vj , vk , vh , . gọi là ứng viên đồng tác giả. Theo đó, mỗi cặp (vi , vj ) là một cặp ứng viên cộng tác tiềm năng và được xem như là một mẫu dữ liệu. Mức độ liên kết hợp tác của cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãn lớp (khả năng xảy ra liên kết cộng tác) được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng đồng tác giả theo chiều thời gian.

2.2. Ảnh Hưởng Của Dữ Liệu Mất Cân Bằng Đến Mô Hình

Trong nhiều bài toán thực tế, đặc biệt là trong dự đoán đồng tác giả, dữ liệu không cân bằng là một vấn đề lớn. Số lượng các cặp tác giả thực sự hợp tác (lớp dương) thường ít hơn nhiều so với số lượng các cặp không hợp tác (lớp âm). Điều này dẫn đến việc các thuật toán phân lớp truyền thống thường bị thiên vị, có xu hướng dự đoán các mẫu thuộc lớp âm nhiều hơn. Do đó, cần có các phương pháp đặc biệt để xử lý dữ liệu không cân bằng, nhằm đảm bảo rằng mô hình có thể dự đoán chính xác cả hai lớp.

III. Cải Tiến AdaBoost Giải Pháp Cho Dữ Liệu Không Cân Bằng

Luận án đề xuất cải tiến thuật toán AdaBoost để xử lý dữ liệu không cân bằng. AdaBoost là một thuật toán học kết hợp mạnh mẽ, nhưng nó có thể bị ảnh hưởng bởi sự mất cân bằng dữ liệu. Phương pháp cải tiến bao gồm việc điều chỉnh trọng số của các mẫu và các bộ phân lớp thành viên để tập trung vào các mẫu thuộc lớp thiểu số. Đồng thời kết hợp với WSVM (Weight Support Vector Machine). Các thử nghiệm trên các bộ dữ liệu UCI và bộ dữ liệu dự đoán đồng tác giả cho thấy rằng phương pháp cải tiến này mang lại kết quả tốt hơn so với AdaBoost truyền thống.

3.1. Đề Xuất Thuật Toán Im. AdaBoost

Thuật toán Im.AdaBoost được đề xuất bao gồm các bước: phân tích thuật toán AdaBoost, phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằng, phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy cảm với nhãn dương. Thuật toán kết hợp WSVM (Weight Support Vector Machine) để cải thiện hiệu quả phân lớp. Sơ đồ thuật toán Im.AdaBoost kết hợp với WSVM được trình bày chi tiết trong luận án.

3.2. Thử Nghiệm Với Dữ Liệu UCI và Dự Đoán Đồng Tác Giả

Các thử nghiệm được thực hiện trên các bộ dữ liệu UCI và bộ dữ liệu dự đoán đồng tác giả cho thấy rằng thuật toán Im.AdaBoost mang lại kết quả tốt hơn so với AdaBoost truyền thống. Các giá trị Gmean, SE (Sensitivity), và SP (Specificity) được xác định cho các dữ liệu khác nhau, cho thấy sự cải thiện về hiệu suất phân lớp khi sử dụng thuật toán Im.AdaBoost.

IV. Fuzzy SVM CIL Thuật Toán Điều Chỉnh Trọng Số Mờ

Luận án cũng đề xuất một thuật toán điều chỉnh thích nghi trọng số mờ dựa trên Fuzzy SVM-CIL để xử lý dữ liệu không cân bằng. Phương pháp này xây dựng hàm thuộc mờ giàu ngữ nghĩa và điều chỉnh trọng số mờ cho các mẫu nhạy cảm. Các thử nghiệm trên các bộ dữ liệu UCI và bài toán dự đoán đồng tác giả cho thấy hiệu quả của phương pháp đề xuất.

4.1. Xây Dựng Hàm Thuộc Mờ Cho Fuzzy SVM CIL

Phương pháp xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM-CIL dựa trên việc xác định vị trí tương đối của các mẫu giữa hai lớp và xác định các trường hợp "mẫu nhạy cảm" được chỉ ra bởi TLPs (Tomek Links Pairs). Phương pháp này giúp cải thiện khả năng phân biệt giữa các lớp và xử lý dữ liệu không cân bằng hiệu quả hơn.

4.2. Thử Nghiệm Với Fuzzy SVM CIL và Kết Quả

So sánh kết quả phân lớp của FSVM-CILcen linFSVM-CIL trên các bộ dữ liệu UCI cho thấy sự cải thiện về hiệu suất phân lớp khi sử dụng phương pháp xây dựng hàm thuộc mờ. Các kết quả so sánh cũng cho thấy hiệu quả của phương pháp điều chỉnh F-AWA khi áp dụng vào FSVM-CIL trên các bộ dữ liệu UCI và bộ dữ liệu dự đoán đồng tác giả.

V. Ứng Dụng Dự Đoán Đồng Tác Giả Trong Mạng Học Thuật

Kết quả nghiên cứu này có thể được ứng dụng để xây dựng một hệ thống khuyến nghị cộng tác đồng tác giả trong mạng xã hội học thuật. Hệ thống này có thể giúp các nhà nghiên cứu tìm kiếm cộng sự tiềm năng, thúc đẩy các dự án nghiên cứu và tăng cường sự hợp tác trong cộng đồng khoa học. Các thuật toán được cải tiến, đặc biệt là AdaBoostFuzzy SVM-CIL, có thể giúp xây dựng các mô hình dự đoán chính xác hơn, ngay cả khi dữ liệu bị mất cân bằng.

5.1. Xây Dựng Hệ Thống Khuyến Nghị Cộng Tác

Các thuật toán phân lớp cải tiến, đặc biệt là AdaBoostFuzzy SVM-CIL, có thể được sử dụng để xây dựng hệ thống khuyến nghị cộng tác. Hệ thống này sẽ phân tích thông tin về các nhà nghiên cứu, các bài báo và các mối quan hệ hợp tác để đưa ra gợi ý về các cộng sự tiềm năng. Hệ thống cần có khả năng xử lý dữ liệu không cân bằng để đảm bảo tính chính xác của các gợi ý.

5.2. Tích Hợp Vào Mạng Xã Hội Học Thuật

Hệ thống khuyến nghị cộng tác có thể được tích hợp vào các mạng xã hội học thuật hiện có, như ResearchGate hoặc Academia.edu. Điều này sẽ giúp các nhà nghiên cứu dễ dàng tìm kiếm cộng sự và kết nối với nhau. Hệ thống cũng có thể cung cấp các công cụ để quản lý các dự án hợp tác và chia sẻ kết quả nghiên cứu.

VI. Kết Luận Tiềm Năng Phát Triển Thuật Toán Phân Lớp

Nghiên cứu này đã đề xuất các phương pháp cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong bài toán dự đoán đồng tác giả. Các kết quả thử nghiệm cho thấy rằng các phương pháp này có tiềm năng cải thiện đáng kể hiệu suất dự đoán. Trong tương lai, có thể tiếp tục nghiên cứu để phát triển các thuật toán mới, sử dụng các kỹ thuật học sâu hoặc kết hợp nhiều phương pháp khác nhau để đạt được kết quả tốt hơn. Ngoài ra, cần nghiên cứu sâu hơn về các yếu tố ảnh hưởng đến sự hợp tác giữa các nhà nghiên cứu, để xây dựng các mô hình dự đoán chính xác và hiệu quả hơn.

6.1. Hướng Nghiên Cứu Tiếp Theo Về Dữ Liệu Không Cân Bằng

Các hướng nghiên cứu tiếp theo có thể tập trung vào việc phát triển các thuật toán mới, sử dụng các kỹ thuật học sâu (deep learning) để tự động trích xuất các đặc trưng quan trọng từ dữ liệu. Cũng có thể nghiên cứu các phương pháp kết hợp nhiều kỹ thuật xử lý dữ liệu không cân bằng để đạt được hiệu quả tốt nhất. Ví dụ, kết hợp oversampling với cost-sensitive learning.

6.2. Mở Rộng Ứng Dụng Trong Các Lĩnh Vực Khác

Các thuật toán phân lớp cải tiến cho dữ liệu không cân bằng không chỉ có thể được áp dụng trong bài toán dự đoán đồng tác giả, mà còn có thể được sử dụng trong nhiều lĩnh vực khác, như phát hiện gian lận, chẩn đoán y tế và dự báo rủi ro tài chính. Việc nghiên cứu và phát triển các thuật toán này có ý nghĩa quan trọng đối với nhiều ngành công nghiệp và lĩnh vực khoa học.

21/05/2025
Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả
Bạn đang xem trước tài liệu : Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tóm tắt bài viết "Cải tiến Thuật Toán Phân Lớp cho Dữ Liệu Không Cân Bằng & Ứng Dụng Dự Đoán Đồng Tác Giả" tập trung vào việc giải quyết vấn đề phân lớp dữ liệu khi các lớp không có số lượng mẫu tương đương nhau (dữ liệu không cân bằng). Bài viết này có thể trình bày các cải tiến thuật toán để tăng độ chính xác của việc dự đoán, đặc biệt trong bối cảnh dự đoán đồng tác giả, nơi mà số lượng các bài báo có nhiều tác giả thường ít hơn so với các bài báo chỉ có một tác giả. Việc cải thiện khả năng phân lớp trong trường hợp dữ liệu không cân bằng có ý nghĩa quan trọng trong nhiều lĩnh vực, từ y tế (dự đoán bệnh hiếm gặp) đến tài chính (phát hiện gian lận).

Nếu bạn quan tâm đến việc khai phá dữ liệu và ứng dụng của nó trong việc phân tích thông tin từ mạng xã hội, bạn có thể tham khảo thêm Luận văn khai phá quan điểm dữ liệu twitter để hiểu rõ hơn về cách các kỹ thuật khai phá dữ liệu được áp dụng để phân tích quan điểm từ dữ liệu Twitter. Tài liệu này sẽ cung cấp cho bạn một góc nhìn khác về ứng dụng của khai phá dữ liệu trong một lĩnh vực cụ thể.