Nâng cao thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Luận án tiến sĩ nghiên cứu cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả, phát triển phương pháp mới, đánh giá hiệu quả ứng dụng

Trường đại học

Đại học Bách Khoa Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2024

123

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Bài toán phân lớp với dữ liệu không cân bằng. Một số thuật toán liên quan

1.2. Thuật toán SVM

1.3. Thuật toán Weighted-SVM

1.4. Fuzzy SVM-CIL

1.5. Thuật toán AdaBoost

1.6. Thuật toán CNN

1.7. Phương pháp Cây quyết định

1.8. K-nearest neighbors và Tomek link

1.9. Bài toán dự báo cộng tác giả

1.10. Mô hình hóa bài toán

1.11. Phương pháp phân lớp cho bài toán dự báo cộng tác giả

1.12. Phương pháp thực nghiệm và đánh giá

1.13. Tập dữ liệu thử nghiệm

1.14. Môi trường và kịch bản thử nghiệm

1.15. Kết luận Chương 1

2. CHƯƠNG 2: CẢI TIẾN THUẬT TOÁN ADABOOST CHO DỮ LIỆU KHÔNG CÂN BẰNG

2.1. Đề xuất thuật toán Im

2.2. Phân tích thuật toán AdaBoost

2.3. Phương pháp khởi tạo trọng số cho AdaBoost thích nghi với mức độ không cân bằng

2.4. Phương pháp tính trọng số tin cậy của bộ phân lớp thành viên nhạy cảm với nhãn dương

2.5. Mô tả thuật toán Im.AdaBoost kết hợp với WSVM

2.6. Thử nghiệm trên các bộ dữ liệu UCI

2.7. Thử nghiệm cho bài toán dự báo cộng tác giả

2.8. Kết luận Chương 2

3. CHƯƠNG 3: ĐỀ XUẤT THUẬT TOÁN ĐIỀU CHỈNH THÍCH NGHI TRỌNG SỐ MỜ DỰA TRÊN FUZZY SVM-CIL

3.1. Đề xuất thuật toán trọng số mờ thích nghi

3.2. Xây dựng hàm thuộc mờ giàu ngữ nghĩa cho Fuzzy SVM

3.3. Phương pháp điều chỉnh trọng số mờ cho các mẫu nhạy cảm

3.4. Thuật toán phân lớp với trọng số mờ thích nghi

3.5. Thử nghiệm trên các bộ dữ liệu UCI

3.6. Thử nghiệm cho bài toán dự báo cộng tác giả

3.7. Thử nghiệm so sánh các thuật toán đã đề xuất

3.8. Kết luận Chương 3

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về vấn đề nghiên cứu

Bài toán phân lớp với dữ liệu không cân bằng là một thách thức lớn trong lĩnh vực học máy. Thuật toán phân lớp truyền thống thường gặp khó khăn khi xử lý các tập dữ liệu không cân bằng, dẫn đến việc phân loại không chính xác. Trong bối cảnh dự đoán đồng tác giả, việc cải tiến các thuật toán phân lớp là cần thiết để nâng cao độ chính xác và hiệu quả. Nghiên cứu này tập trung vào việc cải tiến thuật toán AdaBoost và Fuzzy SVM để xử lý các vấn đề liên quan đến dữ liệu không cân bằng. Các phương pháp này không chỉ giúp cải thiện độ chính xác mà còn tối ưu hóa quá trình phân tích và dự đoán trong mạng xã hội học thuật.

1.1. Bài toán dự đoán đồng tác giả

Bài toán dự đoán đồng tác giả được định nghĩa là việc dự đoán khả năng hợp tác giữa các tác giả dựa trên dữ liệu hiện có. Mô hình hóa bài toán này yêu cầu xây dựng các đặc trưng từ dữ liệu không cân bằng để xác định mối quan hệ giữa các tác giả. Việc sử dụng các phương pháp học máy như học có giám sát và học không giám sát giúp cải thiện khả năng dự đoán. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng các thuật toán phân lớp có thể nâng cao khả năng dự đoán mối quan hệ hợp tác trong mạng xã hội học thuật.

II. Cải tiến thuật toán AdaBoost cho dữ liệu không cân bằng

Nghiên cứu này đề xuất một phương pháp cải tiến cho thuật toán AdaBoost nhằm xử lý dữ liệu không cân bằng. Phương pháp này bao gồm việc khởi tạo trọng số cho các mẫu dữ liệu, giúp tăng cường độ nhạy cảm của thuật toán đối với các lớp thiểu số. Kết quả thử nghiệm cho thấy rằng việc điều chỉnh trọng số có thể cải thiện đáng kể độ chính xác của mô hình. Cụ thể, các thử nghiệm trên các bộ dữ liệu UCI cho thấy rằng AdaBoost có thể đạt được hiệu suất cao hơn khi được điều chỉnh để phù hợp với dữ liệu không cân bằng. Điều này chứng tỏ rằng việc cải tiến thuật toán là cần thiết để nâng cao khả năng phân loại trong các bài toán thực tiễn.

2.1. Phân tích thuật toán AdaBoost

Phân tích thuật toán AdaBoost cho thấy rằng thuật toán này hoạt động dựa trên nguyên tắc kết hợp nhiều mô hình yếu thành một mô hình mạnh. Tuy nhiên, khi áp dụng cho dữ liệu không cân bằng, thuật toán có thể thiên lệch về lớp chiếm ưu thế. Để khắc phục điều này, nghiên cứu đã đề xuất một phương pháp khởi tạo trọng số cho các mẫu, giúp tăng cường độ nhạy cảm của thuật toán đối với các lớp thiểu số. Kết quả thử nghiệm cho thấy rằng phương pháp này không chỉ cải thiện độ chính xác mà còn giảm thiểu tỷ lệ lỗi trong phân loại.

III. Ứng dụng trong dự đoán đồng tác giả

Việc áp dụng các thuật toán đã cải tiến vào bài toán dự đoán đồng tác giả cho thấy nhiều triển vọng. Các mô hình phân lớp được xây dựng từ dữ liệu không cân bằng có thể dự đoán chính xác hơn các mối quan hệ hợp tác tiềm năng giữa các tác giả. Nghiên cứu đã chỉ ra rằng việc sử dụng các thuật toán như Fuzzy SVM và AdaBoost có thể tạo ra các mô hình dự đoán hiệu quả, giúp các nhà nghiên cứu tìm kiếm cộng sự phù hợp. Điều này không chỉ có ý nghĩa trong việc nâng cao chất lượng nghiên cứu mà còn thúc đẩy sự phát triển của cộng đồng khoa học.

3.1. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy rằng các mô hình phân lớp cải tiến có thể đạt được độ chính xác cao hơn so với các mô hình truyền thống. Cụ thể, các mô hình này đã được áp dụng cho các bộ dữ liệu thực tế và cho thấy khả năng dự đoán mối quan hệ hợp tác giữa các tác giả một cách hiệu quả. Việc sử dụng các phương pháp học máy hiện đại đã giúp tối ưu hóa quá trình phân tích và dự đoán, từ đó nâng cao chất lượng nghiên cứu trong mạng xã hội học thuật.

07/02/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 TỔNG QUAN VỀ VẤN Ề NGHIÊN CỨU Chương này của luận án giới thiệu các kiến thức cơ bản về bài toán phân lớp nhị phân có tính chất dữ liệu không cân bằng và các vấn ề liên quan khi ứng dụng vào bài toán dự oán ồng tác giả ược mô hình hóa theo dạng phân lớp. Một số phương pháp tiếp cận giải quyết bài toán và thuật toán phân lớp nhị phân nổi bật cũng ược phân tích ể ưa ra các ịnh hướng nghiên cứu cải tiến các thuật toán. Bài toán phân lớp với dữ liệu không cân bằng Dữ liệu không cân bằng là khái niệm ề cập ến các bộ dữ liệu có ặc iểm phân bố số lượng mẫu trong mỗi lớp có sự chênh lệch cao. Bài toán phân lớp trên dữ liệu không cân bằng là một vấn ề thách thức trong học máy.

ể giải quyết bài toán phân lớp trên dữ liệu không cân bằng nói chung, các nghiên cứu tập trung vào hai hướng giải quyết chính ó là: sửa ổi tập dữ liệu ể giảm mức ộ không cân bằng mẫu giữa các lớp và cải tiến thuật toán thông qua việc iều chßnh các tham số. Các phương pháp tiếp cận mức dữ liệu sử dụng các kỹ thuật can thiệp vào bộ dữ liệu gốc ể tạo ra bộ dữ liệu huấn luyện có tÿ lệ phân bố mẫu cân bằng hơn, từ ó làm cơ sở cho các thuật toán phân lớp truyền thống hoạt ộng hiệu quả hơn. Có thể thay ổi sự phân bố số lượng mẫu trong bộ dữ liệu (ReSampling) bằng cách sinh thêm các phần tử cho lớp thiểu số (Over Sampling) như Ran- dom Oversampling, Synthetic Minority Oversampling Technique (SMOTE) [25], Border-line-SMOTE [26], Adaptive Synthetic Sampling (ADA-SYN)[27] over- sampling dựa trên cụm (Cluster Based Sampling-CBO) [28], SMOTEBoost [29], OSD [30]. hay giảm bớt các phần tử thuộc lớp a số (Under Sampling) như EasyEnsemble [31], BalanceCascade [32], KNN-NearMiss [33],.

ể bộ dữ liệu trở nên cân bằng hơn, từ ó sử dụng các thuật toán học máy mạnh ể phân lớp. Một số kỹ thuật làm sạch dữ liệu (data cleaning techniques) như Tomek links ược dùng ể loại bỏ sự trùng lặp hoặc chồng lẫn của các mẫu trong tập dữ liệu sau khi thực hiện các thuật toán tạo các mẫu tổng hợp (Over Sampling) [34][35]. 11 Các phương pháp tiếp cận ở mức thuật toán hướng tới việc iều chßnh các thuật toán phân lớp truyền thống ể vẫn ạt ược hiệu quả cao trên các tập dữ liệu không cân bằng. Các phương pháp phổ biến như học dựa trên nhạy cảm chi phí [36][37][38], iều chßnh xác suất ước lượng [30][39], sử dụng các hằng số phạt khác nhau cho các nhãn lớp khác nhau [40][41].

Một số thuật toán ược nghiên cứu cải tiến iển hình như: Boosting [20], AdaC1, AdaC2, AdaC3 [42][43][44][45][46], sử dụng Cây quyết ịnh (Cost-Sensitive Decision Trees) [38][47], sử dụng các hàm kernel máy vectơ hỗ trợ SVM, sử dụng kỹ thuật học sâu,. Một số nghiên cứu khác sử dụng kết hợp cải tiến thuật toán và sửa ổi mẫu như [19][48][49][50][51]. Việc sử dụng các phương pháp tiếp cận ở mức dữ liệu trong một số trường hợp nào ó có thể dẫn ến mất i những thông tin quan trọng của bộ dữ liệu hoặc ưa nhiễu vào tập dữ liệu. Do ó, luận án tiếp cận giải quyết bài toán có dữ liệu không cân bằng ở mức thuật toán, tức là nghiên cứu cải tiến các thuật toán truyền thống ể nó ạt ược hiệu quả phân lớp tốt trên dữ liệu không cân bằng.

Trong ó, luận án lựa chọn các giải thuật mạnh như học kết hợp boosting hay SVM có trọng số ể nghiên cứu cải tiến, giải quyết vấn ề phân lớp trên dữ liệu không cân bằng. Phân tích một số phương pháp tiếp cận ở mức thuật toán ể giải quyết không cân bằng dữ liệu, các phương pháp dựa trên cải tiến dựa trên AdaBoost [42], cải tiến dựa trên SVMs [21][52] và các phương pháp học sâu dựa trên CNN [53] thu hút rất nhiều sự quan tâm bởi tính tùy biến mở rộng của các thuật toán cho các bài toán có dữ liệu có tính chất khác nhau là rất hiệu quả. Thuật toán học kết hợp AdaBoost do Freund [20] ề xuất dựa trên quan iểm là: khi sử dụng một bộ phân lớp ơn lẻ có thể sẽ không xem xét một cách ầy ủ các ặc iểm của tập dữ liệu, do ó việc kết hợp sử dụng nhiều bộ phân lớp thành viên khác nhau ể tạo thành một bộ phân lớp tổng hợp có thể sẽ xem xét kỹ hơn các ặc tính của dữ liệu và em lại hiệu quả phân lớp tốt hơn. ể sử dụng kết hợp các bộ phân lớp con, thường có hai cách kết hợp là tuần tự (boosting) hoặc song song (bagging).

AdaBoost là kiểu kết hợp tuần tự và sửa lỗi phân lớp thích nghi qua mỗi lần lặp. Về phương pháp học kết hợp dạng song song, nổi bật nhất là thuật toán rừng ngẫu nhiên (Random forest). Thuật toán này chia nhỏ bộ dữ liệu gốc thành các tập dữ liệu con bằng kỹ thuật bootstrap và sử dụng các bộ phân lớp thành viên cho các tập dữ liệu con, sau ó kết quả phân lớp chung cuối cùng sẽ ược tổng hợp từ các bộ phân lớp thành viên. Tuy 12 nhiên trong trường hợp dữ liệu không cân bằng, ặc biệt là dữ liệu không cân bằng mức cao, số lượng mẫu nhãn dương +1 là rất ít.

Vì vậy việc lấy mẫu ngẫu nhiên ể tạo ra các bộ dữ liệu con khó ảm bảo ầy ủ tính chất của dữ liệu. Do ó, thuật toán học kết hợp AdaBoost ược luận án lựa chọn ể thực hiện nghiên cứu cải tiến. SVM [21] là một thuật toán phân lớp mạnh trong học máy. SVM ã ược nghiên cứu rộng rãi và ược chứng minh là một phương pháp phân lớp mạnh trong các kết quả thực nghiệm.

Giải thuật này ặc biệt hiệu quả ối với các dữ liệu phân biệt tuyến tính. Ngoài ra, thuật toán cũng khá mềm dẻo và có khả năng cải tiến mở rộng ể ạt hiệu quả cao trên những bộ dữ liệu có ặc tính khác nhau. ối với bài toán phân lớp dữ liệu không cân bằng, ã có rất nhiều các nghiên cứu cải tiến SVM như là Weighted-SVM [22], Kernel-SVM, ặc biệt là Fuzzy SVM [23], Fuzzy SVM-CIL [24]. Một iều cần lưu ý nữa là hai thuật toán AdaBoost và SVM ều sử dụng hàm xét dấu (−/+) ể ưa ra kết quả phân lớp nên nó trở thành lựa chọn hợp lý và phù hợp ể cải tiến cho bài toán phân lớp nhị phân có dữ liệu không cân bằng mà luận án hướng tới.

Bên cạnh vấn ề dữ liệu không cân bằng về số lượng mẫu trong các lớp, một vấn ề chung ể nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việc phân lớp chính xác trong các vùng không gian nhạy cảm như: mẫu dữ liệu là nhiễu hoặc mẫu dữ liệu phân bố trong không gian ranh giới phân lớp của hai lớp. ể xác ịnh các vùng không gian chứa các mẫu nhạy cảm này, chúng ta cần các phương pháp o lường khoảng cách hoặc xem xét phân bố các mẫu. Do vậy chúng ta cần lưu ý ến việc sử dụng các thuật toán như K-nearest neighbors (KNN) và Tomek link ể ịnh vị các mẫu trong không gian phân bố. Mặt khác SVM là thuật toán phân lớp dạng tuyến tính dựa trên lề và có các tham số iều chßnh ể mở rộng hoặc co hẹp không gian biên lề phân lớp.

Khi sử dụng SVM làm bộ phân lớp cơ sở, chúng ta hoàn toàn có thể xác ịnh ược vùng không gian nhạy cảm là biên lề phân lớp. Ngoài ra, với dữ liệu không ầy ủ, không chắc chắn, phương pháp xử lý mờ dựa trên lý thuyết tập mờ của Zadeh [54] ưa ra vào năm 1965 tỏ ra hiệu quả. Nhiều nghiên cứu ã ề xuất các phương pháp xử lý mờ ể giải quyết vấn ề này. Vì vậy việc nghiên cứu vận dụng và cải tiến các thuật toán như AdaBoost, SVM có trọng số, KNN, Tomek link [55] và các gải thuật phân lớp mờ Fuzzy SVM, Fuzzy SVM-CIL cho dữ liệu không cân bằng mang ến nhiều triển vọng.

13 Dựa vào việc phân tích trên, trong phần tiếp theo, luận án sẽ trình bày tóm lược các thuật toán liên quan làm cơ sở cho các nghiên cứu cải tiến nhằm hướng ến giải quyết bài toán phân lớp nhị phân trên dữ liệu không cân bằng nói chung và ứng dụng trong bài toán dự oán cộng tác ồng tác giả nói riêng. Một số thuật toán liên quan 1. Thuật toán SVM Thuật toán 1.1: Thuật toán SVM Input: Tập dữ liệu X = {(x1 , y1 ),. , (xN , yN )} với yi = {−1, +1}; C : tham số iều chßnh kiểm soát sự ồng nhất của siêu phẳng phân lớp.

Output: Hệ số w: véc-tơ trọng số của các thuộc tính, b: thuộc tính ộ lệch ể xác ịnh siêu phẳng phân lớp. 1 Khởi tạo w và b 2 for Lặp ến khi hội tụ do 3 for Duyệt từng mẫu huấn luyện xi do 4 Tính di = yi (w · xi + b) 5 Tính hàm chi phí cho mẫu xi : costi = max(0, 1 − di ) Tính hàm mục tiêu: J(w, b) = 12 ||w||22 + C N i=1 costi ; P 6 7 Cập nhật w và b bằng phương pháp tối ưu hóa: minJ(w, b) 8 return h(x) = sign(w · x + b). SVM ã ược nghiên cứu, thử nghiệm và chứng minh là một phương pháp phân lớp mạnh, ặc biệt hiệu quả ối với các dữ liệu phân biệt tuyến tính. Ngoài ra, thuật toán cũng khá mềm dẻo và có khả năng cải tiến mở rộng ể ạt hiệu quả cao trên những bộ dữ liệu có ặc tính khác nhau.

ối với vấn ề phân lớp nhị phân, với tập dữ liệu D = {(xi , yi )|i = 1, 2, · · · , N }, trong ó xi ∈ Rn ại diện cho một iểm dữ liệu n chiều và yi ∈ {−1, +1} là nhãn lớp của xi. Mục tiêu của thuật toán SVM là tìm ra một siêu phẳng phân tách các iểm dữ liệu này thành hai lớp trong không gian ặc trưng Rn. Hàm mục tiêu cần tối ưu cho siêu phẳng phân tách trong không gian ặc trưng Rn ược biểu thị bằng: ïω, xð + b = 0, (1.1) trong ó ω là ma trận tham số, b là hệ số. Các bước huấn luyện của SVM ược trình bày cụ thể ở Thuật toán 1.

Thuật toán Weighted-SVM ối với vấn ề học máy trên dữ liệu không cân bằng hai nhãn lớp, ã có nhiều cải tiến của thuật toán SVM ược ề xuất như [24][56][57][58][59]. Một cải tiến nổi bật, iển hình trong số ó là thuật toán Weighted-SVM (WSVM) [22].

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng trong dự đoán đồng tác giả" tập trung vào việc nâng cao hiệu quả của các thuật toán phân lớp khi xử lý dữ liệu không cân bằng, một vấn đề phổ biến trong lĩnh vực học máy. Tác giả trình bày các phương pháp cải tiến nhằm tối ưu hóa độ chính xác và khả năng dự đoán của mô hình, từ đó giúp người đọc hiểu rõ hơn về cách thức hoạt động của các thuật toán này trong bối cảnh thực tế.

Đối với những ai quan tâm đến việc áp dụng học máy trong các lĩnh vực khác nhau, bài viết này mở ra nhiều cơ hội để khám phá thêm. Bạn có thể tìm hiểu về việc đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network, một ứng dụng cụ thể của học máy trong y tế. Ngoài ra, bài viết về nghiên cứu một số thuật toán học máy để phân lớp dữ liệu cũng sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các phương pháp phân lớp khác nhau. Cuối cùng, nếu bạn quan tâm đến việc phát hiện bất thường trong dữ liệu, hãy tham khảo bài viết phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách để mở rộng kiến thức của mình.

Những liên kết này không chỉ giúp bạn nắm bắt thêm thông tin mà còn mở rộng hiểu biết về các ứng dụng thực tiễn của học máy trong nhiều lĩnh vực khác nhau.

#Phân tích dữ liệu

#thuật toán phân lớp

#tối ưu hóa mô hình

#dữ liệu không cân bằng

#cải tiến thuật toán

#dự đoán đồng tác giả

Chủ đề

Học máy và ứng dụng

Phân tích dữ liệu không cân bằng

Cải tiến thuật toán trong AI

Dự đoán và phân lớp trong nghiên cứu