Nâng cao thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Trường đại học

Đại học Bách Khoa Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2024

123
0
0

Phí lưu trữ

40.000 VNĐ

Tóm tắt

I. Tổng quan về vấn đề nghiên cứu

Bài toán phân lớp với dữ liệu không cân bằng là một thách thức lớn trong lĩnh vực học máy. Thuật toán phân lớp truyền thống thường gặp khó khăn khi xử lý các tập dữ liệu không cân bằng, dẫn đến việc phân loại không chính xác. Trong bối cảnh dự đoán đồng tác giả, việc cải tiến các thuật toán phân lớp là cần thiết để nâng cao độ chính xác và hiệu quả. Nghiên cứu này tập trung vào việc cải tiến thuật toán AdaBoostFuzzy SVM để xử lý các vấn đề liên quan đến dữ liệu không cân bằng. Các phương pháp này không chỉ giúp cải thiện độ chính xác mà còn tối ưu hóa quá trình phân tích và dự đoán trong mạng xã hội học thuật.

1.1. Bài toán dự đoán đồng tác giả

Bài toán dự đoán đồng tác giả được định nghĩa là việc dự đoán khả năng hợp tác giữa các tác giả dựa trên dữ liệu hiện có. Mô hình hóa bài toán này yêu cầu xây dựng các đặc trưng từ dữ liệu không cân bằng để xác định mối quan hệ giữa các tác giả. Việc sử dụng các phương pháp học máy như học có giám sáthọc không giám sát giúp cải thiện khả năng dự đoán. Các nghiên cứu trước đây đã chỉ ra rằng việc áp dụng các thuật toán phân lớp có thể nâng cao khả năng dự đoán mối quan hệ hợp tác trong mạng xã hội học thuật.

II. Cải tiến thuật toán AdaBoost cho dữ liệu không cân bằng

Nghiên cứu này đề xuất một phương pháp cải tiến cho thuật toán AdaBoost nhằm xử lý dữ liệu không cân bằng. Phương pháp này bao gồm việc khởi tạo trọng số cho các mẫu dữ liệu, giúp tăng cường độ nhạy cảm của thuật toán đối với các lớp thiểu số. Kết quả thử nghiệm cho thấy rằng việc điều chỉnh trọng số có thể cải thiện đáng kể độ chính xác của mô hình. Cụ thể, các thử nghiệm trên các bộ dữ liệu UCI cho thấy rằng AdaBoost có thể đạt được hiệu suất cao hơn khi được điều chỉnh để phù hợp với dữ liệu không cân bằng. Điều này chứng tỏ rằng việc cải tiến thuật toán là cần thiết để nâng cao khả năng phân loại trong các bài toán thực tiễn.

2.1. Phân tích thuật toán AdaBoost

Phân tích thuật toán AdaBoost cho thấy rằng thuật toán này hoạt động dựa trên nguyên tắc kết hợp nhiều mô hình yếu thành một mô hình mạnh. Tuy nhiên, khi áp dụng cho dữ liệu không cân bằng, thuật toán có thể thiên lệch về lớp chiếm ưu thế. Để khắc phục điều này, nghiên cứu đã đề xuất một phương pháp khởi tạo trọng số cho các mẫu, giúp tăng cường độ nhạy cảm của thuật toán đối với các lớp thiểu số. Kết quả thử nghiệm cho thấy rằng phương pháp này không chỉ cải thiện độ chính xác mà còn giảm thiểu tỷ lệ lỗi trong phân loại.

III. Ứng dụng trong dự đoán đồng tác giả

Việc áp dụng các thuật toán đã cải tiến vào bài toán dự đoán đồng tác giả cho thấy nhiều triển vọng. Các mô hình phân lớp được xây dựng từ dữ liệu không cân bằng có thể dự đoán chính xác hơn các mối quan hệ hợp tác tiềm năng giữa các tác giả. Nghiên cứu đã chỉ ra rằng việc sử dụng các thuật toán như Fuzzy SVMAdaBoost có thể tạo ra các mô hình dự đoán hiệu quả, giúp các nhà nghiên cứu tìm kiếm cộng sự phù hợp. Điều này không chỉ có ý nghĩa trong việc nâng cao chất lượng nghiên cứu mà còn thúc đẩy sự phát triển của cộng đồng khoa học.

3.1. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy rằng các mô hình phân lớp cải tiến có thể đạt được độ chính xác cao hơn so với các mô hình truyền thống. Cụ thể, các mô hình này đã được áp dụng cho các bộ dữ liệu thực tế và cho thấy khả năng dự đoán mối quan hệ hợp tác giữa các tác giả một cách hiệu quả. Việc sử dụng các phương pháp học máy hiện đại đã giúp tối ưu hóa quá trình phân tích và dự đoán, từ đó nâng cao chất lượng nghiên cứu trong mạng xã hội học thuật.

07/02/2025
Luận án tiến sĩ cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả
Bạn đang xem trước tài liệu : Luận án tiến sĩ cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài viết "Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng trong dự đoán đồng tác giả" tập trung vào việc nâng cao hiệu quả của các thuật toán phân lớp khi xử lý dữ liệu không cân bằng, một vấn đề phổ biến trong lĩnh vực học máy. Tác giả trình bày các phương pháp cải tiến nhằm tối ưu hóa độ chính xác và khả năng dự đoán của mô hình, từ đó giúp người đọc hiểu rõ hơn về cách thức hoạt động của các thuật toán này trong bối cảnh thực tế.

Đối với những ai quan tâm đến việc áp dụng học máy trong các lĩnh vực khác nhau, bài viết này mở ra nhiều cơ hội để khám phá thêm. Bạn có thể tìm hiểu về việc đánh giá tỷ lệ lỗi của bộ phân loại tín hiệu điện tim dùng neural network, một ứng dụng cụ thể của học máy trong y tế. Ngoài ra, bài viết về nghiên cứu một số thuật toán học máy để phân lớp dữ liệu cũng sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các phương pháp phân lớp khác nhau. Cuối cùng, nếu bạn quan tâm đến việc phát hiện bất thường trong dữ liệu, hãy tham khảo bài viết phát hiện bất thường trên chuỗi thời gian dựa vào ma trận khoảng cách để mở rộng kiến thức của mình.

Những liên kết này không chỉ giúp bạn nắm bắt thêm thông tin mà còn mở rộng hiểu biết về các ứng dụng thực tiễn của học máy trong nhiều lĩnh vực khác nhau.