Nghiên cứu về dữ liệu không cân bằng trong phân loại: Trường hợp tín dụng

Chuyên ngành

Statistics

Người đăng

Ẩn danh

Thể loại

Doctoral Dissertation

2024

173
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Về Dữ Liệu Không Cân Bằng Trong Phân Loại

Phân loại đóng vai trò quan trọng trong nhiều lĩnh vực như y học (chẩn đoán ung thư), tài chính (phát hiện gian lận), quản trị kinh doanh (dự đoán churn khách hàng), truy xuất thông tin (theo dõi tràn dầu, gian lận viễn thông), và nhận dạng ảnh (nhận diện khuôn mặt). Phân loại là bài toán dự đoán nhãn lớp cho một mẫu dữ liệu cho trước. Các thuật toán phân loại học các đặc trưng của mẫu để nhận diện các mẫu nhãn từ các tập dữ liệu huấn luyện bao gồm các mẫu với các loại nhãn khác nhau. Sau đó, các mẫu này, hiện được trình bày dưới dạng mô hình phân loại phù hợp, sẽ đưa ra dự đoán về nhãn của các mẫu mới. Phân loại được chia thành hai loại: nhị phân và đa phân loại. Phân loại nhị phân tập trung vào các bài toán nhãn hai lớp. Ngược lại, đa phân loại giải quyết các nhiệm vụ của một số nhãn lớp. Đa phân loại đôi khi được coi là nhị phân với hai lớp: một lớp tương ứng với nhãn quan tâm và lớp còn lại đại diện cho các nhãn còn lại. Trong phân loại nhị phân, tập dữ liệu được chia thành các lớp dương tính và âm tính. Lớp dương tính là lớp quan tâm, lớp này phải được xác định trong nhiệm vụ phân loại. Luận án này tập trung vào phân loại nhị phân.

1.1. Mô Tả Bài Toán Phân Loại Nhị Phân Chi Tiết

Một tập dữ liệu với k đặc trưng đầu vào cho phân loại nhị phân là tập hợp các mẫu S = X × Y, trong đó X ⊂ Rk là miền của các đặc trưng của mẫu và Y = {0, 1} là tập hợp các nhãn. Tập con của các mẫu được gắn nhãn 1 được gọi là lớp dương tính, được ký hiệu là S +. Tập con còn lại được gọi là lớp âm tính, được ký hiệu là S -. Một mẫu s ∈ S + được gọi là mẫu dương tính, ngược lại nó được gọi là mẫu âm tính. Một bộ phân loại nhị phân là một hàm ánh xạ miền của các đặc trưng X sang tập hợp các nhãn {0, 1}. Xem xét một tập dữ liệu S và một bộ phân loại f: X → {0, 1}. Với một mẫu s0 = (x0, y0) ∈ S, có bốn khả năng xảy ra: Nếu f(s0) = y0 = 1, s0 được gọi là một mẫu dương tính thực sự. Nếu f(s0) = y0 = 0, s0 được gọi là một mẫu âm tính thực sự. Nếu f(s0) = 1 và y0 = 0, s0 được gọi là một mẫu dương tính sai. Nếu f(s0) = 0 và y0 = 1, s0 được gọi là một mẫu âm tính sai.

1.2. Các Độ Đo Đánh Giá Hiệu Suất Mô Hình Phân Loại

Số lượng các mẫu dương tính thực, âm tính thực, dương tính sai và âm tính sai, được ký hiệu lần lượt là TP, TN, FP và FN. Một số tiêu chí phổ biến được sử dụng để đánh giá hiệu suất của bộ phân loại là độ chính xác, tỷ lệ dương tính thực (TPR), tỷ lệ âm tính thực (TNR), tỷ lệ dương tính sai (FPR) và tỷ lệ âm tính sai (FNR). Trong nhiều lĩnh vực ứng dụng nơi có sự cân bằng giữa các lớp dương tính và âm tính, độ chính xác là mục tiêu đầu tiên của bộ phân loại. Tuy nhiên, lớp quan tâm (lớp dương tính) đôi khi bao gồm các sự kiện bất thường hoặc các sự kiện hiếm gặp. Số lượng mẫu trong lớp dương tính quá nhỏ để bộ phân loại nhận ra các mẫu dương tính. Trong những tình huống như vậy, nếu bộ phân loại mắc lỗi trong lớp dương tính, chi phí tổn thất sẽ rất lớn. Do đó, độ chính xác không còn là tiêu chí hiệu suất quan trọng nhất mà là thứ gì đó liên quan đến TP như TPR.

II. Vấn Đề Dữ Liệu Không Cân Bằng Ảnh Hưởng Mô Hình Ra Sao

Trong nhiều lĩnh vực ứng dụng nơi có sự cân bằng giữa các lớp dương tính và âm tính, độ chính xác là mục tiêu đầu tiên của bộ phân loại. Tuy nhiên, lớp quan tâm (lớp dương tính) đôi khi bao gồm các sự kiện bất thường hoặc các sự kiện hiếm gặp. Số lượng mẫu trong lớp dương tính quá nhỏ để bộ phân loại nhận ra các mẫu dương tính. Trong những tình huống như vậy, nếu bộ phân loại mắc lỗi trong lớp dương tính, chi phí tổn thất sẽ rất nặng. Do đó, độ chính xác không còn là tiêu chí hiệu suất quan trọng nhất mà là thứ gì đó liên quan đến TP như TPR. Ví dụ, trong phát hiện gian lận, khách hàng được chia thành các lớp “xấu” và “tốt”. Vì các quy định tín dụng được công khai và khách hàng đã được sàng lọc sơ bộ trước khi đăng ký vay, một bộ dữ liệu tín dụng thường bao gồm phần lớn khách hàng tốt và một phần nhỏ khách hàng xấu. Mất mát do phân loại sai “xấu” thành “tốt” thường lớn hơn nhiều so với mất mát do phân loại sai “tốt” thành “xấu”. Do đó, việc xác định người xấu thường được coi là quan trọng hơn các nhiệm vụ khác.

2.1. Ảnh Hưởng Của Độ Chính Xác Trong Bài Toán Dữ Liệu Mất Cân Bằng

Hãy xem xét một danh sách khách hàng tín dụng bao gồm 95% tốt và 5% xấu. Nếu theo đuổi độ chính xác cao, chúng ta có thể chọn một bộ phân loại tầm thường ánh xạ tất cả khách hàng có nhãn tốt. Sau đó, độ chính xác của bộ phân loại này là 95%, nhưng TPR là 0%. Nói cách khác, bộ phân loại này không thể xác định khách hàng xấu. Thay vào đó, một bộ phân loại khác có độ chính xác thấp hơn nhưng TPR lớn hơn có thể được xem xét để thay thế bộ phân loại tầm thường này. Một ví dụ khác về phân loại hiếm gặp là chẩn đoán ung thư. Trong trường hợp này, tập dữ liệu có hai lớp, đó là “ác tính” và “lành tính”. Số lượng bệnh nhân ác tính luôn ít hơn nhiều so với số lượng bệnh nhân lành tính. Tuy nhiên, ác tính là mục tiêu đầu tiên của bất kỳ quy trình chẩn đoán ung thư nào vì những hậu quả nặng nề của việc bỏ sót bệnh nhân ung thư. Do đó, việc dựa vào chỉ số độ chính xác để đánh giá hiệu suất của bộ phân loại chẩn đoán ung thư là không hợp lý.

2.2. Định Nghĩa Tỷ Lệ Mất Cân Bằng IR Cụ Thể

Hiện tượng phân phối lệch trong tập dữ liệu huấn luyện cho phân loại được gọi là dữ liệu không cân bằng. Cho S = S + ∪ S − là tập dữ liệu, trong đó S + và S − lần lượt là các lớp dương tính và âm tính. Nếu số lượng S + nhỏ hơn nhiều so với số lượng S −, S được gọi là một tập dữ liệu không cân bằng. Bên cạnh đó, tỷ lệ không cân bằng (IR) của S được định nghĩa là tỷ lệ số lượng lớp âm tính và dương tính: IR = |S − | / |S + |.

III. Giải Pháp 1 Ensemble Cây Quyết Định Để Đánh Giá Tín Dụng

Luận án này đề xuất các giải pháp cho phân loại không cân bằng. Hơn nữa, các giải pháp này được áp dụng cho một nghiên cứu trường hợp đánh giá tín dụng. Các giải pháp này được rút ra từ ba bài báo được công bố trên các tạp chí khoa học. Bài báo đầu tiên trình bày một mô hình ensemble cây quyết định có thể diễn giải được cho các tập dữ liệu đánh giá tín dụng không cân bằng. Bài báo thứ hai giới thiệu một kỹ thuật mới để giải quyết dữ liệu không cân bằng, đặc biệt trong các trường hợp mẫu chồng chéo và nhiễu. Bài báo cuối cùng đề xuất một sửa đổi của hồi quy Logistic tập trung vào tối ưu hóa độ đo F, một độ đo phổ biến trong phân loại không cân bằng.

3.1. Ưu Điểm Của Mô Hình Ensemble Trong Đánh Giá Tín Dụng

Các bộ phân loại này đã được huấn luyện trên một loạt các tập dữ liệu công khai và riêng tư với trạng thái không cân bằng cao và các lớp chồng chéo. Các kết quả chính chứng minh rằng các công trình được đề xuất vượt trội hơn cả các mô hình truyền thống và một số mô hình gần đây. Các mô hình ensemble giúp giảm phương sai và sai lệch, từ đó cải thiện độ chính xác dự đoán.

3.2. Giải Thích Kết Quả Dễ Dàng Hơn Với Cây Quyết Định

Cây quyết định có khả năng hiển thị rõ ràng các quy tắc phân loại, giúp người dùng hiểu rõ hơn về cách thức đưa ra quyết định của mô hình. Điều này đặc biệt quan trọng trong lĩnh vực đánh giá tín dụng, nơi tính minh bạch và giải thích được là yêu cầu bắt buộc.

IV. Giải Pháp 2 Kỹ Thuật Mới Xử Lý Dữ Liệu Chồng Chéo Nhiễu

Bài báo thứ hai giới thiệu một kỹ thuật mới để giải quyết dữ liệu không cân bằng, đặc biệt trong các trường hợp mẫu chồng chéo và nhiễu. Kỹ thuật này tập trung vào việc làm sạch dữ liệu, loại bỏ các mẫu nhiễu và giảm thiểu sự chồng chéo giữa các lớp. Bằng cách này, mô hình học máy có thể tập trung vào các mẫu quan trọng và chính xác hơn.

4.1. Tầm Quan Trọng Của Làm Sạch Dữ Liệu Trong Phân Loại

Dữ liệu nhiễu và chồng chéo có thể làm giảm đáng kể hiệu suất của các mô hình phân loại. Bằng cách loại bỏ các mẫu không chính xác, chúng ta có thể cải thiện độ chính xác và khả năng khái quát hóa của mô hình.

4.2. Các Phương Pháp Giảm Thiểu Chồng Chéo Giữa Các Lớp

Việc giảm thiểu sự chồng chéo giữa các lớp giúp mô hình phân biệt rõ ràng hơn giữa các mẫu thuộc các lớp khác nhau, từ đó cải thiện độ chính xác phân loại. Có nhiều phương pháp để giảm thiểu chồng chéo, bao gồm sử dụng các thuật toán lấy mẫu lại và lựa chọn đặc trưng.

V. Giải Pháp 3 Hiệu Chỉnh Hồi Quy Logistic Tối Ưu F Measure

Bài báo cuối cùng đề xuất một sửa đổi của hồi quy Logistic tập trung vào tối ưu hóa độ đo F, một độ đo phổ biến trong phân loại không cân bằng. Độ đo F kết hợp độ chính xác và độ phủ, cung cấp một đánh giá toàn diện hơn về hiệu suất của mô hình trong các bài toán dữ liệu không cân bằng.

5.1. Tại Sao F Measure Quan Trọng Trong Dữ Liệu Không Cân Bằng

Trong các bài toán dữ liệu không cân bằng, độ chính xác có thể không phải là một độ đo tốt về hiệu suất. F-Measure cung cấp một đánh giá cân bằng hơn bằng cách xem xét cả độ chính xác và độ phủ.

5.2. Cách Hiệu Chỉnh Hồi Quy Logistic Tối Ưu F Measure

Các sửa đổi được đề xuất trong bài báo tập trung vào việc điều chỉnh các tham số của hồi quy Logistic để tối đa hóa F-Measure. Điều này có thể được thực hiện bằng cách sử dụng các thuật toán tối ưu hóa khác nhau.

VI. Kết Luận Đóng Góp Hướng Nghiên Cứu Dữ Liệu Không Cân Bằng

Các bộ phân loại này đã được thực nghiệm trên tập dữ liệu công khai và dữ liệu riêng với tính chất không cân bằng và chồng chéo các lớp. Kết quả đã chứng minh rằng các mô hình của chúng tôi có hiệu quả vượt trội so với các mô hình truyền thống và các mô hình được đề xuất gần đây. Nghiên cứu này đóng góp vào việc cải thiện hiệu suất của các mô hình phân loại trong các bài toán dữ liệu không cân bằng, đặc biệt trong lĩnh vực đánh giá tín dụng.

6.1. Tóm Tắt Đóng Góp Chính Của Luận Án

Luận án này đề xuất một mô hình có khả năng giải thích (ensemble cây quyết định), giới thiệu một kỹ thuật mới cho dữ liệu không cân bằng, đặc biệt trong trường hợp dữ liệu có chồng chéo các lớp và nhiễu, và đề xuất một hiệu chỉnh cho mô hình hồi quy Logistic tập trung vào tối đa hoá độ đo F.

6.2. Đề Xuất Hướng Nghiên Cứu Trong Tương Lai

Các hướng nghiên cứu trong tương lai có thể tập trung vào việc mở rộng các kỹ thuật được đề xuất cho các bài toán đa phân loại và khám phá các phương pháp mới để xử lý dữ liệu không cân bằng với độ phức tạp cao hơn.

23/05/2025

TÀI LIỆU LIÊN QUAN

Imbalanced data in classification a case study of credit scoring
Bạn đang xem trước tài liệu : Imbalanced data in classification a case study of credit scoring

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống