Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ và sự phổ biến của thẻ tín dụng, các giao dịch tài chính qua thẻ ngày càng gia tăng, đồng thời kéo theo sự gia tăng các hành vi gian lận gây thiệt hại nghiêm trọng cho cá nhân và tổ chức tài chính. Theo dữ liệu thu thập tại châu Âu trong tháng 9 năm 2013, tổng số giao dịch thẻ tín dụng là 284,807, trong đó chỉ có 492 giao dịch gian lận, chiếm tỷ lệ rất nhỏ khoảng 0.17%. Tỷ lệ mất cân bằng dữ liệu này tạo ra thách thức lớn trong việc phát hiện gian lận chính xác và hiệu quả.

Luận văn tập trung nghiên cứu phát hiện gian lận trong giao dịch thẻ tín dụng bằng cách áp dụng các mô hình học máy kết hợp và phương pháp logic mờ nhằm nâng cao độ chính xác và khả năng dự đoán. Mục tiêu cụ thể là xây dựng mô hình dự đoán các giao dịch gian lận, đồng thời đánh giá hiệu quả của các phương pháp xử lý mất cân bằng dữ liệu như SMOTE, SMOTE-ENN và Random Oversampling. Phạm vi nghiên cứu giới hạn trong dữ liệu giao dịch thẻ tín dụng tại châu Âu năm 2013, với trọng tâm là cải thiện các chỉ số như độ chính xác, recall, precision và F1-score.

Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các tổ chức tài chính phát hiện sớm các giao dịch gian lận, giảm thiểu thiệt hại tài chính và nâng cao an ninh hệ thống thanh toán. Kết quả nghiên cứu cũng góp phần phát triển các giải pháp công nghệ thông tin ứng dụng trong lĩnh vực an ninh tài chính, đồng thời cung cấp cơ sở khoa học cho các nghiên cứu tiếp theo về phát hiện gian lận.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Phương pháp xử lý mất cân bằng dữ liệu:

    • SMOTE (Synthetic Minority Over-sampling Technique) tạo ra các mẫu tổng hợp cho lớp thiểu số nhằm cân bằng dữ liệu, giảm nguy cơ overfitting.
    • SMOTE-ENN kết hợp SMOTE với phương pháp loại bỏ mẫu nhiễu Edited Nearest Neighbors (ENN) để cải thiện chất lượng dữ liệu sau khi cân bằng.
    • Random Oversampling sao chép ngẫu nhiên các mẫu lớp thiểu số để tăng số lượng mẫu, tuy nhiên có nguy cơ gây overfitting.
  • Phương pháp kết hợp mô hình học máy:

    • Voting (bỏ phiếu) gồm hard voting và soft voting, tổng hợp dự đoán từ nhiều mô hình để đưa ra quyết định cuối cùng.
    • Stacking sử dụng mô hình meta-learner để học cách kết hợp dự đoán từ các mô hình cơ sở, giúp cải thiện hiệu suất và giảm overfitting.
  • Logic mờ (Fuzzy Logic):
    Áp dụng để đánh giá mức độ gian lận của giao dịch theo tỷ lệ phần trăm, giúp phân loại giao dịch thành các mức độ gian lận khác nhau, hỗ trợ bộ phận kiểm tra tập trung vào các giao dịch có khả năng gian lận cao.

Các khái niệm chính bao gồm: mất cân bằng dữ liệu, overfitting, precision, recall, F1-score, hàm thành viên tập mờ, luật mờ, và phương pháp suy luận Max-Min.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Tập dữ liệu giao dịch thẻ tín dụng thu thập tại châu Âu tháng 9 năm 2013, gồm 284,807 giao dịch với 492 giao dịch gian lận.

  • Phương pháp phân tích:

    • Tiền xử lý dữ liệu: chuẩn hóa các biến Time và Amount, chia dữ liệu thành 80% huấn luyện và 20% kiểm tra.
    • Áp dụng 11 mô hình học máy gồm Random Forest, Logistic Regression, Decision Tree, Naive Bayes, K-Nearest Neighbors (KNN), XGBoost, SVM, MLP, ANN, LightGBM, LSTM.
    • Thử nghiệm xử lý mất cân bằng dữ liệu qua 3 phương pháp: SMOTE, SMOTE-ENN, Random Oversampling.
    • Đánh giá mô hình bằng các chỉ số Accuracy, Precision, Recall, F1-score, RMSE.
    • Kết hợp các mô hình tốt nhất bằng Voting và Stacking để nâng cao hiệu quả dự đoán.
    • Phát triển mô hình logic mờ sử dụng các biến độc lập V4 và V17, xây dựng hàm thành viên tập mờ hình L, tam giác, hình thang, và kết hợp các tập mờ để dự đoán tỷ lệ gian lận.
  • Timeline nghiên cứu: Thực hiện trong năm 2023, với các giai đoạn tiền xử lý, xây dựng mô hình, đánh giá và phát triển ứng dụng đơn giản sử dụng Streamlit.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Ảnh hưởng của xử lý mất cân bằng dữ liệu:

    • Phương pháp SMOTE và Random Oversampling không cải thiện đáng kể so với không xử lý mất cân bằng.
    • SMOTE-ENN cho kết quả tốt hơn rõ rệt với mô hình Logistic Regression đạt độ chính xác 0.97 và recall cao hơn so với các phương pháp khác.
  2. Tình trạng overfitting:

    • Hầu hết các mô hình học máy đều bị overfitting khi sử dụng SMOTE-ENN, thể hiện qua sự chênh lệch lớn giữa kết quả trên tập huấn luyện và tập kiểm tra, đặc biệt ở precision.
    • Mô hình cây quyết định bị overfitting nghiêm trọng, được khắc phục bằng việc giới hạn độ sâu cây ở mức 5, giúp cân bằng F1-score giữa tập huấn luyện và kiểm tra.
  3. Hiệu quả kết hợp mô hình:

    • Phương pháp Voting kết hợp ba mô hình Logistic Regression, XGBoost và KNN đạt độ chính xác 0.82 và F1-score 0.89, vượt trội hơn so với từng mô hình riêng lẻ.
    • Voting cho kết quả tốt hơn Stacking trong nghiên cứu này, đồng thời không gặp tình trạng overfitting.
  4. Ứng dụng logic mờ:

    • Sử dụng hai biến V4 và V17 có mối tương quan mạnh với biến phụ thuộc (Class) để xây dựng hàm thành viên tập mờ.
    • Ba cách xây dựng hàm thành viên (tập mờ hình L và tam giác, tập mờ hình thang, kết hợp cả ba) được thử nghiệm để tìm ra cấu hình tối ưu.
    • Logic mờ cho phép dự đoán mức độ gian lận theo tỷ lệ phần trăm, hỗ trợ phân loại giao dịch thành các mức độ gian lận thấp, trung bình và cao, giúp tiết kiệm thời gian kiểm tra.

Thảo luận kết quả

Kết quả cho thấy việc xử lý mất cân bằng dữ liệu không phải lúc nào cũng cần thiết, đặc biệt khi dữ liệu có tỷ lệ gian lận rất thấp như trong nghiên cứu này. SMOTE-ENN tuy cải thiện recall và accuracy nhưng gây ra overfitting, làm giảm tính tổng quát của mô hình trên dữ liệu mới. Việc giới hạn độ sâu cây quyết định là một giải pháp hiệu quả để giảm overfitting.

Sự kết hợp mô hình bằng Voting tận dụng ưu điểm của từng thuật toán, cải thiện đáng kể các chỉ số đánh giá, đồng thời giảm thiểu nhược điểm của từng mô hình riêng lẻ. Điều này phù hợp với các nghiên cứu trước đây về ensemble learning trong phát hiện gian lận.

Phương pháp logic mờ mở ra hướng tiếp cận mới, không chỉ phân loại nhị phân mà còn đánh giá mức độ gian lận, giúp bộ phận kiểm tra tập trung nguồn lực vào các giao dịch có nguy cơ cao. Việc xây dựng hàm thành viên dựa trên phân tích phân bố dữ liệu và mối tương quan giữa các biến đầu vào và đầu ra là bước quan trọng để đảm bảo độ chính xác của mô hình logic mờ.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ phân bố, box plot, ma trận nhầm lẫn, và biểu đồ biến đổi F1-score theo độ sâu cây quyết định để minh họa rõ ràng hiệu quả từng bước xử lý và mô hình.

Đề xuất và khuyến nghị

  1. Triển khai mô hình kết hợp Voting trong hệ thống phát hiện gian lận:

    • Áp dụng mô hình kết hợp Logistic Regression, XGBoost và KNN để nâng cao độ chính xác phát hiện gian lận.
    • Thời gian thực hiện: 6 tháng.
    • Chủ thể thực hiện: Bộ phận công nghệ thông tin và phòng chống gian lận của tổ chức tài chính.
  2. Áp dụng logic mờ để phân loại mức độ gian lận:

    • Phát triển hệ thống cảnh báo dựa trên tỷ lệ phần trăm gian lận, giúp tối ưu hóa quy trình kiểm tra giao dịch.
    • Thời gian thực hiện: 4 tháng.
    • Chủ thể thực hiện: Đội ngũ phân tích dữ liệu và kiểm soát rủi ro.
  3. Giới hạn độ sâu cây quyết định trong các mô hình cây để tránh overfitting:

    • Áp dụng tham số max_depth = 5 cho mô hình cây quyết định khi sử dụng trong phát hiện gian lận.
    • Thời gian thực hiện: 1 tháng.
    • Chủ thể thực hiện: Nhóm phát triển mô hình học máy.
  4. Đào tạo và nâng cao nhận thức cho nhân viên kiểm tra giao dịch:

    • Tổ chức các khóa đào tạo về cách sử dụng kết quả dự đoán và logic mờ để phân loại và xử lý giao dịch gian lận.
    • Thời gian thực hiện: 3 tháng.
    • Chủ thể thực hiện: Phòng nhân sự và đào tạo.
  5. Nghiên cứu mở rộng và cập nhật dữ liệu thường xuyên:

    • Thu thập và cập nhật dữ liệu giao dịch mới để cải thiện mô hình, đồng thời đánh giá lại hiệu quả mô hình theo chu kỳ.
    • Thời gian thực hiện: liên tục.
    • Chủ thể thực hiện: Bộ phận phân tích dữ liệu và nghiên cứu phát triển.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Khoa học Dữ liệu:

    • Lợi ích: Hiểu rõ các phương pháp xử lý mất cân bằng dữ liệu, kỹ thuật kết hợp mô hình và ứng dụng logic mờ trong phát hiện gian lận.
    • Use case: Áp dụng kiến thức để phát triển các đề tài nghiên cứu hoặc luận văn liên quan.
  2. Chuyên gia và kỹ sư phát triển hệ thống ngân hàng, tài chính:

    • Lợi ích: Áp dụng mô hình học máy và logic mờ để nâng cao hiệu quả phát hiện gian lận trong hệ thống giao dịch thẻ tín dụng.
    • Use case: Tích hợp mô hình vào hệ thống giám sát giao dịch thực tế.
  3. Bộ phận phòng chống gian lận và kiểm soát rủi ro trong các tổ chức tài chính:

    • Lợi ích: Sử dụng kết quả dự đoán để tối ưu hóa quy trình kiểm tra, giảm thiểu thiệt hại tài chính.
    • Use case: Phân loại giao dịch theo mức độ gian lận để ưu tiên kiểm tra.
  4. Nhà quản lý và hoạch định chính sách trong lĩnh vực an ninh tài chính:

    • Lợi ích: Hiểu rõ các công nghệ mới trong phát hiện gian lận, từ đó xây dựng chính sách và quy trình phù hợp.
    • Use case: Đề xuất các biện pháp phòng ngừa và ứng phó với gian lận thẻ tín dụng.

Câu hỏi thường gặp

  1. Tại sao cần xử lý mất cân bằng dữ liệu trong phát hiện gian lận?
    Mất cân bằng dữ liệu làm cho mô hình học máy dễ bị thiên lệch về lớp đa số, dẫn đến khả năng phát hiện gian lận thấp. Các phương pháp như SMOTE giúp tạo thêm mẫu cho lớp thiểu số, cải thiện khả năng học của mô hình. Tuy nhiên, trong nghiên cứu này, không xử lý mất cân bằng vẫn cho kết quả tốt do tỷ lệ gian lận quá thấp và đặc thù dữ liệu.

  2. Phương pháp kết hợp mô hình Voting và Stacking khác nhau như thế nào?
    Voting tổng hợp dự đoán trực tiếp từ các mô hình cơ sở bằng cách bỏ phiếu, trong khi Stacking sử dụng một mô hình meta-learner để học cách kết hợp dự đoán. Voting đơn giản và ít tốn tài nguyên hơn, còn Stacking có thể cải thiện hiệu suất nhưng phức tạp hơn.

  3. Logic mờ giúp gì trong phát hiện gian lận thẻ tín dụng?
    Logic mờ cho phép đánh giá mức độ gian lận theo tỷ lệ phần trăm thay vì chỉ phân loại nhị phân, giúp bộ phận kiểm tra tập trung vào các giao dịch có nguy cơ cao, tiết kiệm thời gian và nguồn lực.

  4. Làm thế nào để tránh overfitting trong mô hình cây quyết định?
    Giới hạn độ sâu cây quyết định (max_depth) giúp kiểm soát độ phức tạp của mô hình, tránh việc mô hình học quá mức trên dữ liệu huấn luyện và không tổng quát hóa tốt trên dữ liệu mới.

  5. Có thể áp dụng kết quả nghiên cứu này cho các loại thẻ tín dụng khác hoặc khu vực khác không?
    Mặc dù dữ liệu nghiên cứu là từ châu Âu năm 2013, các phương pháp và mô hình có thể được điều chỉnh và áp dụng cho các bộ dữ liệu khác. Tuy nhiên, cần thu thập dữ liệu thực tế và đánh giá lại hiệu quả mô hình để đảm bảo phù hợp với đặc thù từng khu vực và loại thẻ.

Kết luận

  • Luận văn đã xây dựng thành công mô hình phát hiện gian lận thẻ tín dụng dựa trên kết hợp các mô hình học máy và phương pháp logic mờ, nâng cao độ chính xác và khả năng dự đoán.
  • Phương pháp xử lý mất cân bằng dữ liệu không phải lúc nào cũng cần thiết; trong nghiên cứu này, không xử lý vẫn cho kết quả tốt và tránh overfitting.
  • Kết hợp mô hình bằng Voting với Logistic Regression, XGBoost và KNN đạt hiệu quả cao nhất với độ chính xác 0.82 và F1-score 0.89.
  • Logic mờ giúp phân loại mức độ gian lận theo tỷ lệ phần trăm, hỗ trợ tối ưu hóa quy trình kiểm tra giao dịch.
  • Hướng phát triển tiếp theo là mở rộng dữ liệu, cải tiến mô hình logic mờ và ứng dụng thực tế trong các hệ thống ngân hàng, tài chính.

Hành động tiếp theo: Triển khai mô hình kết hợp Voting và logic mờ trong hệ thống phát hiện gian lận thực tế, đồng thời tiếp tục nghiên cứu cải tiến và mở rộng phạm vi ứng dụng.