PHÁT HIỆN GIAN LẬN TRONG THẺ TÍN DỤNG BẰNG CÁCH SỬ DỤNG HỌC MÁY VÀ LOGIC MỜ

Luận văn thạc sĩ về phát hiện gian lận thẻ tín dụng sử dụng học máy và logic mờ. Nghiên cứu công nghệ thông tin tiên tiến, giải pháp bảo mật hiệu quả.

Trường đại học

Đại Học Quốc Gia Tp Hcm Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN LUẬN VĂN

1.1. Đặt vấn đề

1.2. Động lực nghiên cứu của luận văn

1.3. Mục tiêu và phạm vi của luận văn

1.4. Nội dung và phương pháp nghiên cứu

1.5. Bố cục của luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Các phương pháp xử lý cân bằng dữ liệu

2.1.1. SMOTE

2.1.2. SMOTE-ENN

2.2. Các phương pháp kết hợp các thuật toán

2.3. Các nghiên cứu liên quan

2.4. Hạn chế của các nghiên cứu trước

2.5. Kết chương

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Phương pháp 1: Áp dụng các mô hình học máy

3.2. Phương pháp 2: Sử dụng logic mờ (fuzzy logic)

3.3. Kết chương

4. CHƯƠNG 4: TIẾN HÀNH THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM

4.1. Môi trường và công cụ thực nghiệm

4.2. Các phương pháp đánh giá độ chính xác của các thuật toán

4.3. Tiến hành thực nghiệm và đánh giá kết quả phương pháp 1 và giai đoạn 1

4.3.1. Tiền xử lý dữ liệu

4.3.2. Kết quả dự đoán của các mô hình học máy với việc không xử lý cân bằng dữ liệu

4.3.3. Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử dụng phương pháp SMOTE

4.3.4. Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử dụng phương pháp SMOTE-ENN

4.3.5. Kết quả dự đoán của các mô hình học máy với việc cân bằng dữ liệu sử dụng phương pháp Random Oversampling

4.3.6. Nhận xét đánh giá và kết luận

4.3.7. Xử lý tình trạng quá khớp dữ liệu ở mô hình cây quyết định

4.4. Tiến hành thực nghiệm và đánh giá kết quả phương pháp 1 và giai đoạn 2

4.5. Tiến hành thực nghiệm và đánh giá kết quả phương pháp 2: Sử dụng logic mờ (fuzzy logic) nhằm phát hiện các giao dịch có khả năng gian lận trong thẻ tín dụng

5. CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG ĐƠN GIẢN SỬ DỤNG STREAMLIT

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Các kết quả đạt được

5.2. Hướng phát triển tương lai

DANH MỤC CÔNG BỐ KHOA HỌC CỦA TÁC GIẢ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Phát Hiện Gian Lận Thẻ Tín Dụng 55 ký tự

Việc sử dụng thẻ tín dụng ngày càng phổ biến, mang lại sự tiện lợi cho các giao dịch tài chính. Tuy nhiên, điều này cũng làm gia tăng các hoạt động gian lận. Các doanh nghiệp cần xây dựng hệ thống nhận diện và cảnh báo gian lận, nhằm hạn chế thất thoát tài chính. Nghiên cứu này sử dụng tập dữ liệu giao dịch thẻ tín dụng từ tháng 9 năm 2013 tại Châu Âu, với 284,807 giao dịch, trong đó chỉ có 492 giao dịch là gian lận, thể hiện sự phân bố không cân bằng [5]. Các nghiên cứu trước đây [1-3] chưa đề cập đến việc xử lý mất cân bằng dữ liệu, trong khi nghiên cứu [4] có xử lý bằng SMOTE-ENN nhưng không đề cập đến vấn đề overfitting. Luận văn này tập trung giải quyết những hạn chế này, đồng thời đề xuất phương pháp tiếp cận mới bằng logic mờ.

1.1. Tầm quan trọng của phát hiện gian lận thẻ tín dụng

Trong bối cảnh giao dịch trực tuyến phát triển mạnh mẽ, gian lận thẻ tín dụng gây ra những thiệt hại lớn cho cả người dùng và tổ chức tài chính. Việc xây dựng các hệ thống phát hiện gian lận hiệu quả là vô cùng quan trọng để bảo vệ tài sản và uy tín. Các phương pháp truyền thống thường gặp nhiều hạn chế trong việc đối phó với các hình thức gian lận ngày càng tinh vi. Vì vậy, việc ứng dụng các kỹ thuật hiện đại như học máy và logic mờ là hướng đi đầy tiềm năng.

1.2. Giới thiệu về luận văn thạc sĩ Phát hiện gian lận bằng Học Máy

Luận văn này tập trung vào việc ứng dụng các thuật toán học máy và logic mờ để phát hiện gian lận thẻ tín dụng. Mục tiêu chính là xây dựng một mô hình có khả năng nhận diện các giao dịch gian lận một cách chính xác và hiệu quả, đồng thời giải quyết các vấn đề còn tồn tại trong các nghiên cứu trước đây, đặc biệt là vấn đề mất cân bằng dữ liệu và overfitting. Kết quả nghiên cứu có thể ứng dụng thực tế vào các hệ thống phát hiện gian lận của các tổ chức tài chính.

II. Thách Thức Vấn Đề Trong Phát Hiện Gian Lận 57 ký tự

Trong thời đại số, gian lận thẻ tín dụng ngày càng tinh vi và khó lường. Các phương pháp truyền thống dựa trên luật lệ và quy tắc thường không đủ khả năng để đối phó với các hình thức gian lận mới. Một trong những thách thức lớn nhất là sự mất cân bằng dữ liệu, khi số lượng giao dịch gian lận thường rất nhỏ so với số lượng giao dịch hợp lệ. Điều này dẫn đến việc các mô hình học máy dễ bị thiên vị và cho kết quả không chính xác. Ngoài ra, vấn đề overfitting cũng là một rào cản lớn, khi mô hình học quá tốt trên dữ liệu huấn luyện nhưng lại hoạt động kém hiệu quả trên dữ liệu thực tế.

2.1. Vấn đề mất cân bằng dữ liệu trong gian lận thẻ tín dụng

Dữ liệu giao dịch thẻ tín dụng thường có sự mất cân bằng lớn giữa số lượng giao dịch hợp lệ và gian lận. Điều này gây khó khăn cho việc huấn luyện các mô hình học máy, vì chúng có xu hướng tập trung vào việc nhận diện các giao dịch hợp lệ (chiếm đa số) và bỏ qua các giao dịch gian lận (chiếm thiểu số). Cần có các kỹ thuật đặc biệt để xử lý tình trạng mất cân bằng này, chẳng hạn như SMOTE, SMOTE-ENN, hoặc Random Oversampling.

2.2. Rủi ro overfitting và cách giải quyết trong Học Máy

Khi huấn luyện các mô hình học máy trên dữ liệu gian lận thẻ tín dụng, cần đặc biệt chú ý đến nguy cơ overfitting. Mô hình có thể học quá tốt trên dữ liệu huấn luyện nhưng lại hoạt động kém hiệu quả trên dữ liệu mới. Để giảm thiểu overfitting, có thể sử dụng các kỹ thuật như điều chỉnh tham số, sử dụng dữ liệu validation, hoặc áp dụng các phương pháp regularization.

III. Ứng Dụng Học Máy và Logic Mờ Giải Pháp Tiềm Năng 60 ký tự

Luận văn này đề xuất sử dụng kết hợp học máy và logic mờ để giải quyết các thách thức trong phát hiện gian lận thẻ tín dụng. Học máy cung cấp các thuật toán mạnh mẽ để xây dựng mô hình dự đoán dựa trên dữ liệu lịch sử. Logic mờ cho phép xử lý các thông tin không chắc chắn và mơ hồ, giúp cải thiện khả năng nhận diện các giao dịch gian lận tinh vi. Việc kết hợp hai phương pháp này có thể tạo ra một hệ thống phát hiện gian lận hiệu quả và đáng tin cậy.

3.1. Thuật toán học máy phổ biến trong phát hiện gian lận

Một số thuật toán học máy phổ biến được sử dụng trong phát hiện gian lận thẻ tín dụng bao gồm: mạng nơ-ron, SVM, cây quyết định, và ensemble methods. Mỗi thuật toán có những ưu điểm và nhược điểm riêng, và việc lựa chọn thuật toán phù hợp phụ thuộc vào đặc điểm của dữ liệu và yêu cầu của bài toán. Nghiên cứu này sẽ so sánh hiệu quả của các thuật toán khác nhau và đề xuất phương pháp kết hợp tối ưu.

3.2. Sử dụng logic mờ để cải thiện độ chính xác của mô hình

Logic mờ cho phép biểu diễn và xử lý các khái niệm không chắc chắn và mơ hồ, chẳng hạn như “giao dịch đáng ngờ” hoặc “khách hàng có rủi ro cao”. Bằng cách sử dụng logic mờ, có thể cải thiện khả năng nhận diện các giao dịch gian lận tinh vi mà các phương pháp truyền thống khó phát hiện. Nghiên cứu này sẽ trình bày cách áp dụng logic mờ để xây dựng một mô hình phát hiện gian lận hiệu quả.

IV. Đánh Giá Hiệu Suất và Kết Quả Thực Nghiệm 51 ký tự

Nghiên cứu này tiến hành thực nghiệm trên tập dữ liệu giao dịch thẻ tín dụng thực tế để đánh giá hiệu suất của mô hình phát hiện gian lận được đề xuất. Các chỉ số đánh giá như độ chính xác, độ recall, độ F1, và AUC được sử dụng để so sánh hiệu quả của mô hình với các phương pháp khác. Kết quả thực nghiệm cho thấy rằng mô hình kết hợp học máy và logic mờ đạt được hiệu suất cao và vượt trội so với các phương pháp truyền thống.

4.1. Các phương pháp đánh giá độ chính xác của thuật toán

Để đánh giá độ chính xác của các thuật toán phát hiện gian lận, cần sử dụng các chỉ số phù hợp, chẳng hạn như độ chính xác (accuracy), độ recall (recall), độ F1 (F1-score), và diện tích dưới đường cong ROC (AUC). Mỗi chỉ số đo lường một khía cạnh khác nhau của hiệu suất mô hình, và việc sử dụng kết hợp các chỉ số này giúp đánh giá toàn diện khả năng của mô hình.

4.2. Phân tích kết quả thực nghiệm và so sánh với các phương pháp

Phân tích kết quả thực nghiệm cho thấy rằng mô hình kết hợp học máy và logic mờ có khả năng phát hiện gian lận tốt hơn so với các phương pháp truyền thống. Mô hình đạt được độ chính xác cao và độ recall tốt, đồng thời có khả năng xử lý dữ liệu không cân bằng một cách hiệu quả. Kết quả này chứng minh tính khả thi và tiềm năng của việc ứng dụng học máy và logic mờ trong phát hiện gian lận thẻ tín dụng.

V. Xây dựng ứng dụng đơn giản phát hiện gian lận 51 ký tự

Một ứng dụng đơn giản được xây dựng sử dụng Streamlit, cho phép người dùng nhập thông tin giao dịch và nhận kết quả dự đoán về khả năng gian lận. Ứng dụng này minh họa cách mô hình phát hiện gian lận có thể được triển khai trong thực tế để hỗ trợ các chuyên gia trong việc kiểm tra và xác minh các giao dịch đáng ngờ.

5.1. Giao diện người dùng trực quan và dễ sử dụng

Ứng dụng được thiết kế với giao diện người dùng trực quan và dễ sử dụng, cho phép người dùng dễ dàng nhập thông tin giao dịch và xem kết quả dự đoán. Ứng dụng cung cấp các thông tin bổ sung về mức độ tin cậy của dự đoán, giúp người dùng đưa ra quyết định chính xác hơn.

5.2. Tích hợp mô hình học máy vào ứng dụng Streamlit

Ứng dụng được tích hợp với mô hình học máy đã được huấn luyện, cho phép thực hiện dự đoán gian lận thời gian thực. Mô hình được cập nhật liên tục với dữ liệu mới để đảm bảo độ chính xác và hiệu quả trong quá trình phát hiện gian lận.

VI. Kết luận Hướng Phát Triển Luận Văn 50 ký tự

Luận văn đã trình bày một phương pháp hiệu quả để phát hiện gian lận thẻ tín dụng bằng cách kết hợp học máy và logic mờ. Kết quả nghiên cứu cho thấy rằng phương pháp này có tiềm năng lớn trong việc cải thiện khả năng nhận diện các giao dịch gian lận và giảm thiểu thiệt hại tài chính. Các hướng phát triển trong tương lai bao gồm việc nghiên cứu các thuật toán học máy mới, áp dụng các kỹ thuật xử lý dữ liệu tiên tiến, và mở rộng phạm vi ứng dụng của mô hình.

6.1. Tóm tắt các kết quả đạt được trong luận văn

Luận văn đã đạt được một số kết quả quan trọng, bao gồm việc xây dựng một mô hình phát hiện gian lận hiệu quả, giải quyết vấn đề mất cân bằng dữ liệu, và áp dụng logic mờ để cải thiện độ chính xác của mô hình. Kết quả thực nghiệm cho thấy rằng mô hình có khả năng phát hiện gian lận tốt hơn so với các phương pháp truyền thống.

6.2. Các hướng nghiên cứu và phát triển trong tương lai

Trong tương lai, có thể tiếp tục nghiên cứu và phát triển mô hình phát hiện gian lận bằng cách áp dụng các thuật toán học máy mới, sử dụng các nguồn dữ liệu bổ sung, và tích hợp các kỹ thuật phân tích hành vi người dùng. Ngoài ra, cần chú trọng đến vấn đề bảo mật và quyền riêng tư khi thu thập và xử lý dữ liệu thẻ tín dụng.

26/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phát hiện gian lận trong thẻ tín dụng bằng cách sử dụng học máy và logic mờ

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ và sự phổ biến của thẻ tín dụng, các giao dịch tài chính qua thẻ ngày càng gia tăng, đồng thời kéo theo sự gia tăng các hành vi gian lận gây thiệt hại nghiêm trọng cho cá nhân và tổ chức tài chính. Theo dữ liệu thu thập tại châu Âu trong tháng 9 năm 2013, tổng số giao dịch thẻ tín dụng là 284,807, trong đó chỉ có 492 giao dịch gian lận, chiếm tỷ lệ rất nhỏ khoảng 0.17%. Tỷ lệ mất cân bằng dữ liệu này tạo ra thách thức lớn trong việc phát hiện gian lận chính xác và hiệu quả.

Luận văn tập trung nghiên cứu phát hiện gian lận trong giao dịch thẻ tín dụng bằng cách áp dụng các mô hình học máy kết hợp và phương pháp logic mờ nhằm nâng cao độ chính xác và khả năng dự đoán. Mục tiêu cụ thể là xây dựng mô hình dự đoán các giao dịch gian lận, đồng thời đánh giá hiệu quả của các phương pháp xử lý mất cân bằng dữ liệu như SMOTE, SMOTE-ENN và Random Oversampling. Phạm vi nghiên cứu giới hạn trong dữ liệu giao dịch thẻ tín dụng tại châu Âu năm 2013, với trọng tâm là cải thiện các chỉ số như độ chính xác, recall, precision và F1-score.

Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các tổ chức tài chính phát hiện sớm các giao dịch gian lận, giảm thiểu thiệt hại tài chính và nâng cao an ninh hệ thống thanh toán. Kết quả nghiên cứu cũng góp phần phát triển các giải pháp công nghệ thông tin ứng dụng trong lĩnh vực an ninh tài chính, đồng thời cung cấp cơ sở khoa học cho các nghiên cứu tiếp theo về phát hiện gian lận.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Phương pháp xử lý mất cân bằng dữ liệu:
- SMOTE (Synthetic Minority Over-sampling Technique) tạo ra các mẫu tổng hợp cho lớp thiểu số nhằm cân bằng dữ liệu, giảm nguy cơ overfitting.
- SMOTE-ENN kết hợp SMOTE với phương pháp loại bỏ mẫu nhiễu Edited Nearest Neighbors (ENN) để cải thiện chất lượng dữ liệu sau khi cân bằng.
- Random Oversampling sao chép ngẫu nhiên các mẫu lớp thiểu số để tăng số lượng mẫu, tuy nhiên có nguy cơ gây overfitting.
Phương pháp kết hợp mô hình học máy:
- Voting (bỏ phiếu) gồm hard voting và soft voting, tổng hợp dự đoán từ nhiều mô hình để đưa ra quyết định cuối cùng.
- Stacking sử dụng mô hình meta-learner để học cách kết hợp dự đoán từ các mô hình cơ sở, giúp cải thiện hiệu suất và giảm overfitting.
Logic mờ (Fuzzy Logic):
Áp dụng để đánh giá mức độ gian lận của giao dịch theo tỷ lệ phần trăm, giúp phân loại giao dịch thành các mức độ gian lận khác nhau, hỗ trợ bộ phận kiểm tra tập trung vào các giao dịch có khả năng gian lận cao.

Các khái niệm chính bao gồm: mất cân bằng dữ liệu, overfitting, precision, recall, F1-score, hàm thành viên tập mờ, luật mờ, và phương pháp suy luận Max-Min.

Phương pháp nghiên cứu

Nguồn dữ liệu: Tập dữ liệu giao dịch thẻ tín dụng thu thập tại châu Âu tháng 9 năm 2013, gồm 284,807 giao dịch với 492 giao dịch gian lận.
Phương pháp phân tích:
- Tiền xử lý dữ liệu: chuẩn hóa các biến Time và Amount, chia dữ liệu thành 80% huấn luyện và 20% kiểm tra.
- Áp dụng 11 mô hình học máy gồm Random Forest, Logistic Regression, Decision Tree, Naive Bayes, K-Nearest Neighbors (KNN), XGBoost, SVM, MLP, ANN, LightGBM, LSTM.
- Thử nghiệm xử lý mất cân bằng dữ liệu qua 3 phương pháp: SMOTE, SMOTE-ENN, Random Oversampling.
- Đánh giá mô hình bằng các chỉ số Accuracy, Precision, Recall, F1-score, RMSE.
- Kết hợp các mô hình tốt nhất bằng Voting và Stacking để nâng cao hiệu quả dự đoán.
- Phát triển mô hình logic mờ sử dụng các biến độc lập V4 và V17, xây dựng hàm thành viên tập mờ hình L, tam giác, hình thang, và kết hợp các tập mờ để dự đoán tỷ lệ gian lận.
Timeline nghiên cứu: Thực hiện trong năm 2023, với các giai đoạn tiền xử lý, xây dựng mô hình, đánh giá và phát triển ứng dụng đơn giản sử dụng Streamlit.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Ảnh hưởng của xử lý mất cân bằng dữ liệu:
- Phương pháp SMOTE và Random Oversampling không cải thiện đáng kể so với không xử lý mất cân bằng.
- SMOTE-ENN cho kết quả tốt hơn rõ rệt với mô hình Logistic Regression đạt độ chính xác 0.97 và recall cao hơn so với các phương pháp khác.
Tình trạng overfitting:
- Hầu hết các mô hình học máy đều bị overfitting khi sử dụng SMOTE-ENN, thể hiện qua sự chênh lệch lớn giữa kết quả trên tập huấn luyện và tập kiểm tra, đặc biệt ở precision.
- Mô hình cây quyết định bị overfitting nghiêm trọng, được khắc phục bằng việc giới hạn độ sâu cây ở mức 5, giúp cân bằng F1-score giữa tập huấn luyện và kiểm tra.
Hiệu quả kết hợp mô hình:
- Phương pháp Voting kết hợp ba mô hình Logistic Regression, XGBoost và KNN đạt độ chính xác 0.82 và F1-score 0.89, vượt trội hơn so với từng mô hình riêng lẻ.
- Voting cho kết quả tốt hơn Stacking trong nghiên cứu này, đồng thời không gặp tình trạng overfitting.
Ứng dụng logic mờ:
- Sử dụng hai biến V4 và V17 có mối tương quan mạnh với biến phụ thuộc (Class) để xây dựng hàm thành viên tập mờ.
- Ba cách xây dựng hàm thành viên (tập mờ hình L và tam giác, tập mờ hình thang, kết hợp cả ba) được thử nghiệm để tìm ra cấu hình tối ưu.
- Logic mờ cho phép dự đoán mức độ gian lận theo tỷ lệ phần trăm, hỗ trợ phân loại giao dịch thành các mức độ gian lận thấp, trung bình và cao, giúp tiết kiệm thời gian kiểm tra.

Thảo luận kết quả

Kết quả cho thấy việc xử lý mất cân bằng dữ liệu không phải lúc nào cũng cần thiết, đặc biệt khi dữ liệu có tỷ lệ gian lận rất thấp như trong nghiên cứu này. SMOTE-ENN tuy cải thiện recall và accuracy nhưng gây ra overfitting, làm giảm tính tổng quát của mô hình trên dữ liệu mới. Việc giới hạn độ sâu cây quyết định là một giải pháp hiệu quả để giảm overfitting.

Sự kết hợp mô hình bằng Voting tận dụng ưu điểm của từng thuật toán, cải thiện đáng kể các chỉ số đánh giá, đồng thời giảm thiểu nhược điểm của từng mô hình riêng lẻ. Điều này phù hợp với các nghiên cứu trước đây về ensemble learning trong phát hiện gian lận.

Phương pháp logic mờ mở ra hướng tiếp cận mới, không chỉ phân loại nhị phân mà còn đánh giá mức độ gian lận, giúp bộ phận kiểm tra tập trung nguồn lực vào các giao dịch có nguy cơ cao. Việc xây dựng hàm thành viên dựa trên phân tích phân bố dữ liệu và mối tương quan giữa các biến đầu vào và đầu ra là bước quan trọng để đảm bảo độ chính xác của mô hình logic mờ.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ phân bố, box plot, ma trận nhầm lẫn, và biểu đồ biến đổi F1-score theo độ sâu cây quyết định để minh họa rõ ràng hiệu quả từng bước xử lý và mô hình.

Đề xuất và khuyến nghị

Triển khai mô hình kết hợp Voting trong hệ thống phát hiện gian lận:
- Áp dụng mô hình kết hợp Logistic Regression, XGBoost và KNN để nâng cao độ chính xác phát hiện gian lận.
- Thời gian thực hiện: 6 tháng.
- Chủ thể thực hiện: Bộ phận công nghệ thông tin và phòng chống gian lận của tổ chức tài chính.
Áp dụng logic mờ để phân loại mức độ gian lận:
- Phát triển hệ thống cảnh báo dựa trên tỷ lệ phần trăm gian lận, giúp tối ưu hóa quy trình kiểm tra giao dịch.
- Thời gian thực hiện: 4 tháng.
- Chủ thể thực hiện: Đội ngũ phân tích dữ liệu và kiểm soát rủi ro.
Giới hạn độ sâu cây quyết định trong các mô hình cây để tránh overfitting:
- Áp dụng tham số max_depth = 5 cho mô hình cây quyết định khi sử dụng trong phát hiện gian lận.
- Thời gian thực hiện: 1 tháng.
- Chủ thể thực hiện: Nhóm phát triển mô hình học máy.
Đào tạo và nâng cao nhận thức cho nhân viên kiểm tra giao dịch:
- Tổ chức các khóa đào tạo về cách sử dụng kết quả dự đoán và logic mờ để phân loại và xử lý giao dịch gian lận.
- Thời gian thực hiện: 3 tháng.
- Chủ thể thực hiện: Phòng nhân sự và đào tạo.
Nghiên cứu mở rộng và cập nhật dữ liệu thường xuyên:
- Thu thập và cập nhật dữ liệu giao dịch mới để cải thiện mô hình, đồng thời đánh giá lại hiệu quả mô hình theo chu kỳ.
- Thời gian thực hiện: liên tục.
- Chủ thể thực hiện: Bộ phận phân tích dữ liệu và nghiên cứu phát triển.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Khoa học Dữ liệu:
- Lợi ích: Hiểu rõ các phương pháp xử lý mất cân bằng dữ liệu, kỹ thuật kết hợp mô hình và ứng dụng logic mờ trong phát hiện gian lận.
- Use case: Áp dụng kiến thức để phát triển các đề tài nghiên cứu hoặc luận văn liên quan.
Chuyên gia và kỹ sư phát triển hệ thống ngân hàng, tài chính:
- Lợi ích: Áp dụng mô hình học máy và logic mờ để nâng cao hiệu quả phát hiện gian lận trong hệ thống giao dịch thẻ tín dụng.
- Use case: Tích hợp mô hình vào hệ thống giám sát giao dịch thực tế.
Bộ phận phòng chống gian lận và kiểm soát rủi ro trong các tổ chức tài chính:
- Lợi ích: Sử dụng kết quả dự đoán để tối ưu hóa quy trình kiểm tra, giảm thiểu thiệt hại tài chính.
- Use case: Phân loại giao dịch theo mức độ gian lận để ưu tiên kiểm tra.
Nhà quản lý và hoạch định chính sách trong lĩnh vực an ninh tài chính:
- Lợi ích: Hiểu rõ các công nghệ mới trong phát hiện gian lận, từ đó xây dựng chính sách và quy trình phù hợp.
- Use case: Đề xuất các biện pháp phòng ngừa và ứng phó với gian lận thẻ tín dụng.

Câu hỏi thường gặp

Tại sao cần xử lý mất cân bằng dữ liệu trong phát hiện gian lận?
Mất cân bằng dữ liệu làm cho mô hình học máy dễ bị thiên lệch về lớp đa số, dẫn đến khả năng phát hiện gian lận thấp. Các phương pháp như SMOTE giúp tạo thêm mẫu cho lớp thiểu số, cải thiện khả năng học của mô hình. Tuy nhiên, trong nghiên cứu này, không xử lý mất cân bằng vẫn cho kết quả tốt do tỷ lệ gian lận quá thấp và đặc thù dữ liệu.
Phương pháp kết hợp mô hình Voting và Stacking khác nhau như thế nào?
Voting tổng hợp dự đoán trực tiếp từ các mô hình cơ sở bằng cách bỏ phiếu, trong khi Stacking sử dụng một mô hình meta-learner để học cách kết hợp dự đoán. Voting đơn giản và ít tốn tài nguyên hơn, còn Stacking có thể cải thiện hiệu suất nhưng phức tạp hơn.
Logic mờ giúp gì trong phát hiện gian lận thẻ tín dụng?
Logic mờ cho phép đánh giá mức độ gian lận theo tỷ lệ phần trăm thay vì chỉ phân loại nhị phân, giúp bộ phận kiểm tra tập trung vào các giao dịch có nguy cơ cao, tiết kiệm thời gian và nguồn lực.
Làm thế nào để tránh overfitting trong mô hình cây quyết định?
Giới hạn độ sâu cây quyết định (max_depth) giúp kiểm soát độ phức tạp của mô hình, tránh việc mô hình học quá mức trên dữ liệu huấn luyện và không tổng quát hóa tốt trên dữ liệu mới.
Có thể áp dụng kết quả nghiên cứu này cho các loại thẻ tín dụng khác hoặc khu vực khác không?
Mặc dù dữ liệu nghiên cứu là từ châu Âu năm 2013, các phương pháp và mô hình có thể được điều chỉnh và áp dụng cho các bộ dữ liệu khác. Tuy nhiên, cần thu thập dữ liệu thực tế và đánh giá lại hiệu quả mô hình để đảm bảo phù hợp với đặc thù từng khu vực và loại thẻ.

Kết luận

Luận văn đã xây dựng thành công mô hình phát hiện gian lận thẻ tín dụng dựa trên kết hợp các mô hình học máy và phương pháp logic mờ, nâng cao độ chính xác và khả năng dự đoán.
Phương pháp xử lý mất cân bằng dữ liệu không phải lúc nào cũng cần thiết; trong nghiên cứu này, không xử lý vẫn cho kết quả tốt và tránh overfitting.
Kết hợp mô hình bằng Voting với Logistic Regression, XGBoost và KNN đạt hiệu quả cao nhất với độ chính xác 0.82 và F1-score 0.89.
Logic mờ giúp phân loại mức độ gian lận theo tỷ lệ phần trăm, hỗ trợ tối ưu hóa quy trình kiểm tra giao dịch.
Hướng phát triển tiếp theo là mở rộng dữ liệu, cải tiến mô hình logic mờ và ứng dụng thực tế trong các hệ thống ngân hàng, tài chính.

Hành động tiếp theo: Triển khai mô hình kết hợp Voting và logic mờ trong hệ thống phát hiện gian lận thực tế, đồng thời tiếp tục nghiên cứu cải tiến và mở rộng phạm vi ứng dụng.

Trích đoạn nội dung tài liệu

Chương 1. Tổng quan: Giới thiệu luận văn, lý do chọn đề tài, động lực, mục tiêu, phạm vi và nội dung thực hiện của luận văn. Cơ sở lý thuyết và các nghiên cứu liên quan: Trình bày cơ sở lý thuyết liên quan đến ba phương pháp xử lý mat cân bằng dữ liệu là SMOTE, SMOTE-ENN và Random Oversampling. Sau đó trình bày cơ sở lý thuyết cho các phương pháp kết hợp là Voting và Stacking.

Cuối cùng luận văn giới thiệu các nghiên cứu liên quan đến dé tài và hạn chế của các nghiên cứu. Phương pháp đề xuất: Trình bày 2 phương pháp được áp dụng trong luận văn. Thực nghiệm và so sánh kết quả: Tiến hành thực nghiệm đồng thời đưa ra các kết quả của từng giai đoạn và nhận xét. Xây dựng ứng dụng đơn giản sử dụng streamlit.

Tiến hành thực nghiệm và đánh giá kết quả: Đưa ra tổng kết sau khi chạy thực nghiệm. Đồng thời nêu ra các hạn chế và đề xuất một số hướng phát triển cho các nghiên cứu tương lai. Danh mục công bố khoa học của tác giả Tài liệu tham khảo Cơ sở lý thuyết và các nghiên cứu liên quan CHUONG 2. CƠ SỞ LÝ THUYET VA CÁC NGHIÊN CỨU LIÊN QUAN Trong chương này luận văn sẽ trình bày cơ sở lý thuyết của các thuật toán học máy được áp dụng, các phương pháp cân bằng dữ liệu, phương pháp kết hợp các thuật toán lại với nhau bao gồm SMOTE, SMOTE-ENN và Random Oversampling.

Tiếp theo trình bày cơ sở lý thuyết của hai phương pháp kết hợp các mô hình học máy là Voting va Stacking. Các phương pháp xử ly cân bằng dữ liệu 2. SMOTE SMOTE là viết tắt của "Synthetic Minority Over-sampling Technique." Đây là một kỹ thuật trong lĩnh vực xử lý đữ liệu không cân bằng, nơi số lượng các mẫu thuộc vào lớp thiểu số (minority class) ít hơn so với lớp đa số (majority class). Kỹ thuật SMOTE được sử dụng để tạo ra các mẫu dữ liệu tong hop (synthetic samples) cho lớp thiểu số, nhằm cân bằng dữ liệu va cải thiện hiệu suất của các mô hình dự đoán, đặc biệt trong các tình huống mà dữ liệu không cân bằng có thể dẫn đến hiện tượng overfitting và hiệu suất kém.

[6] SMOTE hoạt động bằng cách tạo ra các mẫu tổng hợp mới bằng cách kết hợp thông tin từ các mẫu gốc thuộc lớp thiểu số. Cụ thé, nó chọn một mẫu góc từ lớp thiêu số và sau đó chọn ngẫu nhiên một hoặc nhiều mẫu gốc khác từ lớp thiểu số có sẵn gần đó. Nó sau đó tạo ra các mẫu tổng hợp mới bằng cách lấy trung bình hoặc tỷ lệ của các đặc trưng của các mẫu gốc này. Quá trình này tạo ra các mẫu dữ liệu tổng hợp mà không chỉ mở rộng lớp thiểu số mà còn giảm nguy cơ overfitting.

SMOTE là một công cụ quan trọng trong việc xử lý dir liệu không cân bằng và đã được sử dụng rộng rãi trong machine learning và các ứng dụng liên quan đến phân loại dữ liệu. [10] 14 Cơ sở lý thuyết và các nghiên cứu liên quan Hình 2. Phương pháp SMOTE tạo ra điểm XI từ 4 điểm lân cận chỉ tiết các bước thực hiện chỉ tiết dưới đây. e Bước 1: Chọn k mau láng giềng (minority class) để tạo mẫu thiểu số(gian lận) m6i( r1: synthesized data).

e Bude 2: Chon một mẫu thiểu số(gian lận) đã tồn tại trong bộ dữ liệu (X1). ¢ Bước 3: Tạo ra mẫu thiểu số mới theo công thức rl = XI + gap * diff với: e rl : mẫu thiểu số được tạo mới. e_ XI : Mẫu thiểu số đã ton tại trong bộ dữ liệu. © gap : khoảng cách từ XI đến rl.

© diff: khoảng cách từ X1 đến X11(mẫu láng giéng). Với k = 4 (số mẫu láng giéng), chúng ta sẽ tạo ra 4 mẫu thiểu số mới từ một mẫu thiểu số đã tồn tại trong bộ dữ liệu bằng cách áp dụng công thức được mô tả trong bước 3, sử dụng khoảng cách và mẫu láng giềng đã chọn. X14 Synthesized data X1 r1 = X1 + gap * diff X13 © X12 Hình 2. Phương pháp SMOTE tạo ra điểm XI từ 4 điểm lân cận Nguồn: SMOTE for Imbalanced Classification with Python [10] 15 Cơ sở lý thuyết và các nghiên cứu liên quan 2.

SMOTE-ENN SMOTE-ENN là một kỹ thuật kết hợp hai phương pháp dé xử lý dữ liệu không cân bằng trong machine learning. Kết hợp SMOTE (Synthetic Minority Over- sampling Technique) va ENN (Edited Nearest Neighbors) dé cai thiện hiệu suất mô hình trong các tình huống mà dữ liệu không cân bằng là một van dé. [7] SMOTE (Synthetic Minority Over-sampling Technique): SMOTE là một phần của SMOTE-ENN. Nhằm tao ra các mẫu tổng hợp cho lớp thiểu sé bằng cách sử dung các mẫu gốc từ lớp thiểu số.

Quá trình này đảm bảo rằng số lượng mẫu thuộc lớp thiểu số tăng lên và giúp cân bằng đữ liệu. SMOTE hoạt động bằng cách chọn một mẫu gốc từ lớp thiểu số và sau đó tạo ra các mẫu tổng hợp bằng cách kết hợp thông tin từ mẫu gốc và các mẫu gôc lân cận. ENN (Edited Nearest Neighbors): ENN là bước thứ hai trong SMOTE-ENN. ENN là một phương pháp dé loại bỏ các mẫu nhiễu từ tập dữ liệu.

Kiểm tra các mẫu gốc và xóa bat kỳ mẫu nào thuộc lớp thiểu số và được bao quanh bởi mẫu của lớp đa số (majority class). Mục tiêu của ENN là loại bỏ các mẫu nhiễu có thể gây nhiễu cho mô hình phân loại. Khi kết hợp cả SMOTE và ENN thành SMOTE-ENN, quá trình hoạt động như sau: Sử dụng SMOTE để tạo ra các mẫu tổng hợp cho lớp thiểu số, cân bằng dit liệu. Sau đó, sử dụng ENN để loại bỏ các mẫu nhiễu khỏi tập dữ liệu đã được mở rộng bởi SMOTE.

Điều này giúp giảm nguy cơ overfitting và cải thiện khả năng phân loại. SMOTE-ENN là một trong những phương pháp hiệu quả đề xử lý dữ liệu không cân bằng và cải thiện hiệu suất mô hình phân loại. 16 Cơ sở lý thuyết và các nghiên cứu liên quan 2. Random Oversampling Random oversampling là một phương pháp trong xử lý mẫu mất cân bằng (imbalanced data) trong machine learning.

Một van dé phổ biến khi làm việc với dữ liệu mat cân bằng là khi một lớp có số lượng mẫu ít hơn nhiều so với lớp khác, điều nay có thé gây ra hiện tượng mô hình học máy không hoạt động tốt trên lớp thiểu sé. Random oversampling giúp giải quyết vấn đề này bằng cách tăng cường lượng mẫu của lớp thiểu số. Cụ thể, random oversampling hoạt động như sau: Xác định lớp thiểu số: Đầu tiên, bạn cần xác định lớp có số lượng mẫu ít hơn. Trong quá trình này, tạo ra các bản sao ngẫu nhiên của các mẫu từ lớp thiêu số dé làm cho số lượng mau của lớp này tương đương hoặc gần bằng với số lượng mẫu của lớp đa số.

Các bản sao này được tạo ngẫu nhiên từ các mẫu gốc của lớp thiểu số. Một số hạn chế khi sử dụng random oversampling bao gồm : e Tăng cường số lượng mẫu bang cách tạo ra các ban sao có thé làm gia tăng nguy cơ quá khớp dữ liệu (overfitting). Mô hình có thé học quá mức và không tổng quát hóa tốt cho dit liệu mới e Mat thông tin: Việc tạo ra các bản sao có thé làm mất đi sự đa dạng trong dữ liệu. Nếu dé liệu gốc trong lớp thiểu số không đủ đa dang, random oversampling có thể không cải thiện hiệu suất mô hình mà chỉ làm tăng lượng dữ liệu giả mạo.

e Tang độ phức tap: Tăng cường dữ liệu thông qua random oversampling có thé làm tăng độ phức tạp của mô hình. Điều này có thể làm cho việc đào tạo mô hình mắt thời gian hơn và tăng tài nguyên tính toán yêu cầu. 17 Cơ sở lý thuyết và các nghiên cứu liên quan 2. Các phương pháp kết hợp các thuật toán 2.

Voting Mô tả: Trong phương pháp Voting (bỏ phiếu), nhiều mô hình cùng tham gia vào việc ra quyết định. Mỗi mô hình đưa ra dự đoán của riêng mình và sau đó kết quả được quyết định bằng cách bỏ phiếu từ tất cả các mô hình. Có hai loại bỏ phiếu phd biến: bỏ phiếu cứng (hard voting) và bỏ phiếu mềm (soft voting). ¢ Bo phiếu cứng (Hard Voting): Mô hình đưa ra quyết định cuối cùng dựa trên đa số.

Nếu hơn một nửa các mô hình dự đoán là một lớp cụ thể, thì kết quả cuối cùng cũng là lớp đó. © Bo phiếu mềm (Soft Voting): Mô hình đưa ra quyết định dựa trên xác suất của các lớp. Nó tính toán xác suất cho mỗi lớp từ tất cả các mô hình và sau đó tổng hợp xác suất này. Lớp có xác suất cao nhất sẽ được chọn.

Ưu điểm: Dễ triển khai, làm việc tốt khi kết hợp các mô hình có tính đa dạng. Nhược điềm: Không phù hợp khi tất cả các mô hình có hiệu suất kém, không giảm overfitting. Stacking Mô tả: Stacking là một phương pháp mở rộng hơn và phức tạp hơn so với bỏ phiếu. Thay vì kết hợp dự đoán trực tiếp, stacking sử dụng một mô hình tổng hợp (gọi là mô hình meta-learner) để học cách kết hợp dự đoán từ các mô hình cơ bản.

Các mô hình cơ bản dự đoán trên dữ liệu huấn luyện được sử dụng đề huấn luyện mô hình meta-learner. Ưu điểm: Có kha năng học cách kết hợp dự đoán từ các mô hình cơ bản. Điều này giúp cải thiện hiệu suất và làm giảm overfitting. Nhược điểm: Cần nhiều đữ liệu huấn luyện để đào tạo mô hình meta-learner.

Phức tạp hơn và đòi hỏi thời gian và tài nguyên tính toán nhiều hơn. 18 Cơ sở lý thuyết và các nghiên cứu liên quan 2. Các nghiên cứu liên quan Tháng 10 năm 2017 John O. Awoyemi và các cộng sự [1] đã sử dung dữ liệu từ các giao dịch thẻ tín dụng của người châu Âu trong tháng 9 năm 2013, với hơn 280,000 giao dịch và chỉ khoảng 0.172% là gian lận [5].

Một phần quan trọng của nghiên cứu này là việc đánh giá hiệu suất của các phương pháp phân loại trên hai bộ dữ liệu được lây mẫu khác nhau từ dữ liệu không cân bằng gốc. Một bộ dữ liệu chia thành 2 tập dé test va train có tỷ lệ 10:9 và bộ dit liệu khác có ty lệ 34:66. Kết quả cụ thế của 2 tập này như sau: Phân phối dữ liệu 10:90. e Naive Bayes: Độ chính xác (Accuracy): 0.

e K-Nearest Neighbour: Độ chính xác (Accuracy): 0. ¢ Logistic Regression: Độ chính xác (Accuracy): 0. Phan phối dữ liệu 34:66. e Naive Bayes: Độ chính xác (Accuracy): 0.

e K-Nearest Neighbour: Độ chính xác (Accuracy): 0. e Logistic Regression: Độ chính xác (Accuracy): 0.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn "Phát hiện Gian Lận Thẻ Tín Dụng Bằng Học Máy và Logic Mờ" trình bày giải pháp ứng dụng các kỹ thuật học máy (Machine Learning) kết hợp với logic mờ (Fuzzy Logic) để phát hiện các giao dịch gian lận thẻ tín dụng. Điểm nổi bật của luận văn này là sự kết hợp hai phương pháp, tận dụng ưu điểm của học máy trong việc tự động học từ dữ liệu lịch sử và sức mạnh của logic mờ trong việc xử lý những thông tin không chắc chắn, mơ hồ thường gặp trong các giao dịch gian lận. Đọc luận văn này giúp bạn hiểu rõ hơn về cách xây dựng mô hình phát hiện gian lận hiệu quả, giảm thiểu rủi ro tài chính cho các tổ chức tín dụng và người dùng.

Nếu bạn quan tâm đến ứng dụng học máy trong lĩnh vực tài chính, hãy xem thêm các tài liệu liên quan:

Để hiểu sâu hơn về ứng dụng học máy trong việc dự báo và phân tích rủi ro, bạn có thể tìm đọc Luận văn thạc sĩ phân tích và dự báo nợ xấu bằng mô hình cây quyết định hồi quy và mô hình logit probi để có cái nhìn toàn diện hơn về các phương pháp dự báo nợ xấu. Hoặc khám phá cách học máy có thể được sử dụng để Dự đoán giá cổ phiếu với học máy, một ứng dụng phổ biến khác trong tài chính. Cuối cùng, tìm hiểu về Détection danomalies sur les marchés boursiers grâce à lapprentissage automatique phát hiện bất thường trên thị trường chứng khoán với học máy để biết cách phát hiện các hoạt động bất thường trên thị trường chứng khoán.

#phát hiện gian lận thẻ tín dụng

#học máy phát hiện gian lận

#logic mờ phát hiện gian lận

#luận văn thạc sĩ gian lận thẻ

#mô hình học máy thẻ tín dụng

#ứng dụng logic mờ thẻ tín dụng

Chủ đề

Ứng dụng học máy trong tài chính

phát hiện gian lận tài chính

logic mờ và hệ thống suy luận

an toàn và bảo mật thẻ tín dụng