## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của các thiết bị thông minh và ngân hàng số, thẻ tín dụng trở thành phương tiện thanh toán trực tuyến phổ biến nhất trên thế giới, chiếm tỷ lệ lớn trong các giao dịch tài chính. Theo báo cáo của Nilson, tổn thất do gian lận thẻ tín dụng toàn cầu đã lên tới 28,8 tỷ USD năm 2015 và dự kiến vượt 35 tỷ USD vào năm 2022. Sự gia tăng này đặt ra thách thức lớn cho các ngân hàng trong việc phát hiện và ngăn chặn các hành vi gian lận nhằm bảo vệ quyền lợi khách hàng và giảm thiểu thiệt hại tài chính.

Luận văn tập trung nghiên cứu phát hiện gian lận trong giao dịch thẻ tín dụng dựa trên công nghệ học sâu (Deep Learning), đặc biệt là mô hình Autoencoder – một mạng neural nhân tạo có khả năng học không giám sát để nhận diện các hành vi bất thường. Mục tiêu chính là xây dựng và đánh giá hiệu quả mô hình Autoencoder trong phát hiện các giao dịch gian lận trên tập dữ liệu thực nghiệm có tính mất cân bằng cao, thu thập từ các giao dịch thẻ tín dụng quốc tế.

Phạm vi nghiên cứu tập trung vào dữ liệu giao dịch thẻ tín dụng trong khoảng thời gian gần đây, với ứng dụng thực tiễn tại các ngân hàng và tổ chức tài chính. Nghiên cứu không chỉ góp phần nâng cao độ chính xác trong phát hiện gian lận mà còn giảm thiểu chi phí kiểm tra và xử lý các giao dịch nghi ngờ, từ đó tăng cường an toàn và tin cậy cho hệ thống thanh toán điện tử.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Phát hiện gian lận (Anomaly Detection):** Là quá trình xác định các giao dịch có hành vi khác biệt so với mẫu bình thường, bao gồm các kỹ thuật học giám sát, bán giám sát và không giám sát.
- **Mạng neural nhân tạo (Artificial Neural Network - ANN):** Mô hình xử lý thông tin dựa trên cấu trúc mạng nơ-ron sinh học, gồm các lớp đầu vào, lớp ẩn và lớp đầu ra, được huấn luyện bằng thuật toán lan truyền ngược (Backpropagation).
- **Học sâu (Deep Learning):** Phương pháp học máy sử dụng nhiều lớp mạng neural để trích xuất đặc trưng phức tạp từ dữ liệu, bao gồm các mô hình như CNN, LSTM, và Autoencoder.
- **Autoencoder:** Mạng neural học không giám sát, gồm bộ mã hóa (encoder) và bộ giải mã (decoder), có khả năng nén và tái tạo dữ liệu, giúp phát hiện các điểm bất thường dựa trên sai số tái tạo.
- **Kỹ thuật cân bằng dữ liệu:** Bao gồm nhân bản mẫu dương tính, giảm số lượng mẫu âm tính, tạo thêm mẫu dương tính bằng thuật toán và điều chỉnh trọng số học tập nhằm xử lý tập dữ liệu mất cân bằng trong phát hiện gian lận.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Sử dụng tập dữ liệu giao dịch thẻ tín dụng thực nghiệm tải từ trang web chuyên ngành, có đặc điểm mất cân bằng với tỷ lệ mẫu gian lận rất thấp.
- **Phương pháp phân tích:** Áp dụng mô hình Autoencoder với kiến trúc MLP (Multi-layer Perceptron) gồm lớp đầu vào, hai lớp ẩn và lớp đầu ra. Mô hình được huấn luyện không giám sát để học các đặc trưng của giao dịch bình thường, từ đó phát hiện các giao dịch bất thường dựa trên sai số tái tạo.
- **Quy trình nghiên cứu:** 
  - Tiền xử lý dữ liệu, loại bỏ các trường không cần thiết.
  - Xây dựng và huấn luyện mô hình Autoencoder trên tập dữ liệu huấn luyện.
  - Đánh giá mô hình bằng các chỉ số như độ chính xác (Accuracy), tỉ lệ thu hồi (Recall) và đường cong ROC-AUC.
  - So sánh kết quả với các mô hình truyền thống và các kỹ thuật cân bằng dữ liệu khác.
- **Timeline:** Nghiên cứu được thực hiện trong năm 2021, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Autoencoder đạt độ chính xác khoảng 95% trong việc phát hiện các giao dịch gian lận trên tập dữ liệu mất cân bằng.
- Tỉ lệ thu hồi (Recall) của mô hình đạt 80% ở ngưỡng tỉ lệ báo động giả (False Positive Rate) 20%, cho thấy khả năng phát hiện gian lận hiệu quả mà không gây quá nhiều cảnh báo sai.
- So với các mô hình học máy truyền thống như cây quyết định và SVM, Autoencoder thể hiện ưu thế vượt trội về khả năng phát hiện các mẫu gian lận mới chưa từng xuất hiện trong dữ liệu huấn luyện.
- Việc kết hợp các kỹ thuật cân bằng dữ liệu như tạo thêm mẫu dương tính và điều chỉnh trọng số học tập giúp cải thiện đáng kể hiệu suất mô hình, giảm thiểu hiện tượng overfitting và tăng khả năng khái quát hóa.

### Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả của mô hình Autoencoder là khả năng học các đặc trưng phi tuyến phức tạp của dữ liệu giao dịch bình thường, từ đó dễ dàng phát hiện các điểm bất thường có sai số tái tạo lớn. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực phát hiện gian lận tài chính, đồng thời vượt trội hơn các phương pháp dựa trên học giám sát truyền thống vốn phụ thuộc nhiều vào dữ liệu gán nhãn.

Dữ liệu có thể được trình bày qua biểu đồ ROC để minh họa sự cân bằng giữa tỉ lệ phát hiện đúng và tỉ lệ báo động giả, cũng như bảng so sánh các chỉ số hiệu suất giữa các mô hình khác nhau. Việc áp dụng mô hình học sâu như Autoencoder không chỉ nâng cao độ chính xác mà còn giảm thiểu chi phí vận hành do giảm số lượng giao dịch cần kiểm tra thủ công.

Tuy nhiên, mô hình vẫn còn hạn chế khi đối mặt với các sự kiện cực kỳ bất thường với tỉ lệ mẫu dương tính dưới 1%, đòi hỏi nghiên cứu thêm về các kỹ thuật kết hợp hoặc mô hình mạng neural chuyên biệt như LSTM Autoencoder cho dữ liệu chuỗi thời gian.

## Đề xuất và khuyến nghị

- **Triển khai mô hình Autoencoder trong hệ thống phát hiện gian lận của ngân hàng:** Tăng cường khả năng phát hiện gian lận với mục tiêu giảm thiệt hại tài chính ít nhất 20% trong vòng 12 tháng.
- **Kết hợp kỹ thuật cân bằng dữ liệu:** Áp dụng đồng thời các phương pháp nhân bản mẫu dương tính và điều chỉnh trọng số học tập để cải thiện độ chính xác và giảm hiện tượng overfitting, thực hiện trong 6 tháng đầu triển khai.
- **Đào tạo và nâng cao năng lực cho đội ngũ phân tích dữ liệu:** Tổ chức các khóa đào tạo về học sâu và phân tích dữ liệu cho nhân viên trong 3 tháng, nhằm đảm bảo vận hành và bảo trì mô hình hiệu quả.
- **Phát triển mô hình nâng cao cho dữ liệu chuỗi thời gian:** Nghiên cứu và áp dụng mô hình LSTM Autoencoder hoặc GRU để xử lý các giao dịch theo chuỗi thời gian, dự kiến hoàn thành trong 18 tháng tới.
- **Xây dựng hệ thống cảnh báo tự động và phản hồi liên tục:** Thiết lập hệ thống phản hồi từ các điều tra viên để mô hình tự động cập nhật và cải thiện độ chính xác theo thời gian, triển khai trong 9 tháng.

## Đối tượng nên tham khảo luận văn

- **Ngân hàng và tổ chức tài chính:** Nâng cao hiệu quả phát hiện gian lận thẻ tín dụng, giảm thiệt hại tài chính và tăng cường an toàn giao dịch.
- **Chuyên gia phân tích dữ liệu và khoa học dữ liệu:** Áp dụng mô hình học sâu và kỹ thuật cân bằng dữ liệu trong các bài toán phát hiện bất thường.
- **Nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo và học máy:** Tham khảo phương pháp xây dựng và đánh giá mô hình Autoencoder trong thực tế với dữ liệu mất cân bằng.
- **Cơ quan quản lý và giám sát tài chính:** Hiểu rõ các công nghệ mới trong phát hiện gian lận để xây dựng chính sách và quy định phù hợp.

## Câu hỏi thường gặp

1. **Autoencoder là gì và tại sao lại phù hợp cho phát hiện gian lận?**  
Autoencoder là mạng neural học không giám sát, có khả năng học các đặc trưng quan trọng của dữ liệu bình thường và phát hiện các điểm bất thường dựa trên sai số tái tạo. Điều này giúp phát hiện các giao dịch gian lận mà không cần dữ liệu gán nhãn đầy đủ.

2. **Làm thế nào để xử lý dữ liệu mất cân bằng trong phát hiện gian lận?**  
Các kỹ thuật như nhân bản mẫu dương tính, giảm số lượng mẫu âm tính, tạo thêm mẫu dương tính bằng thuật toán và điều chỉnh trọng số học tập được sử dụng để cân bằng dữ liệu, giúp mô hình học hiệu quả hơn và tránh overfitting.

3. **Mô hình Autoencoder có thể áp dụng cho dữ liệu chuỗi thời gian không?**  
Có, các biến thể như LSTM Autoencoder và GRU Autoencoder được thiết kế để xử lý dữ liệu chuỗi thời gian đa biến, phù hợp với các giao dịch diễn ra theo thời gian.

4. **Mô hình này có thể phát hiện gian lận mới chưa từng xuất hiện không?**  
Do học không giám sát và học các đặc trưng của dữ liệu bình thường, mô hình có khả năng phát hiện các hành vi gian lận mới dựa trên sự khác biệt với mẫu bình thường, vượt trội hơn các mô hình học giám sát truyền thống.

5. **Chi phí triển khai mô hình Autoencoder trong ngân hàng là bao nhiêu?**  
Chi phí phụ thuộc vào quy mô dữ liệu và hạ tầng công nghệ, tuy nhiên việc giảm thiểu số lượng giao dịch cần kiểm tra thủ công và giảm thiệt hại do gian lận giúp tiết kiệm chi phí vận hành tổng thể.

## Kết luận

- Luận văn đã xây dựng và đánh giá thành công mô hình Autoencoder trong phát hiện gian lận giao dịch thẻ tín dụng trên tập dữ liệu mất cân bằng thực tế.  
- Mô hình đạt độ chính xác cao, tỉ lệ thu hồi tốt và giảm thiểu cảnh báo giả, phù hợp với yêu cầu vận hành thực tế của ngân hàng.  
- Kỹ thuật cân bằng dữ liệu kết hợp giúp cải thiện hiệu suất và khả năng khái quát hóa của mô hình.  
- Nghiên cứu mở ra hướng phát triển mô hình học sâu cho dữ liệu chuỗi thời gian và các ứng dụng phát hiện gian lận nâng cao.  
- Đề xuất triển khai thực tế và tiếp tục nghiên cứu mở rộng nhằm nâng cao hiệu quả phát hiện gian lận trong tương lai.

Hành động tiếp theo là triển khai mô hình trong môi trường thực tế, đào tạo nhân sự vận hành và phát triển các mô hình chuyên biệt cho dữ liệu chuỗi thời gian nhằm nâng cao hơn nữa hiệu quả phát hiện gian lận.