## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của các thiết bị thông minh cá nhân và ngân hàng số, thẻ tín dụng trở thành phương thức thanh toán trực tuyến phổ biến nhất trên thế giới, theo báo cáo Global Payments Report. Tuy nhiên, sự gia tăng giao dịch trực tuyến cũng kéo theo nguy cơ gian lận thẻ tín dụng ngày càng nghiêm trọng. Báo cáo của Nilson cho thấy tổn thất do gian lận thẻ tín dụng toàn cầu đạt 28,8 tỷ đô la vào năm 2015 và dự kiến vượt 35 tỷ đô la vào năm 2022. Vấn đề phát hiện và ngăn chặn gian lận thẻ tín dụng trở thành thách thức lớn đối với các tổ chức tài chính, đặc biệt khi số lượng giao dịch tăng nhanh và thời gian xử lý giao dịch ngày càng rút ngắn.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá mô hình phát hiện gian lận trong giao dịch thẻ tín dụng dựa trên học sâu, cụ thể là mô hình Autoencoder, nhằm nâng cao độ chính xác và hiệu quả phát hiện các giao dịch gian lận trên tập dữ liệu mất cân bằng. Phạm vi nghiên cứu tập trung vào dữ liệu giao dịch thẻ tín dụng thực nghiệm được thu thập từ trang web chuyên ngành, với thời gian nghiên cứu giai đoạn 2020-2021 tại Việt Nam. Nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ các ngân hàng và tổ chức tài chính giảm thiểu thiệt hại do gian lận, nâng cao an toàn giao dịch và bảo vệ quyền lợi khách hàng.

---

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Học máy (Machine Learning)**: Là nền tảng để xây dựng các mô hình phát hiện gian lận tự động, bao gồm các thuật toán học có giám sát, bán giám sát và không giám sát.
- **Học sâu (Deep Learning)**: Một nhánh của học máy, sử dụng mạng neural nhiều lớp để trích xuất đặc trưng phức tạp từ dữ liệu lớn, phù hợp với bài toán phát hiện gian lận thẻ tín dụng.
- **Mô hình Autoencoder**: Mạng neural nhân tạo gồm ba phần chính: bộ mã hóa (encoder), mã (code) và bộ giải mã (decoder). Mục tiêu là học cách tái tạo dữ liệu đầu vào, từ đó phát hiện các điểm bất thường dựa trên sai số tái tạo.
- **Phân tích thành phần chính (PCA)**: Phương pháp giảm chiều dữ liệu truyền thống, được so sánh với Autoencoder để đánh giá hiệu quả trích xuất đặc trưng.
- **Kỹ thuật cân bằng dữ liệu**: Bao gồm nhân bản mẫu dương tính, giảm số lượng mẫu âm tính, tạo thêm mẫu dương tính bằng thuật toán và điều chỉnh trọng số học tập nhằm xử lý tập dữ liệu mất cân bằng.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Sử dụng bộ dữ liệu giao dịch thẻ tín dụng thực nghiệm tải về từ trang web chuyên ngành, với số lượng mẫu lớn và tỷ lệ mẫu gian lận rất thấp (dưới 1%).
- **Phương pháp phân tích**: Áp dụng mô hình Autoencoder với kiến trúc MLP gồm lớp đầu vào, hai lớp ẩn và lớp đầu ra. Mô hình được huấn luyện theo phương pháp học không giám sát, sử dụng hàm mất mát mean squared error (MSE) để tối ưu hóa.
- **Quy trình nghiên cứu**: 
  - Tiền xử lý dữ liệu, loại bỏ các trường không cần thiết.
  - Xây dựng và huấn luyện mô hình Autoencoder trên tập dữ liệu bình thường.
  - Đánh giá mô hình bằng các chỉ số như độ chính xác (accuracy), tỉ lệ thu hồi (recall) và đường cong ROC-AUC.
  - So sánh kết quả với các mô hình truyền thống và các kỹ thuật cân bằng dữ liệu.
- **Timeline nghiên cứu**: Thực hiện trong năm 2021, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá kết quả.

---

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Autoencoder đạt độ chính xác trên 95% trong việc phát hiện các giao dịch gian lận trên tập dữ liệu mất cân bằng, với tỉ lệ thu hồi đạt khoảng 80% ở ngưỡng FPR = 20%.
- So với các mô hình học máy truyền thống như mạng Bayesian Belief Networks (BBN) và mạng neural nhân tạo (ANN), Autoencoder cho kết quả vượt trội về khả năng phát hiện các mẫu gian lận mới chưa từng xuất hiện trong dữ liệu huấn luyện.
- Việc áp dụng các kỹ thuật cân bằng dữ liệu như tạo thêm mẫu dương tính bằng thuật toán giúp cải thiện đáng kể hiệu quả mô hình, giảm thiểu hiện tượng overfitting và tăng khả năng khái quát hóa.
- Mô hình Autoencoder có khả năng tự động trích xuất các đặc trưng quan trọng từ dữ liệu, giúp giảm thiểu sự phụ thuộc vào kiến thức chuyên gia và quy tắc thủ công trong phát hiện gian lận.

### Thảo luận kết quả

Nguyên nhân mô hình Autoencoder đạt hiệu quả cao là do khả năng học biểu diễn phi tuyến tính và trừu tượng hóa dữ liệu, vượt trội hơn so với các phương pháp giảm chiều truyền thống như PCA. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực học sâu và phát hiện gian lận tài chính. Việc sử dụng học không giám sát giúp mô hình linh hoạt trong việc phát hiện các hành vi gian lận mới, không bị giới hạn bởi dữ liệu gán nhãn.

Dữ liệu có thể được trình bày qua biểu đồ ROC để minh họa sự khác biệt về hiệu suất giữa các mô hình, cũng như bảng so sánh các chỉ số chính như accuracy, recall và F1-score. Kết quả nghiên cứu góp phần nâng cao hiệu quả hệ thống phát hiện gian lận, giảm thiểu thiệt hại tài chính cho các tổ chức ngân hàng và khách hàng.

---

## Đề xuất và khuyến nghị

- **Triển khai mô hình Autoencoder trong hệ thống phát hiện gian lận của ngân hàng** nhằm nâng cao độ chính xác và giảm thiểu cảnh báo giả, với mục tiêu giảm thiểu thiệt hại do gian lận xuống dưới 0,1% tổng giá trị giao dịch trong vòng 12 tháng.
- **Kết hợp các kỹ thuật cân bằng dữ liệu** như tạo mẫu dương tính bằng thuật toán và điều chỉnh trọng số học tập để cải thiện khả năng phát hiện các trường hợp gian lận hiếm gặp, áp dụng trong giai đoạn huấn luyện mô hình.
- **Đào tạo và nâng cao năng lực cho đội ngũ chuyên gia phân tích dữ liệu** về học sâu và Autoencoder để đảm bảo vận hành và tinh chỉnh mô hình hiệu quả, thực hiện trong 6 tháng đầu năm.
- **Xây dựng hệ thống phản hồi tự động từ điều tra viên** để cập nhật và cải thiện mô hình liên tục dựa trên dữ liệu thực tế, giúp mô hình thích ứng nhanh với các hình thức gian lận mới.
- **Tăng cường hợp tác nghiên cứu và chia sẻ dữ liệu giữa các tổ chức tài chính** nhằm mở rộng tập dữ liệu huấn luyện, nâng cao khả năng phát hiện gian lận trên phạm vi toàn quốc.

---

## Đối tượng nên tham khảo luận văn

- **Ngân hàng và tổ chức tài chính**: Nâng cao hiệu quả hệ thống phát hiện gian lận, giảm thiểu rủi ro tài chính và bảo vệ khách hàng.
- **Chuyên gia phân tích dữ liệu và nhà khoa học dữ liệu**: Áp dụng mô hình học sâu và kỹ thuật Autoencoder trong các bài toán phát hiện bất thường.
- **Nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo và học máy**: Tham khảo phương pháp tiếp cận và kết quả thực nghiệm về phát hiện gian lận trên dữ liệu mất cân bằng.
- **Cơ quan quản lý và giám sát tài chính**: Hiểu rõ các công nghệ mới trong phát hiện gian lận để xây dựng chính sách và quy định phù hợp.

---

## Câu hỏi thường gặp

1. **Autoencoder là gì và tại sao được sử dụng trong phát hiện gian lận?**  
Autoencoder là mạng neural học không giám sát, học cách tái tạo dữ liệu đầu vào. Nó giúp phát hiện các điểm bất thường khi dữ liệu đầu ra khác biệt lớn so với đầu vào, phù hợp với bài toán phát hiện gian lận.

2. **Tại sao cần xử lý dữ liệu mất cân bằng trong phát hiện gian lận?**  
Dữ liệu gian lận thường chiếm tỷ lệ rất nhỏ, gây khó khăn cho mô hình học máy trong việc học đặc trưng của lớp thiểu số. Xử lý mất cân bằng giúp cải thiện độ chính xác và khả năng phát hiện gian lận.

3. **Mô hình Autoencoder có ưu điểm gì so với các mô hình truyền thống?**  
Autoencoder có khả năng học biểu diễn phi tuyến tính, tự động trích xuất đặc trưng và không cần dữ liệu gán nhãn, giúp phát hiện các mẫu gian lận mới hiệu quả hơn.

4. **Làm thế nào để đánh giá hiệu quả mô hình phát hiện gian lận?**  
Sử dụng các chỉ số như độ chính xác (accuracy), tỉ lệ thu hồi (recall), F1-score và đường cong ROC-AUC để đánh giá khả năng phân loại và phát hiện bất thường của mô hình.

5. **Có thể áp dụng mô hình này cho các loại gian lận khác không?**  
Có, mô hình Autoencoder và các kỹ thuật học sâu có thể được điều chỉnh và áp dụng cho nhiều bài toán phát hiện gian lận và bất thường trong các lĩnh vực khác nhau như bảo hiểm, y tế, và thương mại điện tử.

---

## Kết luận

- Luận văn đã phát triển thành công mô hình Autoencoder ứng dụng học sâu để phát hiện gian lận trong giao dịch thẻ tín dụng trên tập dữ liệu mất cân bằng.  
- Mô hình đạt độ chính xác trên 95% và tỉ lệ thu hồi khoảng 80%, vượt trội so với các mô hình truyền thống.  
- Kỹ thuật cân bằng dữ liệu kết hợp với Autoencoder giúp cải thiện hiệu quả phát hiện các trường hợp gian lận hiếm gặp.  
- Nghiên cứu góp phần nâng cao an toàn tài chính, giảm thiểu thiệt hại do gian lận cho các tổ chức ngân hàng.  
- Đề xuất triển khai mô hình trong thực tế và tiếp tục nghiên cứu mở rộng ứng dụng cho các lĩnh vực khác.

**Hành động tiếp theo:** Các tổ chức tài chính nên bắt đầu thử nghiệm và tích hợp mô hình Autoencoder vào hệ thống phát hiện gian lận hiện tại để nâng cao hiệu quả và bảo vệ khách hàng tốt hơn.