Đánh Giá Hiệu Suất Học Liên Kết Với Tập Dữ Liệu Mất Cân Bằng

Luận văn tốt nghiệp nghiên cứu tốt nghiệp hệ thống thông tin đánh giá mô hình học liên kết trong tập dữ liệu mất cân bằng, điều tra thực trạng, phân tích số liệu, đề xuất biện

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Dat van đề

1.2. Thách thức và mục tiêu

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Gian lận giao dịch

2.2. Các loại gian lận giao dịch

2.3. Các thách thức

2.4. Ứng dụng máy học để phát hiện gian lận

2.5. Các phương pháp đánh giá mô hình dự đoán

2.5.1. Binary Classification, Confusion Matrix

3. CHƯƠNG 3: PHƯƠNG PHÁP THỰC HIỆN

3.1. Tập dữ liệu

3.2. Tiền xử lý dữ liệu

3.2.1. Xử lý miền giá trị của tập dữ liệu và loại bỏ đặc trưng

3.2.2. Chia tập dữ liệu

3.3. Xử lý cân bằng dữ liệu

3.4. Xây dựng mô hình Multi - Layer perceptron

3.5. Federated learning trong thực nghiệm

3.5.1. Thuật toán Fed Avg với thực nghiệm thông số về Batch size

3.5.2. Thuật toán Fed Avg với thực nghiệm thông số về Round

3.5.3. Thuật toán Fed Avg với thực nghiệm thông số về Epoch

3.5.4. Thuật toán Fed Avg với thực nghiệm thông số về Learning rate

3.5.5. Thuật toán Fed Avg với thực nghiệm balance data

3.5.6. Thuật toán Fed Avg, Fed Sgd, Fed Prox với các thông số có kết quả tốt nhất

3.6. Kết luận

4. CHƯƠNG 4: TỔNG KẾT

4.1. Những kiến thức học được

4.2. Những công việc đã đạt được

4.3. Bài học kinh nghiệm

4.4. Công việc trong tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Đánh Giá Hiệu Suất Học Liên Kết

Đánh giá hiệu suất học liên kết với tập dữ liệu mất cân bằng là một chủ đề quan trọng trong lĩnh vực học máy. Việc hiểu rõ về cách thức hoạt động của các mô hình học máy trong bối cảnh dữ liệu không cân bằng giúp cải thiện độ chính xác và hiệu quả của các hệ thống phát hiện gian lận. Nghiên cứu này sẽ cung cấp cái nhìn tổng quan về các phương pháp và thách thức trong việc đánh giá hiệu suất của các mô hình học liên kết.

1.1. Khái Niệm Về Hiệu Suất Học Liên Kết

Hiệu suất học liên kết đề cập đến khả năng của mô hình trong việc học từ dữ liệu phân tán mà không cần chia sẻ dữ liệu nhạy cảm. Điều này đặc biệt quan trọng trong các lĩnh vực như tài chính, nơi mà dữ liệu khách hàng cần được bảo mật.

1.2. Tầm Quan Trọng Của Tập Dữ Liệu Mất Cân Bằng

Tập dữ liệu mất cân bằng là một thách thức lớn trong học máy, đặc biệt là trong các bài toán phát hiện gian lận. Tỷ lệ gian lận thấp trong tổng số giao dịch khiến cho việc dự đoán chính xác trở nên khó khăn.

II. Thách Thức Trong Đánh Giá Hiệu Suất Học Liên Kết

Việc đánh giá hiệu suất của các mô hình học liên kết gặp phải nhiều thách thức, đặc biệt là khi làm việc với tập dữ liệu mất cân bằng. Các vấn đề như concept drift và dữ liệu nhạy cảm cần được xem xét kỹ lưỡng để đảm bảo tính chính xác của mô hình.

2.1. Vấn Đề Concept Drift Trong Mô Hình

Concept drift xảy ra khi các hành vi gian lận thay đổi theo thời gian, khiến cho mô hình không còn chính xác. Việc cập nhật mô hình thường xuyên là cần thiết để duy trì hiệu suất.

2.2. Dữ Liệu Nhạy Cảm Và Vấn Đề Bảo Mật

Dữ liệu nhạy cảm không thể chia sẻ giữa các tổ chức tài chính, điều này gây khó khăn trong việc xây dựng mô hình học liên kết hiệu quả. Các giải pháp bảo mật như Federated Learning được đề xuất để giải quyết vấn đề này.

III. Phương Pháp Đánh Giá Hiệu Suất Mô Hình Học Liên Kết

Để đánh giá hiệu suất của mô hình học liên kết, nhiều phương pháp khác nhau được áp dụng. Các chỉ số như Precision, Recall và F1-Score là những công cụ quan trọng trong việc đo lường độ chính xác của mô hình.

3.1. Sử Dụng Precision Và Recall

Precision và Recall là hai chỉ số quan trọng trong việc đánh giá mô hình phát hiện gian lận. Precision đo lường độ chính xác của các dự đoán gian lận, trong khi Recall đo lường khả năng phát hiện các giao dịch gian lận thực sự.

3.2. F1 Score Là Chỉ Số Tổng Hợp

F1-Score là chỉ số tổng hợp giữa Precision và Recall, giúp đánh giá hiệu suất của mô hình một cách toàn diện. Chỉ số này đặc biệt hữu ích trong các bài toán mất cân bằng dữ liệu.

IV. Ứng Dụng Thực Tiễn Của Mô Hình Học Liên Kết

Mô hình học liên kết có nhiều ứng dụng thực tiễn trong việc phát hiện gian lận giao dịch. Việc áp dụng các phương pháp học máy giúp cải thiện độ chính xác và hiệu quả của các hệ thống phát hiện gian lận.

4.1. Ứng Dụng Trong Ngành Tài Chính

Trong ngành tài chính, các mô hình học liên kết được sử dụng để phát hiện gian lận thẻ tín dụng. Việc áp dụng các thuật toán học máy giúp giảm thiểu rủi ro và bảo vệ thông tin khách hàng.

4.2. Kết Quả Nghiên Cứu Về Hiệu Suất

Nghiên cứu cho thấy rằng việc sử dụng Federated Learning có thể cải thiện đáng kể hiệu suất của các mô hình học liên kết, đồng thời bảo vệ dữ liệu nhạy cảm của khách hàng.

V. Kết Luận Về Đánh Giá Hiệu Suất Học Liên Kết

Đánh giá hiệu suất học liên kết với tập dữ liệu mất cân bằng là một lĩnh vực nghiên cứu quan trọng. Các thách thức và phương pháp đánh giá cần được xem xét kỹ lưỡng để đảm bảo tính chính xác và hiệu quả của các mô hình.

5.1. Tương Lai Của Nghiên Cứu

Tương lai của nghiên cứu trong lĩnh vực này sẽ tập trung vào việc phát triển các phương pháp mới để cải thiện hiệu suất của mô hình học liên kết, đồng thời giải quyết các vấn đề về dữ liệu nhạy cảm.

5.2. Khuyến Nghị Cho Các Tổ Chức

Các tổ chức nên xem xét áp dụng các phương pháp học liên kết để cải thiện khả năng phát hiện gian lận, đồng thời bảo vệ thông tin khách hàng một cách hiệu quả.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp hệ thống thông tin đánh giá mô hình học liên kết trong tập dữ liệu mất cân bằng

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỎNG QUAN 11 Dat van đề Phần lớn gian lận giao dịch thẻ tín dụng hiện nay đều là gian lận thông qua giao dịch trực tuyến, các tổ chức tài chính đã và đang nghiên cứu bằng nhiều phương pháp nhằm khắc phục tình trạng này, Mỗi năm số tiền thiệt hại do các gian lận giao dịch lên đến hàng tỷ đô. Tuy vậy gian lận là một khái niệm phức tạp, có rất nhiều phương thức hành vi khác nhau và trong khóa luận này nhóm sẽ tập trung vào hành vi gian lận thẻ tín dụng. Pháp hiện gian lận giao dịch là một nhiệm vụ vô cùng khó khăn bởi tội phạm thực hiện gian lận luôn thay đổi chiến thuật và hành vi, không chỉ vậy số lượng giao dịch tín dung là một dit liệu vô cùng khổng lồ, khiến cho việc phát hiện và phân tích gian lận giao dịch trở nên không thể đối với con người. Chính vì thế người ta bắt đầu sử dụng 2 phương pháp chính dé giải quyết, đầu tiên là ngăn chặn giao dich bằng những bộ luật hay còn gọi là rule-base nhằm chặn đứng các gian lận trước khi có cơ hội xảy ra, còn lại là ứng dụng Machine Learning (máy học) để phát hiện gian lận giao dịch thẻ tín dụng và với xu hướng ngày càng nhiều trong thập kỷ qua bởi khả năng tự động phát hiện các hành vi gian lận cho dù phải xử lý một lượng lớn dữ liệu.

Với sự tiện lợi cũng như độ chính xác cao của Machine Learning khi ứng dụng vào phát hiện gian lận giao dịch, song vấn đề gặp phải khi các tổ chức tội phạm liên tục thay đổi phương pháp gian lận khiến cho việc liên tục cập nhập mô hình dự đoán gặp nhiều khó khăn, giải pháp cần đặt ra đó là việc chia sẻ nguồn dữ liệu của các giao dịch giữa các tổ chức tài chính với nhau qua đó mô hình dự đoán sẽ hạn chế bỏ sót các trường hợp gian lận. Tuy nhiên đó lại là một phương pháp không thé áp dụng bởi dữ liệu giao dịch, thông tin khách hang là dữ liệu riêng tư có tính nhạy cảm cao không chỉ đối với cá nhân khách hàng mà còn đối với tổ chức tài chính, các tổ chức thường không thé chia sẻ thông tin khách hàng do sẽ gặp các vấn đề về pháp lý còn đối với các trường hợp gặp thiệt hại do gian lận giao dịch, có rất nhiều tổ chức không báo 10 cáo các trường hợp đó vì nếu rò rỉ sẽ ảnh hưởng đến uy tín thương mại và mắt khách hàng. Do đó phương pháp Federated Learning được ra đời bởi Google vào năm 2016, với ý tưởng thay vì phải sử dụng phương pháp huan luyện tập trung, toàn bộ di liệu phải đưa về máy chủ trung tâm dé huấn luyện thì với Federated Learning có thé huấn luyện ngay tại máy chủ cục bộ sau đó cập nhật các thông số lên máy chủ trung tâm và nhận về mô hình mới đã được cập nhật dựa trên các kết quả của các máy chủ cục bộ, với thuật toán mới này khiến cho việc chia sẻ đữ liệu nhạy cảm giữa các tổ chức tài chính với nhau trở nên không còn cần thiết mà hiệu quả mang lại có thể ngang với huấn luyện tập trung hay thậm chí còn có thể mang lại kết quả tốt hơn.2 Thách thức và mục tiêu Các thách thức trong việc xây dựng mô hình dự đoán gian lận giao dịch gặp phải: © Concept Drift: là van đề gặp phải khi ta xây dựng mô hình dự đoán gian lận giao dịch, mô hình đã học được các hành vi của gian lận giao dịch tuy nhiên các hành vi đó nhanh chóng bị thay đồi bởi những chiến thuật gian lận của các tổ chức tội phạm và mô hình mà ta xây dựng không thê cập nhật kịp thời với những thay đổi đó [1]. Vì thế việc có thé phân biệt chính xác các giao dịch nào là gian lận và không gian lận là vấn đề quan trọng bởi khi các hành vi gian lận thay đổi ta không dự đoán sai về các giao dịch không gian lận.

© Mắt cân bằng dữ liệu: cũng là một vẫn dé của dự đoán gian lận giao dịch khi số lượng giao dịch gian lận chỉ chiếm 0.17% và khi đó khiến cho việc dự đoán bị lệch về giao dịch chiếm đa số [2], để giải quyết có 2 cách tiếp cận sẽ được nhóm trình bày ở những phần tiếp theo. Mục tiêu của nhóm trong khóa luận này đó là ứng dụng Federated Learning trong xây dựng hệ thống phát hiện giao dịch bằng Framework TensorFlow và ứng dụng các thuật toán bảo mật của Federated Learning dé kiểm tra thuật toán nao phi hợp với bài toán. 11 CHƯƠNG 2: CƠ SỞ LÝ THUYET 2.1 Gian lận giao dịch Năm 201 1, hơn 700 triệu giao dịch điện tử diễn ra ở EU, số lượng giao dịch trực tuyến tăng lên một cách nhanh chóng, tổng số tiền giao dịch lên đến 3000 tỷ ơ-rô, khi được ứng dụng EMV (chip-embedded cards) hay còn gọi là thẻ gắn chip giúp tăng cường bao mật thông tin của khách hàng và đồng thời cũng giúp giao dịch trực tiếp an toàn hơn. Tuy vậy số lượng giao dịch gian lận vẫn tiếp tục tăng lên đến con số 1.5 ty ơ-rô mỗi năm để giải quyết vấn đề này cần có một phương pháp xây dựng một hệ thống chuyên biệt dé phát hiện gian lận giao dịch dựa trên thông tin của giao dịch.2 Các loại gian lận giao dich Gian lận giao dịch có thể được chia thành 5 loại trong khóa luận này, nhận biết các loại gian lận hiện nay dé có thé phân biệt được sự khác nhau của từng loại gian lận và có biện pháp đối phó.

e_ Đánh mất / bi lấy cắp (chiếm 1% trong số các loại gian lận): thường xảy ra với người lớn tuổi khi họ bị quan sát mật khẩu khi rút tiền, sau khi đã biết được mật khẩu, họ sẽ bị đánh cắp thẻ. Trong trường hợp nay người thực hiện gian lận giao dịch là kẻ trộm, loại gian lận này không được liệt kê vào nhóm tội phạm có tổ chức [3]. © Đánh cắp trước khi khách hàng có thé sử dụng (chiếm hơn 1%): thẻ tín dung trong quá trình sản xuất và vận chuyển bị đánh cắp. Để tránh trường hợp này ngân hàng có thể yêu cầu người làm thẻ nhận thẻ trực tiếp tại trụ sở của ngân hàng thay vì vận chuyển qua đường bưu điện hoặc sau khi nhận thẻ cần gọi điện với ngân hàng đề xác thực [3].

e Gian lận do rò ri ID của thẻ (không đáng kể): card được làm giả dựa trên các ID bị đánh cắp từ các tổ chức tội phạm [3]. 12 e Thẻ tín dụng giả (< 10% trong tông số giao dịch): thẻ được làm giả với thẻ tin dụng thật đang được sử dụng trong database của tổ chức tài chính, tái tạo lại mã vạch của thẻ và được làm giả lại bởi các tổ chức tội phạm, loại gian lận này chiếm đa số trong quá khứ nhưng với sự xuất hiện của thẻ gắn chip vấn đề đã được khắc phục nhanh chóng. Tuy nhiên với những thẻ không gắn chip vẫn còn được sử dụng ở nhiều nơi trên thế giới [3]. e Gian lận bang giao dich truc tuyén (chiém 90% các giao dịch gian lận): hầu hết các loại gian lận giao dịch hiện nay được thực hiện trực tuyến.

Các xác thực về mã thẻ, ngày hết hạn,. thường bị rò rỉ do tắn công kho dữ liệu bởi các tổ chức tội phạm và được bán trên Deep web. British airways, Mariot Hotels là những cái tên nỗi tiếng bị tổn thất lớn do loại gian lận này vào năm 2018. Người tham gia giao dịch hiện nay sử dụng công nghệ 3D SECURE hay thuật ngữ “bảo mật 3 miền” được xác thực bởi người mua, người bán và miền có khả năng tương tác, sử dụng mật khẩu dùng 1 lần dé thực hiện giao dịch, khi điền đủ thông tin sẽ được gửi otp đề xác thực.

Tuy nhiên với những người giao dịch ở các website như Amazon, Ebay thì lại thường không sử dụng loại bảo mật này. Một vấn đề khác, khi xảy ra các gian lận giao dịch thì các tổ chức tài chính thường không báo cáo các van dé này do sợ ảnh hưởng đến uy tín thương mại [3].3 Các thách thức Việc ứng dụng sử dụng máy học để xây dựng hệ thống phát hiện gian lận giao dịch không hề mới, trên thực tế đã có từ lâu và được sử dụng khắp toàn cầu. Tuy vậy luôn có những thách thức đặt ra để giải quyết bài toán phát hiện gian lận: e Cách thức gian lận giao dich thay đổi theo thời gian - đây là một trong những thách thức lớn nhất gặp phải khi xây dựng hệ thống phát hiện gian lận thẻ giao dịch, đối tượng thực hiện hành vi gian lận luôn tìm cách dùng các phương thức mới để thực hiện gian lận. Chính vì thế điều quan trọng đối với tất cả các hệ thống dự đoán luôn cần phải được cập nhật thay đổi dựa trên những thay đổi của đối tượng phạm tội.

Điều này khiến cho độ chính xác của các mô hình dự đoán bị giảm sút thay vì tiếp tục được huấn luyện để đạt được độ chính xác cao mà phải liên tục cập nhật hoặc sẽ không thể phát hiện được các hành vi gian lận trong tương lai. e Dữ liệu không cân bằng - vấn đề đặc trưng của bài toán do tỉ lệ giao dịch được nhận định là gian lận chiếm tỷ lệ rất nhỏ trong tập dữ liệu vì thế đối với các hệ thống dự đoán sẽ luôn gặp khó khăn trong việc đưa ra kết quả nhằm lẫn khiến cho trải nghiệm dịch vụ khách hàng bị gián đoạn khi giao dịch của họ hoàn toàn hợp pháp hay bỏ qua những hành vi gian lận ảnh hưởng đến tài chính và uy tín của tổ chức tài chính. e Dữ liệu nhạy cảm - hầu hết các dữ liệu, đặc trưng đều là dữ liệu riêng tư không thể chia sẻ giữa các tổ chức tài chính. e Thiếu dữ liệu - việc thu thập các dữ liệu đặc trưng liên quan tới bài toán luôn gặp khó khăn bởi không phải tắt cả các trường hợp gian lận giao dịch đều được phát hiện hoặc được báo cáo bởi các tổ chức tai chính do e ngại van dé uy tin thương mại.4 Ứng dụng máy học để phát hiện gian lận Ứng dụng máy học khi xây dựng hệ thống phát hiện gian lận giao dịch đề thu được các kết quả chính xác hay dự đoán hành vi bắt thường trong tập đữ liệu là các phương pháp mà các tổ chức ngân hàng hiện nay đang ứng dụng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Hiệu suất học liên kết trong AI

Ứng dụng Federated Learning

Vấn đề dữ liệu mất cân bằng

Phát hiện gian lận trong giao dịch