Khai Phá Motif Đa Chuỗi Thời Gian và Phát Hiện Bất Thường Bằng Học Máy

Chuyên khảo phân tích Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng các phương pháp học máy, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp

Trường đại học

Trường Đại Học Bách Khoa Hà Nội

Chuyên ngành

Toán Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU CHUNG

1.1. Bài toán phát hiện bất thường

1.1.1. Nguồn dữ liệu đầu vào

1.1.2. Các loại bất thường

1.1.3. Nhãn dữ liệu

1.1.4. Đầu ra của bài toán

1.2. Bài toán phân lớp và một số thuật toán học máy

1.2.1. Bài toán phân lớp

1.2.2. Một số thuật toán học máy

2. CHƯƠNG 2: XÂY DỰNG MÔ HÌNH KHAI PHÁ MOTIF CHO CHUỖI THỜI GIAN VÀ PHÁT HIỆN BẤT THƯỜNG

2.1. Mô hình tổng quan

2.2. Mô hình hóa dữ liệu thành chuỗi thời gian

2.3. Khai phá motif

2.3.1. Xây dựng chuỗi ký hiệu

2.3.2. Tìm kiếm motif bất thường

2.4. Xây dựng bộ thuộc tính bất thường và phân lớp

2.5. Đánh giá kết quả phân lớp

2.5.1. Ma trận nghi ngờ

2.5.2. Precision và Recall

3. CHƯƠNG 3: ỨNG DỤNG MÔ HÌNH PHÁT HIỆN BẤT THƯỜNG VÀO DỮ LIỆU HOẠT ĐỘNG MUA HÀNG

3.1. Mô tả bộ dữ liệu

TÀI LIỆU THAM KHẢO

PHỤ LỤC

A. Công bố khoa học liên quan

Tóm tắt

I. Giới thiệu về Khai Phá Motif Đa Chuỗi Thời Gian

Khai phá motif cho đa chuỗi thời gian là một lĩnh vực nghiên cứu quan trọng trong phân tích dữ liệu. Nó giúp nhận diện các mẫu hành vi trong dữ liệu chuỗi thời gian, từ đó phát hiện các bất thường. Việc áp dụng các phương pháp học máy vào lĩnh vực này đã mở ra nhiều cơ hội mới cho việc phát hiện gian lận và các hành vi bất thường trong nhiều lĩnh vực khác nhau.

1.1. Định nghĩa và Ý nghĩa của Khai Phá Motif

Khai phá motif là quá trình tìm kiếm các mẫu lặp lại trong dữ liệu chuỗi thời gian. Những mẫu này có thể giúp nhận diện các hành vi bất thường, từ đó hỗ trợ trong việc phát hiện gian lận và các vấn đề khác trong phân tích dữ liệu.

1.2. Tầm Quan Trọng của Phát Hiện Bất Thường

Phát hiện bất thường là một phần quan trọng trong nhiều lĩnh vực như tài chính, an ninh mạng và chăm sóc sức khỏe. Việc phát hiện sớm các hành vi bất thường có thể giúp ngăn chặn thiệt hại và bảo vệ tài sản.

II. Thách Thức trong Khai Phá Motif và Phát Hiện Bất Thường

Mặc dù có nhiều lợi ích, việc khai phá motif và phát hiện bất thường cũng gặp phải nhiều thách thức. Các vấn đề như dữ liệu lớn, tính không đồng nhất và sự phức tạp của hành vi người dùng là những yếu tố cần được xem xét.

2.1. Dữ Liệu Lớn và Tính Không Đồng Nhất

Dữ liệu lớn thường chứa nhiều thông tin không đồng nhất, điều này gây khó khăn trong việc phân tích và phát hiện các mẫu hành vi. Cần có các phương pháp hiệu quả để xử lý và phân tích dữ liệu này.

2.2. Sự Phức Tạp của Hành Vi Người Dùng

Hành vi người dùng có thể thay đổi theo thời gian và ngữ cảnh, điều này làm cho việc phát hiện bất thường trở nên khó khăn hơn. Cần có các mô hình linh hoạt để thích ứng với sự thay đổi này.

III. Phương Pháp Khai Phá Motif Đa Chuỗi Thời Gian

Có nhiều phương pháp khác nhau để khai phá motif trong chuỗi thời gian. Các phương pháp này bao gồm việc sử dụng các thuật toán học máy và các kỹ thuật phân tích dữ liệu tiên tiến.

3.1. Sử Dụng Thuật Toán Học Máy

Các thuật toán học máy như KNN, Random Forest và hồi quy logistic có thể được áp dụng để phát hiện các motif và phân lớp các hành vi bất thường trong dữ liệu chuỗi thời gian.

3.2. Kỹ Thuật Mô Hình Hóa Dữ Liệu

Mô hình hóa dữ liệu thành chuỗi thời gian là một bước quan trọng trong việc khai phá motif. Các kỹ thuật như SAX (Symbolic Aggregate approXimation) giúp chuyển đổi dữ liệu thành dạng dễ phân tích hơn.

IV. Ứng Dụng Thực Tiễn của Khai Phá Motif

Khai phá motif có nhiều ứng dụng thực tiễn trong các lĩnh vực như tài chính, an ninh mạng và chăm sóc sức khỏe. Việc áp dụng các phương pháp này giúp phát hiện gian lận và các hành vi bất thường một cách hiệu quả.

4.1. Phát Hiện Gian Lận Tài Chính

Trong lĩnh vực tài chính, khai phá motif giúp phát hiện các giao dịch gian lận bằng cách phân tích hành vi tiêu dùng của khách hàng. Các mẫu hành vi bất thường có thể được nhận diện và xử lý kịp thời.

4.2. An Ninh Mạng và Phát Hiện Tấn Công

Khai phá motif cũng được áp dụng trong an ninh mạng để phát hiện các cuộc tấn công. Việc phân tích lưu lượng mạng giúp nhận diện các hành vi bất thường và ngăn chặn các mối đe dọa.

V. Kết Luận và Tương Lai của Khai Phá Motif

Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng học máy là một lĩnh vực đang phát triển mạnh mẽ. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều giải pháp mới và hiệu quả hơn trong việc phân tích dữ liệu.

5.1. Xu Hướng Nghiên Cứu Tương Lai

Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện độ chính xác của các mô hình phát hiện bất thường và khai phá motif, cũng như phát triển các phương pháp mới để xử lý dữ liệu lớn.

5.2. Tích Hợp Công Nghệ Mới

Việc tích hợp các công nghệ mới như trí tuệ nhân tạo và học sâu vào khai phá motif sẽ mở ra nhiều cơ hội mới cho việc phát hiện bất thường trong dữ liệu.

02/07/2025

Bạn đang xem trước tài liệu:

Khai phá motif cho đa chuỗi thời gian và phát hiện bất thường bằng các phương pháp học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phát hiện bất thường trong dữ liệu chuỗi thời gian là một lĩnh vực nghiên cứu quan trọng, đặc biệt trong bối cảnh phát triển mạnh mẽ của các giao dịch tài chính trực tuyến. Theo ước tính, trong bộ dữ liệu hoạt động mua hàng của 3012 khách hàng trong vòng 3 năm, có khoảng 10% khách hàng được xác định có hành vi gian lận. Bài toán phát hiện bất thường nhằm mục tiêu nhận diện các hành vi giao dịch không phù hợp với thói quen thông thường, từ đó cảnh báo các dấu hiệu gian lận tiềm ẩn.

Luận văn tập trung vào khai phá motif – các mẫu hành vi lặp lại đặc trưng – trong đa chuỗi thời gian để phát hiện các hành vi bất thường. Phạm vi nghiên cứu bao gồm dữ liệu giao dịch mua bán hàng hóa của khách hàng tại một doanh nghiệp bán lẻ trong giai đoạn 2015-2017. Mục tiêu cụ thể là xây dựng mô hình khai phá motif hành vi bất thường, phân lớp các đối tượng dựa trên các đặc trưng này và đánh giá hiệu quả phát hiện gian lận.

Nghiên cứu có ý nghĩa thiết thực trong việc nâng cao độ chính xác và hiệu quả của hệ thống phát hiện gian lận tài chính, góp phần giảm thiểu rủi ro cho doanh nghiệp và khách hàng. Các chỉ số đánh giá như Precision, Recall và F1-score được sử dụng để đo lường hiệu quả mô hình, với kết quả F1-score đạt khoảng 72% khi áp dụng mô hình tổng hợp đa chuỗi thời gian.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Phát hiện bất thường (Anomaly Detection): Định nghĩa bất thường là các điểm hoặc tập hợp điểm dữ liệu không phù hợp với hành vi thông thường. Các loại bất thường gồm bất thường điểm, bất thường ngữ cảnh và bất thường nhóm. Phát hiện bất thường được ứng dụng rộng rãi trong an ninh mạng, tài chính và giám sát hệ thống.
Khai phá motif trong chuỗi thời gian: Motif là các mẫu hành vi lặp lại đặc trưng trong chuỗi thời gian. Việc khai phá motif giúp nhận diện các hành vi gian lận thường xuyên xuất hiện. Chuỗi thời gian được chuyển đổi thành chuỗi ký hiệu rời rạc (ký hiệu u, l, d tương ứng với tăng, giữ nguyên, giảm) để thuận tiện cho việc tìm kiếm motif.
Thuật toán học máy phân lớp: Các thuật toán như K-láng giềng gần nhất (KNN), Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), AdaBoost và Hồi quy logistic được sử dụng để phân loại các đối tượng thành nhóm bình thường hoặc bất thường dựa trên bộ thuộc tính được xây dựng từ motif.

Các khái niệm chính bao gồm chuỗi thời gian đơn giản, chuỗi ký hiệu thu gọn, ma trận khoảng cách giữa các chuỗi ký hiệu, ngưỡng tương đồng R để xác định motif, và các chỉ số đánh giá phân lớp như Precision, Recall, F1-score.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu hoạt động mua hàng của 3012 khách hàng trong 3 năm (2015-2017), trong đó có 312 khách hàng được gán nhãn gian lận. Dữ liệu bao gồm các thuộc tính như mã khách hàng, địa điểm mua hàng, mã hàng hóa và ngày mua.

Phương pháp nghiên cứu gồm các bước:

Tiền xử lý dữ liệu: Chuyển đổi dữ liệu giao dịch rời rạc thành chuỗi thời gian mô tả hành vi thay đổi địa điểm, hàng hóa mua hoặc cả hai theo tháng.
Chuyển đổi chuỗi thời gian thành chuỗi ký hiệu: Sử dụng phép trừ chuỗi thời gian để mã hóa thành chuỗi ký hiệu u (tăng), l (giữ nguyên), d (giảm), sau đó thu gọn chuỗi ký hiệu.
Khai phá motif: Tính ma trận khoảng cách giữa các chuỗi ký hiệu, xác định các motif trung tâm dựa trên ngưỡng tương đồng R, lọc motif đặc trưng cho hành vi gian lận dựa trên tỷ lệ xuất hiện trong nhóm bình thường và bất thường.
Xây dựng bộ thuộc tính bất thường: Tính toán độ tương đồng giữa hành vi của từng đối tượng với các motif bất thường để tạo bộ thuộc tính đặc trưng.
Phân lớp đối tượng: Áp dụng các thuật toán học máy (Random Forest, KNN, AdaBoost, Decision Tree) để phân loại khách hàng thành nhóm bình thường hoặc gian lận. Logistic Regression được sử dụng để tổng hợp điểm đánh giá từ đa chuỗi thời gian.

Timeline nghiên cứu kéo dài trong khoảng 3 năm, tương ứng với dữ liệu thu thập và phân tích từ 2015 đến 2017.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân lớp theo từng hành vi thay đổi:
- Hành vi thay đổi địa điểm: Thuật toán Random Forest đạt F1-score trung bình 54.3% với ngưỡng tương đồng 1.
- Hành vi thay đổi hàng hóa mua: Random Forest đạt F1-score 47% với ngưỡng tương đồng 0.
- Hành vi thay đổi cả địa điểm và hàng hóa: Random Forest đạt F1-score 63.3% với ngưỡng tương đồng 0.
Thời gian chạy thuật toán:
- Thuật toán KNN có thời gian chạy trung bình 0.17 giây, nhanh hơn gấp 3 lần so với Random Forest (khoảng 0.5 giây).
Mô hình tổng hợp đa chuỗi thời gian:
- Kịch bản 4 (dùng Random Forest tổng hợp điểm đánh giá từng hành vi) đạt F1-score 70.8%, cải thiện rõ rệt so với các mô hình đơn hành vi.
- Kịch bản 5 (tổng hợp điểm đánh giá từ các thuật toán phân lớp tối ưu cho từng hành vi) đạt F1-score 72%, với precision giảm nhẹ nhưng recall được cải thiện.
Ma trận nghi ngờ (Confusion matrix) cho thấy:
- 518 đối tượng được phân lớp đúng là bình thường.
- 25 đối tượng được phân lớp đúng là bất thường.
- 60 đối tượng bị phân lớp sai, thể hiện độ chính xác phân lớp còn có thể cải thiện.

Thảo luận kết quả

Kết quả cho thấy việc khai phá motif trên đa chuỗi thời gian và sử dụng các thuật toán học máy nâng cao hiệu quả phát hiện bất thường so với phân tích đơn hành vi. Random Forest thể hiện hiệu quả phân lớp tốt nhất nhưng chi phí thời gian cao hơn KNN, phù hợp với các ứng dụng không yêu cầu thời gian thực nghiêm ngặt.

Việc chuyển đổi chuỗi thời gian thành chuỗi ký hiệu giúp giảm độ phức tạp dữ liệu, thuận tiện cho việc tính toán khoảng cách và tìm kiếm motif. Các motif hành vi bất thường được xác định có tính đặc trưng cao, giúp phân biệt rõ ràng giữa nhóm khách hàng bình thường và gian lận.

So sánh với các nghiên cứu trước đây trong lĩnh vực phát hiện gian lận tài chính, mô hình đề xuất có sự kết hợp hiệu quả giữa khai phá motif và học máy, đồng thời áp dụng thành công trên dữ liệu thực tế với độ chính xác đáng kể. Biểu đồ hộp thể hiện phân phối các chỉ số Precision, Recall và F1-score minh họa sự ổn định của mô hình trên các thuật toán khác nhau.

Đề xuất và khuyến nghị

Tăng cường đa dạng hóa chuỗi ký hiệu: Phát triển các phương pháp chuyển đổi chuỗi thời gian phức tạp hơn, bao gồm các thuộc tính liên quan đến chi phí giao dịch để mô tả hành vi khách hàng chi tiết hơn.
Ứng dụng các thuật toán học máy cải tiến: Áp dụng các kỹ thuật học sâu (deep learning) hoặc học máy nâng cao để cải thiện độ chính xác và khả năng phát hiện các mẫu bất thường phức tạp.
Xây dựng hệ thống phát hiện thời gian thực: Tối ưu hóa thuật toán để giảm thời gian xử lý, đặc biệt ưu tiên các thuật toán nhanh như KNN cho các ứng dụng cần phản hồi tức thì.
Mở rộng phạm vi dữ liệu: Áp dụng mô hình cho các loại giao dịch tài chính khác như vay nợ, thế chấp, giao dịch thẻ tín dụng để đánh giá tính tổng quát và hiệu quả của mô hình.

Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới, phối hợp giữa các nhà nghiên cứu, doanh nghiệp và các đơn vị công nghệ để nâng cao khả năng ứng dụng thực tiễn.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Toán Tin: Có thể sử dụng luận văn làm tài liệu tham khảo về khai phá motif, phát hiện bất thường và ứng dụng học máy trong chuỗi thời gian.
Chuyên gia phân tích dữ liệu tài chính: Áp dụng mô hình và thuật toán để phát hiện gian lận trong giao dịch mua bán, nâng cao hiệu quả kiểm soát rủi ro.
Doanh nghiệp bán lẻ và ngân hàng: Sử dụng kết quả nghiên cứu để xây dựng hệ thống giám sát hành vi khách hàng, phát hiện sớm các dấu hiệu gian lận.
Nhà phát triển phần mềm và kỹ sư dữ liệu: Tham khảo quy trình tiền xử lý dữ liệu, chuyển đổi chuỗi thời gian và xây dựng bộ thuộc tính đặc trưng để phát triển các giải pháp phần mềm phát hiện bất thường.

Mỗi nhóm đối tượng có thể áp dụng các phần khác nhau của luận văn tùy theo mục đích nghiên cứu hoặc ứng dụng thực tế, từ việc phát triển thuật toán đến triển khai hệ thống giám sát.

Câu hỏi thường gặp

Mô hình khai phá motif hoạt động như thế nào trong phát hiện bất thường?
Mô hình chuyển đổi chuỗi thời gian thành chuỗi ký hiệu, sau đó tìm kiếm các motif – các mẫu hành vi lặp lại đặc trưng – trong nhóm đối tượng gian lận. Các motif này được dùng để xây dựng bộ thuộc tính đặc trưng cho phân lớp.
Tại sao lại sử dụng đa chuỗi thời gian thay vì một chuỗi đơn?
Đa chuỗi thời gian cho phép mô tả nhiều hành vi khác nhau của đối tượng (ví dụ thay đổi địa điểm và hàng hóa mua), giúp mô hình phát hiện bất thường toàn diện và chính xác hơn.
Thuật toán nào cho kết quả phân lớp tốt nhất?
Random Forest cho kết quả F1-score cao nhất (khoảng 63.3% đến 70.8% tùy kịch bản), tuy nhiên KNN có ưu thế về thời gian chạy nhanh hơn gấp 3 lần, phù hợp với ứng dụng thời gian thực.
Làm thế nào để đánh giá hiệu quả mô hình phát hiện bất thường?
Sử dụng các chỉ số Precision (độ chính xác), Recall (độ nhạy) và F1-score (độ đo tổng hợp) dựa trên ma trận nghi ngờ để đánh giá khả năng phân biệt đúng các đối tượng bất thường và bình thường.
Mô hình có thể áp dụng cho các lĩnh vực khác ngoài tài chính không?
Có thể, vì phát hiện bất thường và khai phá motif là kỹ thuật chung trong phân tích chuỗi thời gian, có thể ứng dụng trong an ninh mạng, giám sát cảm biến, y tế và nhiều lĩnh vực khác.

Kết luận

Luận văn đã xây dựng thành công mô hình khai phá motif trên đa chuỗi thời gian kết hợp học máy để phát hiện bất thường trong giao dịch tài chính.
Đề xuất phương pháp chuyển đổi chuỗi thời gian thành chuỗi ký hiệu và thuật toán tìm kiếm motif đặc trưng cho hành vi gian lận.
Áp dụng các thuật toán phân lớp như Random Forest, KNN, AdaBoost để phân loại khách hàng với độ chính xác F1-score đạt khoảng 72%.
Mô hình tổng hợp đa chuỗi thời gian cải thiện hiệu quả phát hiện so với phân tích đơn hành vi.
Hướng phát triển tiếp theo bao gồm đa dạng hóa chuỗi ký hiệu, áp dụng học máy nâng cao và mở rộng phạm vi ứng dụng.

Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và doanh nghiệp nên phối hợp triển khai các giải pháp đề xuất nhằm nâng cao khả năng phát hiện gian lận trong môi trường giao dịch ngày càng phức tạp.

Trích đoạn nội dung tài liệu

Chương 1 Giới thiệu chung 1.1 Bài toán phát hiện bất thường Phát hiện bất thường là bài toán nhận dạng motif trong dữ liệu mà không phù hợp với hành vi thông thường. Những motif không phù hợp này thường được gọi là điểm bất thường, điểm ngoại lai, những quan sát trái ngược, ngoại lệ trong nhiều ngữ cảnh khác nhau [10]. Phát hiệt bất thường được sử dụng rộng rãi trong nhiều lĩnh vực • Phát hiện gian lận trong hành vi tiêu dùng thẻ tín dụng, bảo hiểm hay chăm sóc sức khỏe [4][9][22][28][35]. • Phát hiện xâm nhập trong an ninh mạng [27][36][37].

• Phát hiện lỗi trong các hệ thống an toàn và các hoạt động giám sát [14][31]. Một điểm/tập hợp bất thường được định nghĩa là một motif không phù hợp với hành vi thông thường. Vì vậy, một cách tiếp cận trực tiếp cho bài toán phát hiện bất thường, là xác định một vùng đại diện cho các hành vi bình thường và trích rút bất kỳ quan sát nào không thuộc vùng bình thường này là bất thường [10]. Một bài toán phát hiện bất thường bao gồm bốn khía cạnh chính: nguồn dữ liệu đầu vào, các loại bất thường, nhãn của dữ liệu và đầu ra của quy trình phát hiện bất thường [10].1 Nguồn dữ liệu đầu vào Mỗi điểm dữ liệu đầu vào của bài toán được mô tả dưới dạng tập hợp các thuộc tính.

Các thuộc tính này có nhiều kiểu như nhị phân, các giá trị rời rạc 12 LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH hay liên tục. Mỗi điểm dữ liệu có thể gồm chỉ một thuộc tính (đơn biến) hay nhiều thuộc tính (đa biến). Ngoài ra, các điểm dữ liệu có thể có liên kết với nhau, chẳng hạn dữ liệu dạng chuỗi [14][38], dữ liệu dạng đồ thị [29]. Trong dữ liệu dạng chuỗi, các điểm dữ liệu có tính thứ tự tuyến tính, ví dụ như chuỗi thời gian, chuỗi gen, chuỗi protein.

Trong dữ liệu dạng đồ thị, mỗi điểm dữ liệu được biểu diễn dưới dạng đỉnh của đồ thị và liên kết với nhau bởi các cạnh.2 Các loại bất thường Đặc trưng của bất thường được chia làm ba loại [10] Bất thường điểm Nếu một điểm dữ liệu cụ thể được coi là dị thường với phần còn lại của tập dữ liệu, điểm dữ liệu đó là một bất thường điểm. Loại bất thường này xuất hiện phổ biến trong các bài toán phát hiện gian lận thẻ tín dụng. Cụ thể, xét một thuộc tính số tiền tiêu dùng trong dữ liệu giao dịch thẻ tín dụng của các cá nhân, một giao dịch có số tiền tiêu dùng ở một thời điểm cao đột biến so với hoạt động tiêu dùng thông thường của cá nhân đó được coi là một bất thường điểm. Bất thường ngữ cảnh Một điểm/tập dữ liệu là bất thường trong một ngữ cảnh cụ thể được gọi là một bất thường ngữ cảnh.

Ngữ cảnh trong tập dữ liệu có thể khoảng thời gian cụ thể, hay các thông tin phân vùng không gian như độ cao, độ sâu. Trong bài toán phát hiện gian lận thẻ tín dụng, số tiền tiêu dùng trung bình theo tuần cao đột biến vào những khung thời gian sự kiện giảm giá hoặc dịp lễ hằng năm sẽ không được coi là bất thường vì hành vi này khớp với xu hướng chi tiêu chung. Nhưng việc chi tiêu cùng một số tiền đó vào khoảng thời gian thông thường sẽ được gọi là bất thường ngữ cảnh. Bất thường nhóm Nếu một tập hợp các điểm dữ liệu liên quan có sự khác biệt với toàn bộ tập dữ liệu thì đây là một bất thường nhóm.

Một điểm dữ liệu cụ thể trong loại bất thường này có thể không phải là bất thường điểm, nhưng sự xuất hiện liên tục các điểm này dẫn đến bất thường trong tập dữ liệu. 13 LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH 1.3 Nhãn dữ liệu Nhãn của một điểm dữ liệu xác định xem điểm này là bình thường hay bất thường. Quá trình thu thập dữ liệu được gán nhãn chính xác là phức tạp. Việc gán nhãn thường được thực hiện một cách thủ công bởi chuyên gia dẫn đến việc tốn chi phí về mặt thời gian.

Thông thường, việc thu thập tập đã gán nhãn từ dữ liệu bất thường khó khăn hơn việc lấy nhãn từ dữ liệu bình thường. Phụ thuộc vào số lượng nhãn của tập dữ liệu, bài toàn phát hiện bất thường có thể được triển khai theo ba hướng [10] • Phát hiện bất thường có giám sát: Tập dữ liệu luyện được đánh nhãn đầy đủ với hai loại là bất thường và bình thường. Cách tiếp cận thông thường là xây dựng mô hình phù hợp từ dữ liệu luyện sau đó dự đoán nhãn cho các điểm dữ liệu bất kỳ. • Phát hiện bất thường bán giám sát: Tập dữ liệu luyện chỉ bao gồm các điểm được gán nhãn bình thường.

Cách tiếp cận với trường hợp này là xây dựng một mô hình tương ứng với hành vi bình thường, và sử dụng mô hình này để xác định ra các điểm bất thường trong tập dữ liệu [39]. • Phát hiện bất thường không giám sát: Tập dữ liệu không có nhãn. Các kỹ thuật cho bài toán này dựa trên giả định ngầm các điểm dữ liệu bình thường có tần suất xuất hiện nhiều hơn các điểm bất thường trong tập dữ liệu [24].4 Đầu ra của bài toán Đầu ra của bài toán phát hiện bất thường gồm hai loại [10] • Điểm số bất thường: Điểm dữ liệu đại diện cho hành vi của đối tượng được tính điểm. Sau đó xác định ra số lượng điểm cụ thể có điểm bất thường cao nhất hoặc đưa ra một ngưỡng điểm số để chọn các điểm bất thường.

• Nhãn: Các đối tượng bất thường và bình thường được phân biệt qua nhãn.2 Bài toán phân lớp và một số thuật toán học máy 1.1 Bài toán phân lớp Phân lớp là quá trình tìm kiếm một mô hình phân biệt các lớp dữ liệu. Mô hình được xây dựng dựa trên việc phân tích tập dữ liệu luyện và được sử dụng để dự đoán nhãn lớp của các đối tượng mà chưa biết thông tin nhãn [21]. 14 LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH Cụ thể, cho tập nhãn lớp C = {1, 2,. , C} và tập điểm dữ liệu X ⊂ Rd , ta tìm một hàm phân lớp f : Rd → C.

Với điểm dữ liệu x ∈ X , y = f (x) sẽ gán điểm dữ liệu vào lớp có nhãn y. Ngoài ra, f : Rd → RC cũng là một hàm phân lớp với đầu ra là một vector thể hiện xác suất điểm dữ liệu được gán nhãn vào từng lớp. Điểm dữ liệu sẽ được gán vào lớp có xác suất gán nhãn cao nhất.2 Một số thuật toán học máy K-láng giềng gần nhất Thuật toán K -láng giềng gần nhất (KNN) là một trong những thuật toán học giám sát đơn giản. Thuật toán hoạt động dựa trên nguyên lý nhãn của đối tượng được xác định dựa trên các đối tượng lân cận nó [15].

Cụ thể, nhãn của điểm của điểm dữ liệu có thể được xác định qua việc chọn theo đa số (major voting) nhãn trong K điểm gần nhất hay đánh trọng số cho mỗi điểm gần nhất rồi đưa ra kết quả. KNN được ứng dụng trong việc phát hiện chuỗi trạng thái bất thường trong hoạt động vệ tinh [14]. Nghiên cứu của Ming-Yang Su [36] cũng sử dụng KNN để phát hiện nhanh chóng các tình huống tấn công mạng dựa trên lưu lượng mạng bất thường. Cây quyết định Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào tập hợp các luật.

Thành phần của cây quyết định bao gồm các nút biểu diễn cho cấu trúc của nhánh. Có hai loại nút, nút quyết định được sư dụng để ra quyết định và có nhiều nhánh, nút lá là đầu ra của nút quyết định và không có nhánh con [6]. Cây quyết định được ứng dụng trong việc phát hiện gian lận tín dụng và thanh toán của ngân hàng [34][40]. Rừng ngẫu nhiên Rừng ngẫu nhiên (Random Forest) là thuật toán học kết hợp phát triển từ thuật toán cây quyết định.

Ý tưởng thực hiện của thuật toán là luyện hàng loạt các cây quyết định trên các tập dữ liệu con của tập luyện sinh nhờ phương pháp 15 LUẬN VĂN THẠC SĨ PHẠM NGỌC QUANG ANH Bagging [7][8]. Cụ thể, ta chọn ra k tập dữ liệu con từ tập dữ liệu luyện. Ứng với mỗi tập con này, ta chọn một tập thuộc tính con từ không gian thuộc tính và xây dựng một cây quyết định phân lớp trên bộ dữ liệu này. Sau khi xây dựng được k cây quyết định, nhãn của điểm dữ liệu dược xác định dựa trên việc tổng hợp các kết quả đánh nhãn từ các cây quyết định này và sử dụng phương pháp bỏ phiếu đa số (majority voting) để đưa ra kết luận nhãn cuối cùng.

AdaBoost Được đề xuất bởi Yoav Freund và Robert Schapire [18], AdaBoost (Adaptive Boosting) thuộc loại thuật toán học kết hợp và phân lớp. Ý tưởng của thuật toán là kết hợp các bộ phân lớp tồi để xây dựng một bộ phân lớp mạnh có tính chính xác cao hơn [5]. Hồi quy logistic Hồi quy logistic là thuật toán học máy phổ biến được sử dụng cho học có giám sát. Thuật toán ước lượng xác suất phân lớp nhị phân dựa trên một hay nhiều đặc trưng [5].

Hồi quy logistic sử dụng hàm phi tuyến sigmoid để làm hàm phân lớp. Cụ thể, với một điểm dữ liệu x ∈ Rd và bộ tham số w = {wi }ni=0 1 f (t) = (1.1) 1 + e−t n X t= wi xi i=0 16 Chương 2 Xây dựng mô hình khai phá motif cho chuỗi thời gian và phát hiện bất thường Nội dung chương 2 đề cập đến quy trình xây dựng mô hình khai phá motif và phân lớp đối tượng sử dụng các thuật toán học máy.1 đề xuất mô hình tổng quan quy trình phân tích và phát hiện bất thường.2 sẽ mô tả quy trình mô hình hóa dữ liệu thành chuỗi thời gian.3 sẽ đề cập đến khai phá motif bất thường từ những chuỗi thời gian đã được mô hình hóa.4 mô tả quá trình xây dựng bộ thuộc tính bất thường và phân lớp. Cuối cùng, phần 2.5 đưa ra các chỉ số đánh giá kết quả phát hiện bất thường được sử dụng trong luận văn.1 Mô hình tổng quan Dữ liệu giao dịch trong kinh tế chứa đựng một lượng lớn thông tin thể hiện hoạt động của các đối tượng. Để xác định được các kịch bản gian lận được che giấu trong các hoạt động giao dịch này, ta cần xét một chuỗi các giao dịch liên tiếp do cùng một đối tượng thực hiện [3].

Một chuỗi giao dịch liên tiếp do đối tượng thực hiện được gọi là một hành vi.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Khai Phá Motif Đa Chuỗi Thời Gian và Phát Hiện Bất Thường Bằng Học Máy cung cấp cái nhìn sâu sắc về việc áp dụng các kỹ thuật học máy để phân tích dữ liệu chuỗi thời gian đa dạng. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về các phương pháp khai thác motif trong chuỗi thời gian mà còn chỉ ra cách phát hiện các bất thường, từ đó nâng cao khả năng ra quyết định trong nhiều lĩnh vực như tài chính, y tế và an ninh mạng.

Đặc biệt, tài liệu này mang lại lợi ích lớn cho những ai đang tìm kiếm cách tối ưu hóa quy trình phân tích dữ liệu và cải thiện độ chính xác trong việc phát hiện các vấn đề tiềm ẩn. Để mở rộng kiến thức của bạn về các yếu tố ảnh hưởng đến rủi ro gian lận trong báo cáo tài chính, bạn có thể tham khảo tài liệu Các yếu tố ảnh hưởng đến rủi ro gian lận báo cáo tài chính tại các công ty niêm yết tại việt nam nghiên cứu thực nghiệm dựa trên cách tiếp cận của học máy khóa luận tốt nghiệp đại học.

Ngoài ra, nếu bạn quan tâm đến việc ứng dụng các mô hình hồi quy trong phân tích lưu lượng giao thông, tài liệu Bài tập lớn môn xác suất thống kê đề tài hồi quy tuyến tính bội và anova ứng dụng mô hình hồi quy tuyến tính và hàm anova trong phân tích lưu lượng giao thông sẽ là một nguồn tài liệu hữu ích. Những liên kết này không chỉ giúp bạn mở rộng kiến thức mà còn cung cấp thêm nhiều góc nhìn khác nhau về các ứng dụng của học máy trong phân tích dữ liệu.

#dữ liệu chuỗi thời gian

#thuật toán học máy

#mô hình phát hiện gian lận

#Khai phá motif chuỗi thời gian

#Phát hiện bất thường học máy

#Phân lớp đối tượng gian lận

Chủ đề

Ứng dụng học máy trong phát hiện gian lận

Khai phá dữ liệu chuỗi thời gian

Phát hiện bất thường trong tài chính

Mô hình hóa dữ liệu và phân tích