Phân loại mã độc Android bằng mạng sinh đối kháng và học máy

Luận văn thạc sĩ công nghệ thông tin nghiên cứu phân loại mã độc Android bằng mạng sinh đối kháng và học máy, mang lại giải pháp hiệu quả.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Hệ điều hành Android

1.2. Nguy cơ bảo mật trên hệ điều hành Android. Kỹ thuật phân tích mã độc trên Android

1.3. Tính khoa học, tính mới của đề tài

1.4. Cấu trúc của luận văn

2. CHƯƠNG 2: PHÂN LOẠI MÃ ĐỘC ANDROID BẰNG HỌC MÁY VÀ MẠNG SINH ĐỐI KHÁNG

2.1. Khái niệm học máy. Phân loại học máy

2.2. Giới thiệu về học sâu

2.2.1. Khái niệm học sâu

2.2.2. Một số khái niệm trong học sâu

2.3. Các mô hình học máy và học sâu được sử dụng trong đề tài

2.3.1. Deep Neural Network (DNN)

2.3.2. 1-D Convolutional Neural Network (1-D CNN)

2.3.3. Mạng sinh đối kháng (Generative Adversarial Network)

2.3.4. Mô hình mạng sinh đối kháng AC-GAN

2.4. Các nghiên cứu liên quan

3. CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT

3.1. Mô hình của phương pháp đề xuất

3.2. Tiền xử lý dữ liệu

3.2.1. Trích xuất đặc tính

3.2.2. Chọn lọc đặc tính

3.3. Áp dụng mô hình học máy, học sâu và mạng sinh đối kháng

3.3.1. Áp dụng mạng sinh đối kháng

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm

4.2. Dữ liệu thử nghiệm

4.3. Siêu tham số

4.4. Thuật toán tối ưu hoá

4.5. Ma trận nhầm lẫn

4.6. Precision và Recall

4.7. Kết quả thử nghiệm

4.7.1. Kết quả đánh giá với các mô hình học máy và học sâu

4.7.2. Kết quả đánh giá với mô hình mạng sinh đối kháng AC-GAN

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Thuận lợi và khó khăn

5.2. Kết quả đạt được. Hướng phát triển tương lai

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Tổng Quan Về Phân Loại Mã Độc Android Bằng Học Máy

Trong kỷ nguyên công nghệ 4.0, ứng dụng học máy trong phân loại mã độc Android ngày càng thu hút sự chú ý của giới nghiên cứu bảo mật. Việc phân tích thủ công hàng triệu ứng dụng để tìm lỗ hổng và phần mềm độc hại tốn kém cả thời gian và chi phí. Ứng dụng học máy giúp tăng độ chính xác và khả năng nhận diện loại mã độc. Các nghiên cứu gần đây cho thấy kết quả khả quan, tuy nhiên, việc phân loại mã độc thành từng loại và họ vẫn còn nhiều thách thức do thiếu dữ liệu mẫu, dẫn đến mất cân bằng trong tập dữ liệu thử nghiệm và hạn chế về mô hình học máy, từ đó giảm độ chính xác. Luận văn này đánh giá hiệu quả trên hai tập dữ liệu phổ biến, được phân loại theo họ và loại mã độc, sử dụng các mô hình học máy và mạng sinh đối kháng (GAN) để so sánh hiệu quả và tính phù hợp của phương pháp phân loại mã độc Android. Mục tiêu là đánh giá khả năng phân loại mã độc Android của các mô hình với các mẫu mã độc khác nhau.

1.1. Hệ Điều Hành Android và Các Nguy Cơ Bảo Mật

Hệ điều hành Android, được phát triển bởi Google, là một hệ điều hành nguồn mở phổ biến. Tuy nhiên, tính mở này cũng đi kèm với nhiều nguy cơ bảo mật. Tầng ứng dụng là nơi dễ bị tấn công nhất, nơi các tập tin APK được thực thi. Theo báo cáo của Kaspersky, số lượng mã độc banking trojan và phần mềm lừa đảo trên Google Play Store tăng mạnh. Do đó, các nghiên cứu về phát hiện và phân loại phần mềm độc hại Android là rất cần thiết. Một số lượng lớn mã độc được phát hiện cho thấy sự cần thiết phải cải thiện các phương pháp phát hiện và ngăn chặn tấn công.

1.2. Tầm Quan Trọng của Phân Loại Mã Độc Android Chính Xác

Việc phân loại mã độc Android chính xác là yếu tố then chốt trong việc bảo vệ người dùng và hệ thống khỏi các mối đe dọa. Phân loại chính xác cho phép các nhà phát triển ứng dụng, nhà cung cấp dịch vụ bảo mật và người dùng có thể đưa ra các biện pháp phòng ngừa và ứng phó hiệu quả hơn. Ví dụ, nếu một ứng dụng được xác định là ransomware, người dùng có thể ngay lập tức xóa ứng dụng và khôi phục dữ liệu từ bản sao lưu để tránh bị mất dữ liệu vĩnh viễn. Các phương pháp phân loại mã độc Android khác nhau sẽ được so sánh và đánh giá.

II. Thách Thức Trong Phân Loại Mã Độc Android Hiện Nay

Mặc dù đã có những tiến bộ đáng kể, việc phân loại mã độc Android vẫn đối mặt với nhiều thách thức. Mã độc Android mới nhất ngày càng trở nên tinh vi hơn, sử dụng các kỹ thuật che giấu phức tạp để tránh bị phát hiện. Số lượng mẫu dữ liệu không đủ và sự mất cân bằng giữa các lớp mã độc cũng là một vấn đề lớn. Hơn nữa, các mô hình học máy truyền thống đôi khi gặp khó khăn trong việc xử lý các đặc trưng phức tạp của mã độc. Cần có những phương pháp mới, mạnh mẽ hơn để giải quyết những thách thức này. "Việc thiếu hụt mẫu dữ liệu dẫn tới mất cân bằng của tập dữ liệu thử nghiệm và hạn chế liên quan đến mô hình học máy làm giảm độ chính xác trong khả năng phát hiện và phân loại."

2.1. Sự Phát Triển Không Ngừng Của Mã Độc Android

Mã độc Android liên tục tiến hóa để vượt qua các biện pháp bảo mật hiện có. Các tấn công đối kháng (Adversarial Attacks) cũng là một thách thức lớn, khi kẻ tấn công cố gắng tạo ra các mẫu mã độc được thiết kế đặc biệt để đánh lừa các mô hình học máy. Việc liên tục cập nhật và cải tiến các phương pháp phân loại mã độc Android là vô cùng quan trọng để đối phó với sự thay đổi này. Do đó, cần có những nghiên cứu về các biện pháp phòng chống mã độc Android hiệu quả.

2.2. Vấn Đề Mất Cân Bằng Dữ Liệu Trong Phân Loại Mã Độc

Một vấn đề phổ biến trong phân loại mã độc Android là sự mất cân bằng dữ liệu, khi số lượng mẫu của một số loại mã độc lớn hơn đáng kể so với các loại khác. Điều này có thể dẫn đến việc các mô hình học máy thiên vị và hoạt động kém hiệu quả trên các loại mã độc ít phổ biến hơn. Cần có các kỹ thuật đặc biệt để xử lý vấn đề mất cân bằng dữ liệu, chẳng hạn như lấy mẫu quá mức, lấy mẫu dưới mức hoặc sử dụng các thuật toán nhạy cảm với chi phí. Các phương pháp đối kháng sinh (Adversarial learning) có thể giúp cải thiện tính ổn định.

III. Phương Pháp Mạng Sinh Đối Kháng GAN và Học Máy

Luận văn này đề xuất phương pháp kết hợp mạng sinh đối kháng (GAN) và học máy để phân loại mã độc Android. GAN được sử dụng để tạo ra các mẫu mã độc giả, giúp tăng cường tập dữ liệu huấn luyện và giảm thiểu vấn đề mất cân bằng. Các mô hình học máy, như Random Forest, Extra Trees, Deep Neural Network (DNN), Convolutional Neural Network (CNN) sẽ được huấn luyện trên tập dữ liệu tăng cường để phân loại mã độc. Phương pháp này hứa hẹn sẽ cải thiện độ chính xác và khả năng phát hiện của các mô hình phân loại mã độc Android. Theo nghiên cứu, "áp dụng đồng thời các mô hình học máy và mạng sinh đối kháng vào việc phân loại các mã độc Android, giúp đánh giá khả năng phân loại của các mô hình với các mẫu mã độc khác nhau."

3.1. Ứng Dụng Mạng Sinh Đối Kháng GAN Tạo Dữ Liệu Mã Độc

Mạng sinh đối kháng (GAN) là một kỹ thuật mạnh mẽ để tạo ra các mẫu dữ liệu mới có đặc điểm tương tự như dữ liệu thực tế. Trong bối cảnh phân loại mã độc Android, GAN có thể được sử dụng để tạo ra các mẫu mã độc giả, giúp tăng cường tập dữ liệu huấn luyện và cải thiện khả năng tổng quát hóa của các mô hình học máy. Điều này đặc biệt hữu ích khi đối phó với vấn đề mất cân bằng dữ liệu, khi GAN có thể được sử dụng để tạo ra các mẫu mã độc cho các lớp ít phổ biến hơn. Các ứng dụng GAN trong an ninh mạng đang được nghiên cứu và phát triển mạnh mẽ.

3.2. Kết Hợp Học Sâu và Học Máy để Phân Loại Hiệu Quả

Các mô hình học sâu, như Deep Neural Network (DNN), Convolutional Neural Network (CNN), có khả năng học các đặc trưng phức tạp từ dữ liệu và đạt được hiệu suất cao trong nhiều tác vụ phân loại. Kết hợp học sâu với các mô hình học máy truyền thống có thể tận dụng điểm mạnh của cả hai phương pháp và cải thiện độ chính xác của phân loại mã độc Android. Các mô hình học máy như Random Forest và Extra Trees có thể được sử dụng để chọn lọc các đặc trưng quan trọng, trong khi các mô hình học sâu có thể được sử dụng để học các biểu diễn phức tạp hơn. Deep Learning trong phát hiện mã độc Android ngày càng được ưa chuộng.

IV. Thực Nghiệm và Đánh Giá Hiệu Suất Phân Loại Mã Độc

Phương pháp đề xuất được đánh giá trên hai tập dữ liệu phổ biến về mã độc Android: CIC-MalDroid2020 và Drebin. Các mô hình học máy và GAN được huấn luyện và đánh giá bằng các độ đo hiệu suất như độ chính xác (Accuracy), độ phủ (Recall) và độ chính xác (Precision). Kết quả cho thấy phương pháp kết hợp GAN và học máy đạt được hiệu suất cao hơn so với các phương pháp truyền thống. "Kết quả sau cùng đạt độ chính xác cao và có tính cạnh tranh với một số nghiên cứu liên quan gần đây."

4.1. Bộ Dữ Liệu Thử Nghiệm Phân Loại Mã Độc Android

Việc lựa chọn bộ dữ liệu mã độc Android phù hợp là rất quan trọng để đánh giá hiệu quả của các phương pháp phân loại. Tập dữ liệu CIC-MalDroid2020 và Drebin là hai tập dữ liệu phổ biến, chứa một lượng lớn các mẫu mã độc Android thuộc nhiều loại khác nhau. Các tập dữ liệu này được sử dụng rộng rãi trong các nghiên cứu về phân loại mã độc và cung cấp một cơ sở so sánh cho các phương pháp mới. Điều quan trọng là phải đảm bảo rằng bộ dữ liệu được sử dụng là cân bằng và đại diện cho các loại mã độc khác nhau.

4.2. Các Độ Đo Đánh Giá Hiệu Suất Phân Loại Mã Độc

Để đánh giá hiệu quả của các mô hình phân loại mã độc Android, cần sử dụng các độ đo hiệu suất phù hợp. Các độ đo phổ biến bao gồm độ chính xác (Accuracy), độ phủ (Recall), độ chính xác (Precision) và F1-score. Ma trận nhầm lẫn (Confusion Matrix) cũng là một công cụ hữu ích để phân tích chi tiết hiệu suất của các mô hình phân loại và xác định các loại mã độc mà mô hình gặp khó khăn trong việc phân loại. Đánh giá hiệu suất phân loại mã độc là một bước quan trọng để đảm bảo tính tin cậy của kết quả nghiên cứu.

V. Kết Luận và Hướng Phát Triển Trong Phân Loại Mã Độc

Luận văn đã trình bày một phương pháp hiệu quả để phân loại mã độc Android bằng cách kết hợp mạng sinh đối kháng (GAN) và học máy. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt được hiệu suất cao trên hai tập dữ liệu phổ biến. Các hướng phát triển trong tương lai bao gồm việc nghiên cứu các kiến trúc GAN mới, khám phá các đặc trưng mã độc phức tạp hơn và phát triển các phương pháp phòng chống tấn công đối kháng (Adversarial Attacks). Kỹ thuật phát hiện mã độc Android sẽ tiếp tục phát triển để đáp ứng các thách thức mới.

5.1. Ưu Điểm và Hạn Chế Của Phương Pháp Hiện Tại

Phương pháp kết hợp GAN và học máy có nhiều ưu điểm, bao gồm khả năng tăng cường tập dữ liệu huấn luyện, giảm thiểu vấn đề mất cân bằng và cải thiện độ chính xác của phân loại mã độc Android. Tuy nhiên, phương pháp này cũng có một số hạn chế, chẳng hạn như chi phí tính toán cao và sự phức tạp trong việc huấn luyện GAN. Cần có những nghiên cứu tiếp theo để giải quyết những hạn chế này và cải thiện hơn nữa hiệu suất của phương pháp. Thuận lợi và khó khăn của phương pháp đã được phân tích.

5.2. Các Hướng Nghiên Cứu Tương Lai Trong Phân Loại Mã Độc

Các hướng nghiên cứu tương lai trong phân loại mã độc Android bao gồm việc nghiên cứu các kiến trúc GAN mới, khám phá các đặc trưng mã độc phức tạp hơn và phát triển các phương pháp phòng chống tấn công đối kháng. Ngoài ra, cũng cần có những nghiên cứu về các phương pháp phân tích mã độc Android động và lai, kết hợp thông tin từ cả phân tích tĩnh và phân tích động để đạt được độ chính xác cao hơn. Việc phát triển các công cụ và kỹ thuật phân tích mã độc Android tự động cũng là một hướng nghiên cứu quan trọng. Cần liên tục theo dõi mã độc Android mới nhất.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phân loại mã độc android bằng mạng sinh đối kháng và học máy

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh công nghệ 4.0 phát triển mạnh mẽ, hệ điều hành Android chiếm lĩnh thị trường thiết bị di động với hơn 3 tỷ thiết bị đang hoạt động và hơn 1 tỷ thiết bị được kích hoạt trong năm gần đây. Sự phổ biến này kéo theo nguy cơ bảo mật ngày càng gia tăng, đặc biệt là sự xuất hiện của các mã độc trên nền tảng Android. Theo báo cáo quý 2 năm 2022, có hơn 405.000 mã độc cài đặt thành công được phát hiện, dù số lượng này có giảm so với quý trước nhưng vẫn ở mức đáng báo động. Các mã độc này không chỉ gây thiệt hại về tài chính mà còn ảnh hưởng nghiêm trọng đến quyền riêng tư và an toàn dữ liệu người dùng.

Vấn đề nghiên cứu tập trung vào việc phát triển phương pháp phân loại mã độc Android hiệu quả, nhằm nâng cao khả năng phát hiện và phân loại chính xác các loại mã độc khác nhau. Mục tiêu cụ thể của luận văn là áp dụng các mô hình học máy và mạng sinh đối kháng (GAN) để phân loại mã độc theo loại và họ mã độc, sử dụng hai tập dữ liệu phổ biến là Drebin và CIC-MalDroid2020. Phạm vi nghiên cứu bao gồm các tập tin cài đặt ứng dụng Android (APK) thu thập trong khoảng thời gian từ năm 2017 đến 2020, với dữ liệu được xử lý và phân tích tại trường Đại học Công Nghệ Thông Tin, ĐHQG TP. Hồ Chí Minh.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao độ chính xác phân loại mã độc, giảm thiểu tỷ lệ cảnh báo sai, từ đó góp phần bảo vệ người dùng và hệ thống khỏi các mối đe dọa an ninh mạng ngày càng tinh vi.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: học máy (Machine Learning) và mạng sinh đối kháng (Generative Adversarial Network - GAN).

- **Học máy**: Là nhánh của trí tuệ nhân tạo, cho phép máy tính tự động học từ dữ liệu để đưa ra dự đoán hoặc phân loại. Các thuật toán học máy được sử dụng bao gồm Random Forest (RF), Extra Trees (ET), Deep Neural Network (DNN) và Convolutional Neural Network (CNN). Các khái niệm quan trọng gồm: supervised learning (học có giám sát), one-hot encoding (biểu diễn dữ liệu nhị phân), hàm kích hoạt (activation functions) như ReLU, sigmoid, softmax, và các kỹ thuật phòng tránh overfitting như dropout, max pooling.

- **Mạng sinh đối kháng (GAN)**: Mô hình học sâu gồm hai mạng nơ-ron là Generator (mạng tạo sinh) và Discriminator (mạng phân biệt) cạnh tranh với nhau để tạo ra dữ liệu giả gần giống dữ liệu thật. Mô hình AC-GAN (Auxiliary Classifier GAN) được sử dụng để cải thiện khả năng phân loại đa lớp bằng cách thêm nhãn vào quá trình tạo dữ liệu giả, giúp kiểm soát mẫu giả theo từng loại mã độc.

Các khái niệm chuyên ngành quan trọng bao gồm: đặc tính trích xuất (feature extraction) từ tập tin APK, ma trận nhầm lẫn (confusion matrix), độ chính xác (accuracy), độ phủ (recall), điểm F1 (F1 score), và đường cong ROC (Receiver Operating Characteristic).

### Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm hai tập dữ liệu mã độc Android phổ biến: Drebin (khoảng 5.560 mẫu) và CIC-MalDroid2020 (hơn 11.000 mẫu). Dữ liệu được thu thập từ các kho ứng dụng và các nguồn mã độc thực tế trong giai đoạn 2017-2020.

Phương pháp nghiên cứu bao gồm:

- **Trích xuất đặc tính**: Sử dụng công cụ AndroPyTool để phân tích tĩnh và động, trích xuất các đặc tính như quyền (permission), dịch vụ (service), intent, lời gọi API từ các tập tin APK. Dữ liệu sau đó được lưu dưới dạng vector đặc tính trong file CSV.

- **Chọn lọc đặc tính**: Áp dụng thuật toán Extra Trees và chỉ số Gini để chọn lọc các đặc tính quan trọng, loại bỏ các đặc tính không đóng góp cho phân loại.

- **Huấn luyện mô hình**: Các mô hình học máy RF, ET, DNN, 1D-CNN và mạng sinh đối kháng AC-GAN được huấn luyện trên dữ liệu đã chọn lọc. Phương pháp đánh giá bao gồm kỹ thuật đánh giá chéo 10-fold để đảm bảo tính khách quan và độ tin cậy của kết quả.

- **Timeline nghiên cứu**: Quá trình nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm thu thập dữ liệu, tiền xử lý, huấn luyện mô hình, đánh giá và phân tích kết quả.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Độ chính xác phân loại cao**: Mô hình AC-GAN đạt độ chính xác lên đến 99,73% trên tập dữ liệu Drebin theo họ mã độc và 98,26% theo loại mã độc trên CIC-MalDroid2020, vượt trội so với các mô hình học máy truyền thống.

- **Hiệu quả chọn lọc đặc tính**: Việc sử dụng thuật toán Extra Trees và chỉ số Gini giúp giảm số lượng đặc tính đầu vào xuống còn khoảng 20 đặc tính quan trọng nhất, tăng tốc độ huấn luyện và cải thiện độ chính xác.

- **So sánh mô hình**: Mô hình 1D-CNN và DNN cũng đạt kết quả tốt với độ chính xác trên 95%, tuy nhiên AC-GAN cho thấy khả năng phân loại đa lớp vượt trội hơn nhờ khả năng tạo dữ liệu giả bổ sung.

- **Tỷ lệ cảnh báo sai thấp**: Tỷ lệ cảnh báo sai (False Positive Rate) của các mô hình đều dưới 2%, đảm bảo tính tin cậy trong ứng dụng thực tế.

### Thảo luận kết quả

Nguyên nhân của kết quả tích cực là do việc kết hợp giữa học máy và mạng sinh đối kháng giúp mô hình học được các đặc trưng phức tạp và đa dạng của mã độc Android. So với các nghiên cứu trước đây, việc áp dụng AC-GAN giúp khắc phục hạn chế về thiếu hụt dữ liệu và mất cân bằng lớp trong tập huấn luyện.

Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác và F1-score giữa các mô hình, cũng như ma trận nhầm lẫn thể hiện khả năng phân biệt các loại mã độc khác nhau. Điều này minh chứng cho tính khả thi và hiệu quả của phương pháp đề xuất trong việc nâng cao an ninh mạng trên nền tảng Android.

## Đề xuất và khuyến nghị

- **Triển khai hệ thống phát hiện mã độc dựa trên AC-GAN**: Áp dụng mô hình AC-GAN vào các hệ thống bảo mật di động để nâng cao khả năng phát hiện và phân loại mã độc, hướng tới giảm tỷ lệ cảnh báo sai dưới 1% trong vòng 6 tháng.

- **Cập nhật và mở rộng tập dữ liệu liên tục**: Thu thập thêm dữ liệu mã độc mới từ các nguồn đa dạng để huấn luyện mô hình, đảm bảo mô hình luôn cập nhật với các biến thể mã độc mới, thực hiện định kỳ hàng quý.

- **Tăng cường đào tạo và nâng cao nhận thức người dùng**: Tổ chức các chương trình đào tạo về an ninh mạng cho người dùng Android, giúp họ nhận biết và phòng tránh các ứng dụng độc hại, giảm thiểu nguy cơ bị tấn công.

- **Phát triển công cụ trích xuất và chọn lọc đặc tính tự động**: Nâng cấp công cụ AndroPyTool để tự động hóa quy trình trích xuất và chọn lọc đặc tính, giảm thiểu sai sót và tăng hiệu quả xử lý dữ liệu, hoàn thành trong 12 tháng.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin**: Nghiên cứu sâu về ứng dụng học máy và mạng sinh đối kháng trong an ninh mạng, phát triển các mô hình phân loại mã độc.

- **Chuyên gia bảo mật và kỹ sư phát triển phần mềm**: Áp dụng các phương pháp phân loại mã độc để xây dựng hệ thống bảo vệ thiết bị di động, nâng cao hiệu quả phát hiện mã độc.

- **Các tổ chức và doanh nghiệp cung cấp dịch vụ di động**: Tích hợp giải pháp phân loại mã độc để bảo vệ khách hàng, giảm thiểu rủi ro mất mát dữ liệu và tài chính.

- **Cơ quan quản lý và chính sách an ninh mạng**: Tham khảo để xây dựng các chính sách, quy định về bảo mật thiết bị di động và ứng dụng công nghệ mới trong phòng chống mã độc.

## Câu hỏi thường gặp

1. **Phân loại mã độc Android là gì và tại sao quan trọng?**  
Phân loại mã độc Android là quá trình xác định loại và họ của phần mềm độc hại trên nền tảng Android. Việc này giúp hiểu rõ hành vi mã độc, từ đó phát triển biện pháp phòng chống hiệu quả, giảm thiểu thiệt hại cho người dùng và hệ thống.

2. **Mạng sinh đối kháng (GAN) hoạt động như thế nào trong phân loại mã độc?**  
GAN gồm hai mạng: Generator tạo dữ liệu giả và Discriminator phân biệt dữ liệu thật giả. Trong phân loại mã độc, GAN giúp tạo thêm dữ liệu mẫu đa dạng, cải thiện khả năng học của mô hình, đặc biệt với dữ liệu thiếu cân bằng.

3. **Tại sao chọn AC-GAN thay vì GAN truyền thống?**  
AC-GAN bổ sung nhãn cho dữ liệu giả tạo, giúp kiểm soát việc tạo mẫu theo từng loại mã độc cụ thể, nâng cao hiệu quả phân loại đa lớp so với GAN truyền thống chỉ tạo dữ liệu giả không kiểm soát.

4. **Các đặc tính nào được trích xuất từ tập tin APK để phân loại mã độc?**  
Các đặc tính chính gồm quyền (permission), dịch vụ (service), intent, và lời gọi API. Đây là các đặc trưng quan trọng phản ánh hành vi và chức năng của ứng dụng, giúp mô hình phân biệt mã độc chính xác.

5. **Mô hình nào cho kết quả phân loại mã độc tốt nhất?**  
Mô hình AC-GAN đạt độ chính xác cao nhất, trên 99% với tập dữ liệu Drebin, đồng thời giữ tỷ lệ cảnh báo sai thấp, vượt trội hơn các mô hình học máy và học sâu truyền thống như RF, ET, DNN và 1D-CNN.

## Kết luận

- Đề tài đã xây dựng thành công phương pháp phân loại mã độc Android sử dụng kết hợp học máy và mạng sinh đối kháng, đạt độ chính xác cao và tỷ lệ cảnh báo sai thấp.  
- Việc áp dụng AC-GAN giúp khắc phục hạn chế về dữ liệu và nâng cao khả năng phân loại đa lớp mã độc.  
- Kết quả thực nghiệm trên hai tập dữ liệu Drebin và CIC-MalDroid2020 cho thấy tính khả thi và hiệu quả của phương pháp.  
- Nghiên cứu góp phần nâng cao an ninh mạng trên nền tảng Android, bảo vệ người dùng và hệ thống khỏi các mối đe dọa ngày càng tinh vi.  
- Hướng phát triển tiếp theo là mở rộng tập dữ liệu, tự động hóa quy trình trích xuất đặc tính và triển khai ứng dụng thực tế trong các hệ thống bảo mật di động.

Hành động tiếp theo là triển khai mô hình vào hệ thống thực tế và tiếp tục nghiên cứu cải tiến để đáp ứng các biến đổi nhanh chóng của mã độc Android.

Trích đoạn nội dung tài liệu

Chương 1 - Giới thiệu : Chương | giới thiệu về xu hướng điện thoại thông minh, đồng thời rủi ro nhắm đến người dùng. Chương này cũng giới thiệu kiến trúc hệ điều hành Android và các kỹ thuật phổ biến trong việc phân tích mã độc trên hệ điều hành này. Chương 2 - Phân loại mã độc Android bằng học máy và mạng sinh đối kháng: Chương 2 sẽ giới thiệu về mô hình học máy, học sâu, mạng sinh đối kháng trong phát hiện và phân loại mã độc Android. Một số nghiên cứu trước đây cũng được khảo sát và trình bày.

Chương 3 - Phương pháp đề xuất: Trinh bày về phương pháp nghiên cứu, sử dụng các mô hình học máy, học sâu và mạng sinh đối kháng để phân loại mã độc trên hai tập dữ liệu mã độc. Chương 4 ~ Thực nghiệm và đánh giá: Chương 4 sẽ thực hiện huấn luyện các mô hình học máy, học sâu và mạng sinh đối kháng, sau đó đánh giá kết quả của các mô hình dựa vào một số tiêu chí và độ đo nhằm đánh giá mức độ phù hợp và độ chính xác của các mô hình. Chương 5 - Kết luận và hướng phát triển: Téng kết lại quá trình nghiên cứu cũng như kết quả của đề tài, các hạn chế trong thời gian thực hiện và đề ra hướng phát triển cho nghiên cứu trong tương lai. 11 PHAN LOẠI MÃ ĐỘC ANDROID BANG HỌC MAY VÀ MẠNG SINH DOI KHANG CHƯƠNG 2 PHAN LOẠI MÃ ĐỘC ANDROID BANG HỌC MAY VÀ MẠNG SINH ĐÓI KHÁNG Chương 2 giới thiệu về mô hình học máy, học sâu, mạng sinh đối kháng và áp dụng vào phân loại mã độc Android.

Một số nghiên cứu gần đây cùng các hướng tiếp cận cũng được đề cập.1 Giới thiệu về học máy 2.1 Khái niệm học máy Học máy là một nhánh trong ứng dụng trí tuệ nhân tạo. Học máy gồm một loạt kỹ thuật đê tự động hoá việc đưa ra các dự đoán ở tương lai dựa trên các quan sát trong quá khứ. Học máy thông thường được phân thành hai loại, bao gồm dự đoán và phân loại. Một số ứng dụng của học máy có thể kể đến là dự đoán giá cổ phiếu dựa trên diễn biến giá ở quá khứ, dự đoán giá trị bất động sản.

hoặc các bài toán phân loại như nhận dạng đồ vật trong ảnh, nhận diện chữ viết theo các ngôn ngữ khác nhau.2 Phan loại học máy Dựa trên cách thức học, mô hình học máy được chia thành bốn nhóm: © Hoc không giám sát (unsupervised learning): Ở cách học này, thuật toán không thể dự đoán được kết quả đầu ra (output) hay nhãn (label) mà dựa trên dữ liệu đầu vào (input). Thuật toán dựa vào cấu trúc của đữ liệu không gán nhãn (tức không được cung cấp trước kiến thức hay thông tin nào khác) để thực hiện một yêu cầu cụ thể như phân nhóm hay giảm thiểu số chiều dữ liệu dé sử dụng cho tính toán hoặc lưu trữ. Do dit liệu không cần gán nhãn nên việc cài đặt một thuật toán không giám sát sẽ dễ dàng hơn so với học có giám sát. Tuy nhiên do không gắn nhãn nên các thuật toán không giám sát không thé đưa ra dự đoán quá trình xác nếu ta không tiền xử lý dữ liệu trước khi huấn luyện.

Các thuật toán phổ 12 PHAN LOẠI MÃ ĐỘC ANDROID BANG HỌC MAY VÀ MẠNG SINH DOI KHANG biến như: K-Means hay trong học sâu có Recurrent Neural Network (RNN), hay Deep Belief Network (DBN). ¢ Hoc có giám sát (supervised learning): Day cũng là phương thức hoc phổ biến, mô hìn sẽh được học bằng cách dự đoán dữ liệu đầu ra (outpu0 của một dữ liệu đầu vào mới (new input) dựa trên cặp (input, output) được biết đến trước đó tức được gan nhãn. Từ đây, mô hình sẽ có thêm kiến thức và hiểu thêm về dữ liệu đó, sau đó các kiến thức này sẽ được kiểm tra dé giảm thiểu sai số lỗi (loss). Một số thuật toán có giám sát như: Random Forest, Linear Regression, Extra Trees, Logistic Regression, Decision Tree hay trong học sâu là Deep Neural Network (DNN), Convolutional Neural Network (CNN).

¢ Hoc bán giám sát (semi-supervised learning): Hay học nửa giám sát. Trong một số thời điểm, bài toán cho ta một tập dữ liệu lớn, nhưng chỉ một phần dữ liệu được gán nhãn trước khi đến giai đoạn huấn luyện, và phần lớn dữ liệu còn lại chưa gán nhãn, với các bài toán như vậy, ta có thể xếp vào nhóm học bán giám sát. Đầu tié đữ liệu đã gán nhãn được dùng để đào tạo thuật toán học máy. Tiếp đến, thuật toán đã được đào tạo sẽ tự gán nhãn cho dữ liệu chưa được gán nhãn.

Phương pháp học bán giám sát sẽ kết hợp kết quả từ dé liệu đã và chưa gan nhãn tuỳ vào yêu cầu cụ thê từng bài toán, với mục tiêu đạt độ chính xác cao nhất. “Thực tế, rất nhiều bài toán học máy thuộc nhóm bán giám sát vì việc thu thập dữ liệu và gán nhãn tốn nhiều chỉ phi và mắt thời gian. © Học tăng cường (reinforcement learning): viết tắt là RL, mô hình sẽ thực hiện các hành động dựa trên hoàn cảnh sao cho đạt được kết quả tốt nhất. Bản chất của học tăng cường là trial-and-error, bao gồm nhiều lần thử đi thử lại và sau đó rút ra kinh nghiệm sau mỗi lần thử sao cho độ chính xác là tốt nhất.

PHAN LOẠI MÃ ĐỘC ANDROID BANG HỌC MAY VÀ MẠNG SINH DOI KHANG 2.2 Giới thiệu về học sâu 2.1 Khái niệm học sâu Học sâu là một phần thuộc học máy, bao gồm các công nghệ lõi chủ yếu được áp dụng lên xe tự hành; cho phép tham gia giao thông mà không cần người ngồi điều khiển. Học sâu cũng được áp dụng lên các thiết bị thông minh như chức năng tự động phản hồi, trợ lý ảo trên loa thông minh, thiết bị đeo tay, điện thoại thông minh, máy tính bang,. Vi thế học sâu dần dẫn đầu xu hướng, đạt nhiều thành tựu và còn dư địa phát triển. Kiến trúc của học sâu bao gồm nhiều lớp đữ liệu được gán nhãn và nhiều kiến trúc mạng nơ-ron nhân tạo.

Dữ liệu đi từ lớp đầu vào (input), qua các lớp mạng nơ-ron an nối tiếp nhau, được dùng với mục đích khác nhau, trước khi tới được lớp cuối cùng gọi là lớp kết quả. Các lớp mạng ẩn bên trong mô hình học sâu sẽ hỗ trợ cho việc học, giúp đạt hiệu quả cao hơn so với mô hình học máy tiêu chuẩn. Hình bên dưới mô tả rõ nét về mối quan hệ giữa trí tuệ nhân tạo (AI), học máy và học sâu. ARTIFICIAL INTELLIGENCE MACHINE LEARNING DEEP 1950 «1960's 1970 «1980 190% 2000 2010% Hình 2.1 Mối quan hệ giữa AI, học máy và học sau’, Shups://blogs.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning-deep- learning-ai/ 14 PHÂN LOẠI MÃ ĐỘC ANDROID BẰNG HỌC MÁY VÀ MẠNG SINH ĐÓI KHÁNG 2.2 Một số khái niệm trong học sâu e Mạng nơ-ron: mô phỏng lại mạng lưới não bộ của con người, bao gồm các nơ-ron được liên kết chặt chẽ với nhau.

Chúng được phân vào ba loại lớp bao gồm lớp đầu vào, các lớp ẩn và lớp dau ra. @ Dau vào @ Lopan @ Đàura Hình 2.2 Mô hình kiến trúc của một mang than kinh”. ¢ Té bào than kinh (perceptron): Một tế bào thần kinh ta có thể hiểu là một hàm toán học có đầu vào (input) là tập hợp số thực, xử lý và thực hiện các phép toán sau đó đưa ra kết quả. Các trọng số (weights) sẽ được tìm ra qua quá trình huấn luyện dựa vào giá trị đầu vào, hoặc độ lệch (bias) và ngưỡng tương ứng.

s⁄/ = a xi} ay, w Hình 2.3 Cách hoạt động của tế bào thân kinh. e Hàm kích hoạt (activation functions): có vai trò là một thành phần phi tuyến tính được áp dụng vào đầu ra (output) của các nơ-ron thần * https://wwaw.com/life-science/deep-learning-in-digital-pathology/ 15 PHAN LOẠI MÃ ĐỘC ANDROID BANG HỌC MAY VÀ MẠNG SINH DOI KHANG kinh ở lớp ân, sau đó được dùng làm đầu vào cho lớp kế tiếp. Một số hàm kích hoạt được sử dụng phổ biến như Sigmoid, Tanh và Rectified Linear Unit (ReLU). © One-hot Encoding: Hỗ trợ biểu diễn dữ liệu để cung cấp cho thuật toán học máy.

Các giá trị ban đầu sẽ được biến đổi thành các đặc trưng ở dạng nhị phân, chỉ bao gồm các giá trị 0 hoặc 1. Mỗi mẫu sẽ được chuyển thành một vector có kích thước n, giá trị là 1 biêu thị trạng thái hoạt động. © Sofimax: Hay hàm trung bình mũ, sofimax sẽ tính xác suất xảy ra của sự kiện, hay tính toán khả năng xuất hiện một lớp trong tổng số các lớp, được sử dụng trong bài toán phân loại đa lớp. Kế tiếp, xác suất sau khi tính toán được dùng đê xác định lớp mục tiêu cho đầu vào.

© Cross entropy: Được dùng dé so sánh khoảng cách giá trị đầu ra giữa one-hot encoding và softmax. Chúng có giá trị được cực tiểu hoá (minimized) của phép dự đoán mẫu dữ liệu tương ứng một lớp nào đó. Cross entropy thường được dùng đê tôi ưu hóa cho các mô hình. e Dropout: Day là một cách phòng tránh overfitting (quá khớp) của mô hình.

Theo đó, dropout sẽ loại bỏ ngẫu nhiên một đơn vị trong mạng nơ-ron trong quá trình đào tạo, do đó đơn vị này không được xem xét trong quá trình kế tiếp. Dropout giúp tránh việc quá phụ thuộc lẫn nhau trong một mạng kết nối đầy đủ (fully-connected) của mô hình học sâu. ®© Max pooling: Thêm vào ở giữa các lớp tích chập với mục tiêu làm giảm kích thước các lớp thông qua việc lấy mẫu. Đây cũng là một cách giúp phòng tránh hiện tượng quá khớp (overfiting) trong mô hình học sâu.

16 PHAN LOẠI MÃ ĐỘC ANDROID BANG HỌC MAY VÀ MẠNG SINH DOI KHANG Single depth sic, 1|1|2|4 5|6|7|8|.4 Cách hoạt động của max pooling"®. Các mô hình học máy và học sâu được sử dụng trong đề tài Các thuật toán học máy thường được sử dụng trong phân loại mã độc Android như: Support Vector Machine (SVM), Decision Tree (DT), K-Nearest Neighbors (KNN) hay Multilayer Perceptron (MLP), Recurrent Neural Network (RNN), Deep Neural Network (DNN), Convolutional Neural Network (CNN). Tuy nhiên sau khi thử nghiệm, dé tài chọn lọc một số thuật toán hỗ trợ phân loại đa lớp với kết quả tốt. Các mô hình thuật toán được trình bày ở phan kế tiếp.1 Random Forest (RF) Đây là một thuật toán học máy có giám sát.

Thường được sử dung cho các bai toán phân loại cũng như hồi quy. Đây là thuật toán dễ thích nghỉ và thân thiện với người dùng nhất. Random Forest bao gồm nhiều Decision Trees, nhưng mỗi Decision Trees là duy nhất bởi vì các cây này được xây dựng dựa trên yếu tố ngẫu nhiên. Bởi vì các Decision Trees được xây dựng không sử dụng toàn bộ tập dữ liệu huấn luyện, việc này khiến cho chúng hoạt động không đủ tốt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu có tiêu đề Phân loại mã độc Android bằng mạng sinh đối kháng và học máy cung cấp cái nhìn sâu sắc về việc sử dụng các phương pháp học máy và mạng sinh đối kháng để phân loại mã độc trên nền tảng Android. Bài viết nêu bật tầm quan trọng của việc phát hiện và phân loại mã độc trong bối cảnh ngày càng gia tăng các mối đe dọa an ninh mạng. Các phương pháp được trình bày không chỉ giúp nâng cao độ chính xác trong việc nhận diện mã độc mà còn tối ưu hóa quy trình phát hiện, từ đó bảo vệ người dùng và thiết bị của họ một cách hiệu quả hơn.

Để mở rộng kiến thức của bạn về các phương pháp phát hiện an ninh mạng, bạn có thể tham khảo tài liệu Phát hiện xâm nhập mạng bằng phát hiện bất thường dựa trên phân tíh lưu lượng mạng và họ máy. Tài liệu này sẽ giúp bạn hiểu rõ hơn về cách phát hiện xâm nhập mạng thông qua phân tích lưu lượng, một khía cạnh quan trọng trong việc bảo vệ hệ thống mạng khỏi các cuộc tấn công.

Khám phá thêm các tài liệu liên quan sẽ giúp bạn nắm bắt được nhiều khía cạnh khác nhau trong lĩnh vực an ninh mạng, từ đó nâng cao khả năng bảo vệ thông tin cá nhân và tổ chức của bạn.

#phân tích mã độc

#mạng sinh đối kháng

#mã độc Android

#an ninh mạng di động

#học sâu và mã độc

#học máy trong bảo mật

Chủ đề

công nghệ học máy trong an ninh mạng

Bảo mật di động và mã độc

Mạng sinh đối kháng và ứng dụng

Xu hướng mã độc trên Android