Luận Văn Thạc Sĩ: Phân Loại Mã Độc Android Qua Quyền Hạn, Lời Gọi Hàm Và Thư Viện

Trường đại học

Đại học Quốc gia TP. HCM, Trường Đại học Công nghệ Thông tin

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

114

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN CỦA HỌC VIÊN

LỜI CẢM ƠN CỦA HỌC VIÊN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Cấu trúc AndroidOS. Nguy cơ mã độc tấn công. Phân loại mã độc Android. Cách tiếp cận nghiên cứu của đề tài

2. CHƯƠNG 2: LÝ THUYẾT HỌC MÁY, MỘT SỐ BÀI BÁO NGHIÊN CỨU VÀ CÔNG TRÌNH LIÊN QUAN

2.1. Trí thông minh nhân tạo

2.2. Một số giải thuật máy học. Giải thuật hồi quy logistic. Giải thuật k-NN. Giải thuật SVM. Thuật toán RE

2.3. Giải thuật Mạng Nơ-ron. Một số bài báo liên quan nghiên cứu

3. CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT

3.1. Nguồn trích xuất đặc tính

3.2. Mô tả bộ dữ liệu huấn luyện. Chuẩn hóa bộ dữ liệu. Trích xuất dữ liệu

3.3. Các bước trong quá trình trích xuất đặc trưng từ AndroPyTool. Thực hiện rút trích đặc trưng thư viện. Chọn lọc đặc tính

3.4. Quá trình thực hiện nhận dạng phân biệt Apk. Xây dựng bộ Dataset. Kiến trúc tổng thể

4. CHƯƠNG 4: HIỆN THỰC MÔ HÌNH, KẾT QUẢ VÀ ĐÁNH GIÁ THỰC NGHIỆM

4.1. Xây dựng môi trường thực hiện huấn luyện mô hình. Thông số đánh giá

4.2. Giá trị kết quả trung bình huấn luyện các mô hình. So sánh kết quả huấn luyện mô hình SVM với ba loại đặc trưng. Đề thị điểm F1-score

5. CHƯƠNG 5: KẾT LUẬN VÀ ĐỊNH HƯỚNG CÁC CHIẾN LƯỢC NGHIÊN CỨU THỜI GIAN TỚI

5.1. Kết luận kết quả thực nghiệm. Kết quả thử nghiệm sau khi thực hiện huấn luyện. Một số thách thức, hạn chế gặp phải. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Mã Độc Android

Mã độc Android là một trong những mối đe dọa lớn nhất đối với an ninh mạng Android. Chúng được thiết kế để xâm nhập và thực hiện các hoạt động độc hại trên thiết bị mà người dùng không hề hay biết. Phân loại mã độc dựa trên các đặc điểm như quyền hạn, lời gọi hàm hệ thống, và danh sách thư viện là một phương pháp hiệu quả để nhận diện và ngăn chặn chúng. Các loại mã độc phổ biến bao gồm Trojan, Spyware, Ransomware, và Adware, mỗi loại có cách thức hoạt động và mục tiêu khác nhau.

1.1. Phân Loại Mã Độc

Phân loại mã độc Android dựa trên quyền hạn mã độc và lời gọi hàm hệ thống giúp xác định các hành vi độc hại. Ví dụ, Trojan thường giả mạo ứng dụng hợp pháp, trong khi Spyware thu thập thông tin cá nhân. Phân tích mã độc thông qua danh sách thư viện mã độc cũng là một phương pháp hiệu quả để phát hiện các ứng dụng độc hại.

1.2. Tấn Công Mạng Android

Tấn công mạng Android thường thông qua các ứng dụng độc hại hoặc lỗ hổng bảo mật. Kỹ thuật mã độc như tấn công qua quyền hạn cho phép kẻ tấn công kiểm soát thiết bị từ xa. Phát hiện mã độc sớm là yếu tố quan trọng để bảo vệ thiết bị và dữ liệu người dùng.

II. Phân Tích Mã Độc

Phân tích mã độc là quá trình nghiên cứu và xác định các đặc điểm của mã độc để phát hiện và ngăn chặn chúng. Phương pháp này bao gồm phân tích hành vi mã độc và phân tích tĩnh để xác định các mẫu độc hại. Bảo mật ứng dụng Android đòi hỏi sự kết hợp giữa phân tích mã độc và kỹ thuật mã độc để đảm bảo an toàn cho người dùng.

2.1. Phương Pháp Bảo Vệ Android

Phương pháp bảo vệ Android bao gồm việc sử dụng các công cụ phát hiện mã độc và phân tích hành vi mã độc. Các giải pháp như thư viện mã độc Android và phân tích lời gọi hàm hệ thống giúp xác định các ứng dụng độc hại một cách hiệu quả.

2.2. Kỹ Thuật Mã Độc

Kỹ thuật mã độc như tấn công qua quyền hạn và sử dụng thư viện độc hại là những phương pháp phổ biến mà kẻ tấn công sử dụng. Phân tích mã độc giúp hiểu rõ các kỹ thuật này và đề xuất các biện pháp phòng ngừa phù hợp.

III. Ứng Dụng Thực Tế

Nghiên cứu về phân loại mã độc Android dựa trên quyền hạn, lời gọi hàm hệ thống, và danh sách thư viện có giá trị thực tiễn cao trong việc bảo vệ thiết bị Android. Các kết quả nghiên cứu có thể được áp dụng trong việc phát triển các công cụ phát hiện mã độc và bảo mật ứng dụng Android.

3.1. Phát Hiện Mã Độc

Phát hiện mã độc thông qua phân tích lời gọi hàm hệ thống và danh sách thư viện là một phương pháp hiệu quả. Các công cụ như AndroPyTool được sử dụng để trích xuất và phân tích các đặc trưng của mã độc.

3.2. Bảo Mật Ứng Dụng Android

Bảo mật ứng dụng Android đòi hỏi sự kết hợp giữa phân tích mã độc và phương pháp bảo vệ Android. Các giải pháp như phân tích hành vi mã độc và sử dụng thư viện an toàn giúp tăng cường bảo mật cho thiết bị.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phân loại mã độc android dựa trên quyền hạn lời gọi hàm hệ thống và danh sách thư viện

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ di động, AndroidOS chiếm tới 71,44% thị phần hệ điều hành di động tính đến quý 1 năm 2023, trở thành nền tảng phổ biến nhất cho các thiết bị thông minh. Tuy nhiên, sự phổ biến này cũng kéo theo nguy cơ gia tăng các phần mềm độc hại (malware) trên nền tảng Android, với hơn 405.000 mẫu mã độc được phát hiện chỉ trong quý 2 năm 2023. Mã độc Android ngày càng tinh vi, sử dụng các kỹ thuật mã hóa và ngụy trang để tránh bị phát hiện, gây ra nhiều thiệt hại về tài chính và an ninh thông tin cho người dùng.

Luận văn tập trung vào việc phát triển mô hình phân loại mã độc Android dựa trên các đặc trưng trích xuất từ tập tin APK, bao gồm quyền truy cập, lời gọi hàm hệ thống và danh sách thư viện sử dụng. Mục tiêu nghiên cứu là xây dựng hệ thống phân loại hiệu quả, giúp phát hiện và phân loại chính xác các ứng dụng độc hại và lành tính, từ đó nâng cao khả năng bảo vệ thiết bị Android. Nghiên cứu sử dụng bộ dữ liệu CICMalDroid 2020 với hơn 17.000 mẫu APK đa dạng, bao gồm các loại mã độc như Adware, Banking Malware, SMS Malware, Riskware và ứng dụng lành tính.

Phạm vi nghiên cứu tập trung vào việc áp dụng các thuật toán học máy như SVM, Random Forest, Logistic Regression, K-Nearest Neighbors và Decision Tree để huấn luyện và đánh giá mô hình phân loại. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các công cụ bảo mật tự động, hỗ trợ người dùng và các tổ chức trong việc phát hiện sớm và ngăn chặn mã độc trên nền tảng Android.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy để giải quyết bài toán phân loại mã độc Android. Hai lý thuyết chính được áp dụng gồm:

Học máy giám sát (Supervised Learning): Thuật toán được huấn luyện trên tập dữ liệu có nhãn, nhằm xây dựng mô hình phân loại dựa trên các đặc trưng đầu vào. Các thuật toán phổ biến bao gồm Logistic Regression (LR), Support Vector Machine (SVM), K-Nearest Neighbors (KNN), Decision Tree (DT) và Random Forest (RF).
Phân tích tĩnh phần mềm (Static Analysis): Phương pháp phân tích mã nguồn hoặc tập tin APK mà không cần thực thi ứng dụng, giúp trích xuất các đặc trưng như quyền truy cập, lời gọi hàm hệ thống và thư viện sử dụng. Công cụ AndroPyTool được sử dụng để thực hiện trích xuất này.

Các khái niệm chính trong nghiên cứu bao gồm:

Quyền truy cập (Permissions): Các quyền mà ứng dụng yêu cầu để truy cập tài nguyên hệ thống hoặc dữ liệu người dùng.
Lời gọi hàm hệ thống (API Calls): Các hàm được ứng dụng gọi đến hệ thống Android để thực hiện các chức năng.
Danh sách thư viện (Libraries): Các thư viện mã nguồn được sử dụng trong ứng dụng, có thể chứa các đoạn mã độc hại.
Độ đo hiệu quả mô hình (F1-score, Precision, Recall): Các chỉ số đánh giá hiệu suất phân loại của mô hình học máy.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu CICMalDroid 2020, bao gồm 17.341 mẫu APK đa dạng về loại mã độc và ứng dụng lành tính. Dữ liệu được chia thành tập huấn luyện (80%, tương đương 8.930 mẫu) và tập kiểm tra (20%, tương đương 2.233 mẫu).

Quy trình nghiên cứu gồm các bước:

Trích xuất đặc trưng: Sử dụng công cụ AndroPyTool để giải nén và phân tích tập tin APK, thu thập dữ liệu về quyền truy cập, lời gọi hàm và thư viện. Mỗi đặc trưng được mã hóa nhị phân (1 nếu có, 0 nếu không).
Chuẩn hóa và chọn lọc đặc trưng: Loại bỏ các đặc trưng xuất hiện quá nhiều hoặc quá ít để giảm nhiễu và tăng hiệu quả mô hình. Tổng số đặc trưng giảm từ 6.284 xuống còn 160 đặc trưng quan trọng.
Xây dựng mô hình học máy: Huấn luyện các mô hình Logistic Regression, Random Forest, Support Vector Machine, K-Nearest Neighbors và Decision Tree trên tập huấn luyện.
Đánh giá mô hình: Sử dụng các chỉ số F1-score, Precision, Recall và ma trận nhầm lẫn (Confusion Matrix) để đánh giá hiệu quả phân loại trên tập kiểm tra.
Timeline nghiên cứu: Nghiên cứu được thực hiện trong khoảng thời gian từ đầu năm 2023 đến tháng 12 năm 2023 tại Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP. Hồ Chí Minh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại cao của các mô hình học máy: Mô hình Random Forest đạt độ chính xác trung bình trên 96%, với F1-score và Precision đều vượt mức 95%, cho thấy khả năng phân loại mã độc và ứng dụng lành tính rất tốt. Mô hình SVM và Logistic Regression cũng đạt hiệu suất tương tự, trong khi KNN và Decision Tree có hiệu quả thấp hơn khoảng 3-5%.
Tác động của việc chọn lọc đặc trưng: Việc giảm số lượng đặc trưng từ 6.284 xuống còn 160 giúp tăng hiệu quả huấn luyện và giảm thời gian xử lý mà không làm giảm độ chính xác phân loại. Đặc trưng về quyền truy cập và lời gọi hàm hệ thống đóng vai trò quan trọng nhất trong việc phân biệt mã độc.
Phân loại chính xác các loại mã độc phổ biến: Mô hình phân loại hiệu quả với các loại mã độc như Adware, Banking Malware, SMS Malware và Riskware, với tỷ lệ phát hiện chính xác trên 90% cho từng loại. Điều này chứng tỏ mô hình có khả năng nhận diện đa dạng các mẫu mã độc khác nhau.
So sánh với các nghiên cứu trước: Kết quả đạt được tương đương hoặc vượt trội so với các nghiên cứu trước đây, đặc biệt trong việc kết hợp trích xuất đặc trưng từ quyền, lời gọi hàm và thư viện. Ví dụ, mô hình DeepCatra đạt F1-score 92,29%, trong khi nghiên cứu này đạt trên 96%.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình là việc kết hợp đa dạng các đặc trưng trích xuất từ APK, bao gồm quyền truy cập, lời gọi hàm và thư viện, giúp mô hình nhận diện các đặc điểm chung của mã độc dù chúng có thể biến đổi để tránh phát hiện. Việc chuẩn hóa và chọn lọc đặc trưng cũng giúp giảm nhiễu và tăng khả năng tổng quát hóa của mô hình.

So với các phương pháp phân tích động, phương pháp phân tích tĩnh sử dụng trong nghiên cứu tiết kiệm tài nguyên và cho phép xử lý nhanh trên quy mô lớn. Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác và F1-score của các mô hình, cũng như bảng ma trận nhầm lẫn minh họa khả năng phân loại chính xác từng loại mã độc.

Ý nghĩa của nghiên cứu nằm ở việc cung cấp một giải pháp phát hiện mã độc Android hiệu quả, có thể ứng dụng trong các công cụ bảo mật thực tế để bảo vệ người dùng và doanh nghiệp trước các mối đe dọa ngày càng tinh vi.

Đề xuất và khuyến nghị

Phát triển công cụ phát hiện mã độc tích hợp học máy: Xây dựng phần mềm bảo mật tích hợp các mô hình học máy đã huấn luyện để tự động phân loại và cảnh báo mã độc trước khi cài đặt ứng dụng. Mục tiêu giảm tỷ lệ cài đặt mã độc xuống dưới 5% trong vòng 12 tháng, do các công ty bảo mật hoặc nhà phát triển phần mềm thực hiện.
Cập nhật và mở rộng bộ dữ liệu huấn luyện thường xuyên: Thu thập và bổ sung các mẫu APK mới, đặc biệt là các mã độc biến thể, để duy trì độ chính xác của mô hình trên 95%. Việc này nên được thực hiện định kỳ mỗi 3-6 tháng bởi các tổ chức nghiên cứu và phòng chống mã độc.
Tăng cường đào tạo và nâng cao nhận thức người dùng: Tổ chức các chương trình đào tạo, hội thảo về an ninh mạng và cách nhận biết mã độc cho người dùng thiết bị Android, nhằm giảm thiểu nguy cơ cài đặt ứng dụng độc hại. Mục tiêu nâng cao tỷ lệ người dùng nhận thức về mã độc lên trên 80% trong 1 năm.
Phát triển các thuật toán học sâu kết hợp phân tích động: Nghiên cứu và áp dụng các mô hình học sâu như mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi tiếp (RNN) kết hợp phân tích hành vi động để nâng cao khả năng phát hiện mã độc tinh vi. Thời gian nghiên cứu và thử nghiệm dự kiến 18-24 tháng, do các nhóm nghiên cứu chuyên sâu thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, An ninh mạng: Luận văn cung cấp kiến thức chuyên sâu về phân loại mã độc Android, các thuật toán học máy và phương pháp trích xuất đặc trưng, hỗ trợ nghiên cứu và phát triển đề tài liên quan.
Các công ty phát triển phần mềm bảo mật: Thông tin và mô hình trong luận văn giúp xây dựng các giải pháp phát hiện mã độc hiệu quả, cải thiện sản phẩm bảo mật cho thiết bị di động.
Cơ quan quản lý và tổ chức phòng chống tội phạm mạng: Nghiên cứu cung cấp cơ sở khoa học để phát triển các công cụ giám sát, phát hiện và ngăn chặn mã độc trên nền tảng Android, góp phần bảo vệ an ninh mạng quốc gia.
Người dùng thiết bị Android và các tổ chức sử dụng thiết bị di động: Hiểu biết về các loại mã độc và cách phát hiện giúp nâng cao nhận thức, từ đó chủ động bảo vệ thiết bị và dữ liệu cá nhân, doanh nghiệp.

Câu hỏi thường gặp

Phân loại mã độc Android dựa trên đặc trưng nào?
Phân loại dựa trên các đặc trưng trích xuất từ tập tin APK gồm quyền truy cập, lời gọi hàm hệ thống và danh sách thư viện sử dụng. Các đặc trưng này được mã hóa nhị phân và làm đầu vào cho các mô hình học máy.
Các mô hình học máy nào được sử dụng trong nghiên cứu?
Nghiên cứu áp dụng Logistic Regression, Random Forest, Support Vector Machine, K-Nearest Neighbors và Decision Tree để huấn luyện và đánh giá khả năng phân loại mã độc.
Hiệu quả của mô hình phân loại như thế nào?
Mô hình Random Forest đạt độ chính xác trên 96%, F1-score và Precision trên 95%, cho thấy khả năng phân loại chính xác giữa mã độc và ứng dụng lành tính.
Tại sao chọn phân tích tĩnh thay vì phân tích động?
Phân tích tĩnh tiết kiệm tài nguyên, cho phép xử lý nhanh trên quy mô lớn mà không cần thực thi ứng dụng, phù hợp với việc phân loại hàng loạt tập tin APK.
Làm thế nào để cập nhật mô hình khi xuất hiện mã độc mới?
Cần thu thập dữ liệu mới định kỳ, huấn luyện lại mô hình với bộ dữ liệu mở rộng để duy trì độ chính xác và khả năng phát hiện các biến thể mã độc mới.

Kết luận

Luận văn đã xây dựng thành công mô hình phân loại mã độc Android dựa trên đặc trưng quyền truy cập, lời gọi hàm và thư viện với độ chính xác trên 96%.
Việc chuẩn hóa và chọn lọc đặc trưng giúp nâng cao hiệu quả và giảm thời gian huấn luyện mô hình.
Nghiên cứu chứng minh tính khả thi của phương pháp phân tích tĩnh kết hợp học máy trong phát hiện mã độc trên nền tảng Android.
Kết quả có thể ứng dụng trong phát triển các công cụ bảo mật tự động, hỗ trợ người dùng và doanh nghiệp bảo vệ thiết bị.
Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng bộ dữ liệu, áp dụng học sâu và kết hợp phân tích động để nâng cao hiệu quả phát hiện mã độc.

Để tiếp tục phát triển và ứng dụng nghiên cứu, các nhà nghiên cứu và doanh nghiệp nên hợp tác triển khai mô hình vào thực tế, đồng thời cập nhật dữ liệu và thuật toán thường xuyên nhằm đối phó với các mối đe dọa mới. Hãy bắt đầu áp dụng các giải pháp học máy trong bảo mật Android ngay hôm nay để bảo vệ an toàn cho thiết bị và dữ liệu của bạn!

Tài liệu "Phân Loại Mã Độc Android Dựa Trên Quyền Hạn, Lời Gọi Hàm Hệ Thống Và Danh Sách Thư Viện" tập trung vào việc phân loại mã độc trên nền tảng Android thông qua việc phân tích quyền hạn, lời gọi hàm hệ thống và danh sách thư viện. Phương pháp này giúp xác định và phân loại các loại mã độc một cách hiệu quả, từ đó hỗ trợ các nhà nghiên cứu và chuyên gia bảo mật trong việc phát hiện và ngăn chặn các mối đe dọa trên thiết bị di động. Tài liệu cung cấp cái nhìn sâu sắc về cấu trúc và hành vi của mã độc, đồng thời đề xuất các giải pháp để tăng cường an ninh cho hệ thống Android.

Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo thêm Luận văn thạc sĩ nghiên cứu phương pháp phát hiện mã độc trên máy người dùng sử dụng kỹ thuật MITRE ATT&CK, tài liệu này đi sâu vào các kỹ thuật phát hiện mã độc hiện đại. Ngoài ra, Tiểu luận nghiên cứu phương pháp phát sinh mẫu mã độc đối kháng chống lại trình phát hiện mã độc tổng hợp cung cấp thêm góc nhìn về cách mã độc được tạo ra để đối phó với các công cụ phát hiện. Cuối cùng, Luận văn thạc sĩ quản lý thu thuế TNDN tại cục thuế tỉnh Quảng Ninh tuy không trực tiếp liên quan nhưng cũng là một tài liệu thú vị về quản lý hệ thống, có thể mang lại những ý tưởng mới cho việc quản lý an ninh thông tin.

#phân loại mã độc Android

#quyền hạn ứng dụng Android

#lời gọi hàm hệ thống

#danh sách thư viện Android

#phân tích mã độc di động

#bảo mật ứng dụng Android

Chủ đề

Phân tích mã độc

Luận văn thạc sĩ

Bảo mật di động