Phân Tích Mức Độ An Toàn Của Ứng Dụng Android Dựa Trên Học Máy

Luận văn phân tích mức độ an toàn của ứng dụng Android dựa trên học máy, cung cấp cái nhìn sâu sắc về bảo mật và công nghệ hiện đại.

Trường đại học

Đại học Thái Nguyên

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. MỞ ĐẦU

2. CHƯƠNG 1: TỔNG QUAN VỀ AN TOÀN BẢO MẬT TRÊN HỆ ĐIỀU HÀNH ANDROID

1.1. Kiến trúc hệ điều hành Android

1.1.1. Tầng hạt nhân Linux (Linux Kernel)

1.1.2. Tầng Thư viện (Libraries) và Tiến trình Android (Android Runtime)

1.1.3. Tầng Khung ứng dụng (Application Framework)

1.1.4. Tầng Ứng dụng (Applications)

1.1.5. Cấu trúc ứng dụng Android

1.2. An toàn bảo mật hệ điều hành Android

1.3. Biểu hiện của mã độc di động

1.4. Mã độc trong môi trường Android

1.5. Một số kỹ thuật phân tích mã độc

3. CHƯƠNG 2: GIỚI THIỆU HỌC MÁY VÀ CÁC MÔ HÌNH HỌC MÁY

2.1. Phân loại kỹ thuật học máy

2.2. Thuật toán cây quyết định J48 (Decision Trees)

2.3. Thuật toán hồi quy logictics

4. CHƯƠNG 3: MÔ PHỎNG VÀ KIỂM THỬ

3.1. Phương thức tính điểm

3.2. Kết quả thực nghiệm

3.3. Đánh giá, tranh luận

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan An Toàn Ứng Dụng Android Học Máy Giới Thiệu

Trong kỷ nguyên số hóa, điện thoại thông minh (smartphone) đã trở thành vật bất ly thân, kéo theo đó là sự gia tăng chóng mặt của các phần mềm độc hại nhắm vào nền tảng Android. Những mã độc này ngày càng tinh vi, vượt qua các biện pháp bảo mật truyền thống. Do đó, việc nghiên cứu các phương pháp phân tích và đánh giá mức độ an toàn của ứng dụng Android trở nên vô cùng cấp thiết. Luận văn này đề xuất giải pháp kết hợp phân tích tĩnh và các mô hình học máy để đánh giá mức độ tin cậy của ứng dụng, góp phần bảo vệ thiết bị di động của người dùng. Theo Kaspersky, số lượng mẫu độc hại cho Android đã tăng hơn 8 lần vào năm 2012, cho thấy mức độ nghiêm trọng của vấn đề. Mục tiêu chính của nghiên cứu là phát triển một phương pháp hiệu quả để phát hiện và đánh giá mức độ mất an toàn của các ứng dụng Android, sử dụng dữ liệu từ các nguồn công khai như Google Play và các trang nghiên cứu bảo mật.

1.1. Sự Cần Thiết Của Phân Tích An Toàn Ứng Dụng Android

Số lượng smartphone đã vượt qua máy tính cá nhân, trở thành nơi lưu trữ nhiều thông tin cá nhân quan trọng. Việc bảo vệ các thông tin này trước các mối đe dọa an ninh mạng là vô cùng quan trọng. Sự gia tăng của phần mềm độc hại nhắm vào Android đòi hỏi các phương pháp bảo vệ hiệu quả hơn. Các ứng dụng độc hại có thể lợi dụng lỗ hổng bảo mật hoặc sự bất cẩn của người dùng để xâm nhập thiết bị. Theo Kaspersky, năm 2012 chứng kiến sự bùng nổ của malware trên Android. Các phương pháp truyền thống dựa trên chữ ký (signature-based detection) không còn đủ hiệu quả. Cần có những phương pháp tiếp cận mới, thông minh hơn để đối phó với các mối đe dọa này. Học máy (Machine Learning) cung cấp một hướng đi đầy hứa hẹn.

1.2. Tổng Quan Về Kiến Trúc Hệ Điều Hành Android

Hiểu rõ kiến trúc hệ điều hành Android là yếu tố then chốt để phân tích an toàn ứng dụng. Android là hệ điều hành mã nguồn mở dựa trên nền tảng Linux. Kiến trúc của Android bao gồm nhiều lớp, từ Linux Kernel ở tầng thấp nhất đến Applications ở tầng cao nhất. Mỗi tầng có chức năng và trách nhiệm riêng, tạo nên một hệ thống phức tạp nhưng linh hoạt. Các thành phần quan trọng bao gồm: Linux Kernel, Libraries, Android Runtime, Application Framework và Applications. Việc nắm vững cấu trúc này giúp các nhà nghiên cứu xác định các điểm yếu và lỗ hổng bảo mật tiềm ẩn trong hệ thống. Hình 1.1 trong tài liệu gốc minh họa rõ sơ đồ kiến trúc hệ thống cấp thấp Android.

II. Thách Thức An Ninh Android Mã Độc và Kỹ Thuật Phân Tích

An toàn bảo mật trên hệ điều hành Android là một vấn đề phức tạp và không ngừng phát triển. Sự đa dạng của các loại mã độc và kỹ thuật tấn công đòi hỏi các nhà nghiên cứu phải liên tục cập nhật và cải tiến phương pháp bảo vệ. Các ứng dụng độc hại có thể xâm nhập thiết bị thông qua nhiều kênh khác nhau, từ tin nhắn MMS đến kết nối Wi-Fi. Một số ứng dụng còn tìm cách vượt qua các chính sách an ninh của các cửa hàng ứng dụng để thu thập thông tin người dùng một cách trái phép. Các kỹ thuật phân tích mã độc bao gồm phân tích tĩnh, phân tích động và phân tích hành vi. Các kỹ thuật này giúp các nhà nghiên cứu hiểu rõ hơn về cách thức hoạt động của mã độc và phát triển các biện pháp phòng chống hiệu quả.

2.1. Các Loại Mã Độc Phổ Biến Trên Nền Tảng Android

Mã độc Android ngày càng đa dạng và tinh vi. Chúng có thể lây lan qua nhiều con đường khác nhau, như MMS, Bluetooth, GPRS/EDGE/UMTS, WLAN và removable media. Sâu Commwarrior là một ví dụ về mã độc lây lan qua MMS, trong khi sâu Lasco lây lan qua Bluetooth. Các loại mã độc này có thể đánh cắp thông tin cá nhân, ghi lại hành vi người dùng, ăn cắp cước thuê bao hoặc gây ảnh hưởng đến hệ thống điện thoại. Việc nhận diện và phân loại các loại mã độc này là bước đầu tiên quan trọng trong quá trình bảo vệ thiết bị. Luận văn này tập trung vào việc phân tích mức độ nguy hại của ứng dụng dựa trên các đặc điểm tĩnh và động của chúng.

2.2. Kỹ Thuật Phân Tích Mã Độc Android Tổng Quan

Có nhiều kỹ thuật phân tích mã độc Android, mỗi kỹ thuật có ưu và nhược điểm riêng. Phân tích tĩnh (Static analysis) tập trung vào việc phân tích mã nguồn của ứng dụng mà không cần thực thi nó. Kỹ thuật này giúp phát hiện các dấu hiệu đáng ngờ và các lỗ hổng bảo mật tiềm ẩn. Phân tích động (Dynamic analysis) liên quan đến việc thực thi ứng dụng trong một môi trường kiểm soát và theo dõi hành vi của nó. Kỹ thuật này giúp phát hiện các hành vi độc hại và các tác động tiêu cực đến hệ thống. Phân tích hành vi (Behavioral analysis) tập trung vào việc phân tích các hành vi của ứng dụng trong môi trường thực tế. Kỹ thuật này giúp phát hiện các ứng dụng có hành vi đáng ngờ hoặc vi phạm chính sách bảo mật.

III. Phương Pháp Phân Tích Học Máy Thuật Toán Cây Quyết Định J48

Phương pháp đề xuất trong luận văn này kết hợp phân tích tĩnh và học máy để đánh giá mức độ an toàn của ứng dụng Android. Học máy cung cấp khả năng tự động học hỏi và nhận diện các mẫu độc hại dựa trên dữ liệu đã được huấn luyện. Thuật toán cây quyết định J48 (Decision Trees) được sử dụng để xây dựng mô hình phân loại ứng dụng dựa trên các đặc trưng được trích xuất từ phân tích tĩnh. Mô hình này có khả năng dự đoán mức độ nguy hiểm của một ứng dụng mới dựa trên các đặc trưng của nó. Sự kết hợp giữa phân tích tĩnh và học máy giúp tăng cường hiệu quả và độ chính xác của quá trình phân tích.

3.1. Ứng Dụng Học Máy Trong Phân Tích An Toàn Android

Học máy đang trở thành một công cụ quan trọng trong lĩnh vực an toàn thông tin. Nó có thể được sử dụng để tự động phát hiện và phân loại các mối đe dọa, giảm thiểu sự phụ thuộc vào các phương pháp thủ công. Trong phân tích an toàn Android, học máy có thể được sử dụng để phân loại ứng dụng độc hại, phát hiện các hành vi bất thường và dự đoán các lỗ hổng bảo mật. Việc sử dụng các mô hình học máy giúp tăng cường khả năng phòng thủ và ứng phó với các cuộc tấn công mạng. Các thuật toán học máy phổ biến trong phân tích an toàn Android bao gồm cây quyết định, máy vector hỗ trợ (SVM) và mạng nơ-ron.

3.2. Chi Tiết Thuật Toán Cây Quyết Định J48 Trong Luận Văn

Luận văn này sử dụng thuật toán cây quyết định J48 vì tính đơn giản, dễ hiểu và khả năng giải thích kết quả. J48 là một thuật toán phân loại thuộc loại supervised learning. Nó xây dựng một cây quyết định dựa trên dữ liệu huấn luyện, trong đó mỗi nút trong cây đại diện cho một thuộc tính của dữ liệu và mỗi nhánh đại diện cho một giá trị của thuộc tính đó. Thuật toán J48 được sử dụng để phân loại ứng dụng Android thành hai loại: lành tính và độc hại. Các đặc trưng được sử dụng để huấn luyện mô hình bao gồm các quyền truy cập, các API được sử dụng và các đặc điểm mã nguồn khác.

3.3 Thuật Toán Hồi Quy Logistic và So Sánh Với J48

Ngoài J48, luận văn cũng đề cập đến thuật toán hồi quy logistic. Hồi quy logistic là một phương pháp thống kê dự đoán xác suất xảy ra của một sự kiện. Trong bối cảnh an toàn ứng dụng Android, thuật toán này có thể dự đoán khả năng một ứng dụng là độc hại. Tài liệu gốc cung cấp kết quả thực nghiệm so sánh hiệu suất của J48 và hồi quy logistic. Kết quả này giúp đánh giá ưu điểm và nhược điểm của từng thuật toán trong việc phân tích ứng dụng Android.

IV. Thực Nghiệm Đánh Giá Kết Quả Phân Tích An Toàn Ứng Dụng

Chương 3 của luận văn trình bày kết quả thực nghiệm của phương pháp đề xuất. Quá trình mô phỏng và kiểm thử được thực hiện bằng cách sử dụng các công cụ và bộ dữ liệu chuẩn. Kết quả cho thấy phương pháp kết hợp phân tích tĩnh và học máy có hiệu quả trong việc phát hiện các ứng dụng độc hại. So sánh với các phương pháp truyền thống, phương pháp đề xuất có độ chính xác cao hơn và khả năng phát hiện các biến thể mã độc mới. Đánh giá và tranh luận về kết quả được trình bày chi tiết, làm rõ các ưu điểm và hạn chế của phương pháp.

4.1. Phương Thức Tính Điểm Rủi Ro Risk Score Trong Đánh Giá

Luận văn sử dụng phương thức tính điểm (scoring) để đánh giá mức độ rủi ro của một ứng dụng. Điểm rủi ro được tính dựa trên các đặc trưng của ứng dụng, bao gồm các quyền truy cập, các API được sử dụng và các đặc điểm mã nguồn khác. Mỗi đặc trưng được gán một trọng số, phản ánh mức độ nguy hiểm của nó. Điểm rủi ro càng cao, ứng dụng càng được coi là nguy hiểm. Bảng 3.1 và 3.2 trong tài liệu gốc cung cấp ví dụ về cách tính điểm rủi ro và điểm bảo vệ (protection-score). Phương pháp này giúp định lượng mức độ an toàn của ứng dụng một cách khách quan.

4.2. Kết Quả Thực Nghiệm Và So Sánh Với Các Phương Pháp Khác

Kết quả thực nghiệm cho thấy phương pháp đề xuất có độ chính xác cao trong việc phát hiện các ứng dụng độc hại. Hình 3.1 và 3.2 trong tài liệu gốc minh họa kết quả của thuật toán cây quyết định và hồi quy logistic. Phương pháp đề xuất được so sánh với phương pháp Ryo Sato và cho thấy hiệu suất tốt hơn. Tuy nhiên, phương pháp này vẫn còn một số hạn chế, chẳng hạn như khả năng phát hiện các ứng dụng độc hại obfuscated (xáo trộn mã). Nghiên cứu tiếp theo sẽ tập trung vào việc cải thiện khả năng phát hiện các loại mã độc này.

V. Kết Luận Tiềm Năng Và Hướng Phát Triển Của An Toàn Ứng Dụng

Luận văn đã trình bày một phương pháp hiệu quả để phân tích và đánh giá mức độ an toàn của ứng dụng Android dựa trên phân tích tĩnh và học máy. Phương pháp này có tiềm năng lớn trong việc bảo vệ thiết bị di động của người dùng khỏi các mối đe dọa an ninh mạng. Các hướng nghiên cứu tiếp theo bao gồm việc cải thiện khả năng phát hiện các loại mã độc obfuscated, tích hợp các kỹ thuật phân tích động và phát triển các công cụ tự động hóa quá trình phân tích. Sự phát triển của công nghệ học máy sẽ tiếp tục đóng vai trò quan trọng trong việc nâng cao khả năng phòng thủ trước các cuộc tấn công mạng.

5.1. Tóm Tắt Các Đóng Góp Của Luận Văn Về An Toàn Ứng Dụng

Luận văn này đóng góp vào lĩnh vực an toàn ứng dụng Android bằng cách đề xuất một phương pháp mới kết hợp phân tích tĩnh và học máy. Phương pháp này có độ chính xác cao và khả năng phát hiện các biến thể mã độc mới. Luận văn cũng cung cấp một phân tích chi tiết về các thuật toán học máy được sử dụng và so sánh hiệu suất của chúng. Kết quả nghiên cứu có thể được sử dụng để phát triển các công cụ bảo mật tự động và giúp người dùng đưa ra quyết định thông minh về việc cài đặt ứng dụng.

5.2. Hướng Nghiên Cứu Tiếp Theo Tối Ưu và Phát Triển Thuật Toán

Nghiên cứu tiếp theo sẽ tập trung vào việc cải thiện khả năng phát hiện các loại mã độc obfuscated, tích hợp các kỹ thuật phân tích động và phát triển các công cụ tự động hóa quá trình phân tích. Một hướng nghiên cứu quan trọng là khám phá các thuật toán học máy mới và tối ưu hóa các thuật toán hiện có để tăng cường hiệu suất và độ chính xác. Ngoài ra, cần phải nghiên cứu các phương pháp chống lại các kỹ thuật tấn công adversarial (tấn công làm sai lệch kết quả của mô hình học máy).

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn phân tích mức độ an toàn của ứng dụng android dựa trên học máy

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh công nghệ số phát triển mạnh mẽ, smartphone trở thành thiết bị không thể thiếu trong cuộc sống hiện đại. Theo báo cáo của Kaspersky, năm 2012 số lượng phần mềm độc hại trên nền tảng Android tăng hơn 8 lần so với năm trước, với trung bình 6.300 mẫu phần mềm độc hại mới mỗi tháng. Đến năm 2016, số lượng malware trên thiết bị di động đã vượt mốc 2 triệu mẫu. Điều này đặt ra thách thức lớn về an toàn bảo mật cho người dùng Android khi các phần mềm độc hại ngày càng tinh vi, có khả năng vượt qua các rào cản bảo mật của Google để thu thập thông tin cá nhân hoặc gây hại cho thiết bị.

Luận văn tập trung nghiên cứu phương pháp phân tích mức độ an toàn của ứng dụng Android dựa trên học máy, nhằm phát hiện và đánh giá các phần mềm độc hại một cách hiệu quả hơn so với các phương pháp truyền thống dựa trên chữ ký. Mục tiêu cụ thể là xây dựng mô hình học máy kết hợp phân tích tĩnh và động để đánh giá mức độ đáng tin cậy của ứng dụng, giúp người dùng tránh cài đặt các phần mềm nguy hiểm.

Phạm vi nghiên cứu tập trung vào các ứng dụng trên nền tảng Android, sử dụng dữ liệu thu thập từ các nguồn công khai như Google Play, Drebin và Contagio Mobile Malware. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao bảo mật cho thiết bị di động, góp phần giảm thiểu rủi ro mất an toàn thông tin cá nhân và bảo vệ người dùng trước các mối đe dọa ngày càng gia tăng.

---

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

- **Kiến trúc hệ điều hành Android**: Bao gồm 5 phần chính từ tầng hạt nhân Linux, thư viện hệ thống, tiến trình Android Runtime, khung ứng dụng đến tầng ứng dụng. Hiểu rõ kiến trúc này giúp phân tích các điểm yếu bảo mật và cách thức ứng dụng tương tác với hệ thống.
- **Học máy (Machine Learning)**: Tập trung vào hai kỹ thuật chính là học có giám sát và học phi giám sát. Trong đó, học có giám sát được sử dụng để phân loại ứng dụng độc hại dựa trên dữ liệu đã gán nhãn.
- **Thuật toán cây quyết định J48**: Thuật toán phân nhóm dựa trên nguyên tắc entropy và gain, giúp phân loại chính xác các ứng dụng dựa trên các đặc trưng như risk-score và protection-score.
- **Thuật toán hồi quy logistic**: Phân tích mối quan hệ giữa biến độc lập và biến nhị phân để dự đoán khả năng ứng dụng là độc hại hay không.
- **Phân tích tĩnh và động**: Phân tích tĩnh dựa trên mã nguồn và quyền ứng dụng, phân tích động theo dõi hành vi ứng dụng trong môi trường giả lập để phát hiện các hành vi bất thường.

Các khái niệm chính bao gồm: quyền ứng dụng (permission), sandbox, máy ảo Dalvik, entropy, gain, true positive rate (TPR), false positive rate (FPR).

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Thu thập dữ liệu mẫu từ Google Play, Drebin, Contagio Mobile Malware, bao gồm cả ứng dụng lành tính và phần mềm độc hại.
- **Phương pháp phân tích**: Kết hợp phân tích tĩnh (đánh giá quyền ứng dụng, mã nguồn) và phân tích động (giám sát hành vi trong môi trường giả lập). Áp dụng thuật toán học máy J48 và hồi quy logistic để xây dựng mô hình phân loại.
- **Cỡ mẫu**: Khoảng 604 mẫu ứng dụng, trong đó 503 mẫu được phân loại chính xác, đạt tỷ lệ chính xác 83,28%.
- **Phương pháp chọn mẫu**: Lựa chọn ngẫu nhiên từ các nguồn dữ liệu công khai, đảm bảo đa dạng về loại ứng dụng và mức độ nguy hiểm.
- **Timeline nghiên cứu**: Nghiên cứu được thực hiện trong năm 2019, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, mô phỏng và đánh giá kết quả.

---

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả phân loại của thuật toán cây quyết định J48**: Mô hình đạt tỷ lệ phân loại chính xác 83,28%, với TPR (True Positive Rate) là 83,3%, cho thấy khả năng phát hiện phần mềm độc hại cao.
- **Thuật toán hồi quy logistic** cũng cho kết quả khả quan, hỗ trợ việc dự đoán mức độ an toàn của ứng dụng dựa trên các đặc trưng đầu vào.
- **Phân tích quyền ứng dụng** cho thấy các quyền nguy hiểm như truy cập danh bạ, ghi file, truy cập vị trí có liên quan mật thiết đến mức độ nguy hiểm của ứng dụng.
- **Phân tích động** phát hiện các hành vi bất thường như gửi tin nhắn trái phép, truy cập dữ liệu cá nhân mà không được phép, giúp tăng cường độ chính xác của mô hình.

### Thảo luận kết quả

Kết quả cho thấy việc kết hợp phân tích tĩnh và động cùng với mô hình học máy giúp nâng cao hiệu quả phát hiện phần mềm độc hại trên Android so với các phương pháp truyền thống chỉ dựa vào chữ ký. Tỷ lệ phát hiện chính xác trên 80% là mức đáng kể, phù hợp với các nghiên cứu trong ngành. Việc phân tích quyền ứng dụng cung cấp thông tin quan trọng để đánh giá mức độ rủi ro, đồng thời giúp người dùng có thể chủ động kiểm soát quyền truy cập.

Dữ liệu có thể được trình bày qua biểu đồ so sánh tỷ lệ phát hiện giữa các thuật toán, bảng confusion matrix thể hiện số lượng mẫu đúng và sai phân loại, giúp minh họa rõ ràng hiệu quả mô hình.

---

## Đề xuất và khuyến nghị

- **Triển khai hệ thống đánh giá tự động** dựa trên mô hình học máy để phân tích và cảnh báo mức độ an toàn của ứng dụng trước khi cài đặt, nhằm giảm thiểu rủi ro cho người dùng.
- **Tăng cường kiểm soát quyền ứng dụng** trên nền tảng Android, đặc biệt với các quyền nguy hiểm, nhằm hạn chế việc ứng dụng truy cập trái phép dữ liệu cá nhân.
- **Phát triển phần mềm bảo mật tích hợp phân tích hành vi động** để phát hiện sớm các phần mềm độc hại mới, nâng cao hiệu quả bảo vệ thiết bị.
- **Đào tạo người dùng nâng cao nhận thức về an toàn bảo mật** khi tải và cài đặt ứng dụng, tránh các nguồn không rõ ràng và kiểm tra kỹ quyền truy cập.
- **Thời gian thực hiện**: Các giải pháp nên được triển khai trong vòng 1-2 năm tới, phối hợp giữa nhà phát triển hệ điều hành, nhà cung cấp ứng dụng và người dùng cuối.

---

## Đối tượng nên tham khảo luận văn

- **Nhà phát triển phần mềm bảo mật**: Áp dụng mô hình học máy để phát triển các công cụ phát hiện phần mềm độc hại hiệu quả hơn.
- **Các nhà nghiên cứu trong lĩnh vực an toàn thông tin**: Tham khảo phương pháp kết hợp phân tích tĩnh, động và học máy để mở rộng nghiên cứu.
- **Nhà quản lý và chính sách công nghệ thông tin**: Sử dụng kết quả nghiên cứu để xây dựng chính sách kiểm soát quyền ứng dụng và bảo vệ người dùng.
- **Người dùng smartphone và doanh nghiệp**: Nâng cao nhận thức về an toàn bảo mật, lựa chọn ứng dụng an toàn, bảo vệ dữ liệu cá nhân.

---

## Câu hỏi thường gặp

1. **Phân tích tĩnh và phân tích động khác nhau như thế nào?**  
Phân tích tĩnh đánh giá mã nguồn và quyền ứng dụng mà không chạy ứng dụng, trong khi phân tích động giám sát hành vi ứng dụng khi chạy trong môi trường giả lập để phát hiện hành vi bất thường.

2. **Tại sao cần kết hợp cả hai phương pháp phân tích?**  
Kết hợp giúp phát hiện đầy đủ hơn các phần mềm độc hại, phân tích tĩnh nhanh và tiết kiệm tài nguyên, phân tích động phát hiện hành vi phức tạp mà phân tích tĩnh không thấy được.

3. **Mô hình học máy nào được sử dụng trong nghiên cứu?**  
Thuật toán cây quyết định J48 và hồi quy logistic được sử dụng để phân loại ứng dụng dựa trên các đặc trưng như risk-score và protection-score.

4. **Làm thế nào để người dùng kiểm soát quyền ứng dụng trên Android?**  
Từ Android 6.0 trở lên, người dùng có thể cấp hoặc thu hồi quyền truy cập từng ứng dụng qua phần cài đặt Permissions, giúp kiểm soát tốt hơn quyền truy cập dữ liệu.

5. **Mức độ chính xác của mô hình học máy trong nghiên cứu là bao nhiêu?**  
Mô hình cây quyết định đạt tỷ lệ phân loại chính xác khoảng 83,28%, cho thấy hiệu quả cao trong việc phát hiện phần mềm độc hại.

---

## Kết luận

- Luận văn đã xây dựng thành công mô hình phân tích mức độ an toàn của ứng dụng Android dựa trên học máy, kết hợp phân tích tĩnh và động.  
- Mô hình cây quyết định J48 đạt tỷ lệ phân loại chính xác trên 83%, hỗ trợ phát hiện phần mềm độc hại hiệu quả.  
- Phân tích quyền ứng dụng là yếu tố quan trọng trong đánh giá mức độ nguy hiểm của ứng dụng.  
- Kết quả nghiên cứu góp phần nâng cao bảo mật cho người dùng smartphone, giảm thiểu rủi ro mất dữ liệu cá nhân.  
- Đề xuất triển khai hệ thống đánh giá tự động và tăng cường kiểm soát quyền ứng dụng trong thời gian tới để bảo vệ người dùng tốt hơn.

Hành động tiếp theo là phát triển phần mềm ứng dụng mô hình này vào thực tế, đồng thời nâng cao nhận thức người dùng về an toàn bảo mật khi sử dụng thiết bị di động.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ AN TOÀN BẢO MẬT TRÊN HỆ ĐIỀU HÀNH ANDROID Android là một hệ điều hành có mã nguồn mở dựa trên nền tảng Linux được thiết kế dành cho các thiết bị di động có màn hình cảm ứng như điện thoại thông minh và máy tính bảng (của Samsung, LG, HTC, Motorola …). Ngôn ngữ chính thức để phát triển Android là Java. Phần lớn Android được viết bằng Java và các hàm API của nó được thiết kế để được gọi chủ yếu từ Java. Logo Android Ban đầu, Android được phát triển bởi Tổng công ty Android, với sự hỗ trợ tài chính từ Google, sau này được Google mua lại vào năm 2005.

Vào ngày 5 tháng 11 năm 2007, hệ điều hành Android chính thức ra mắt. Hệ quả là sự thành lập của liên minh thiết bị cầm tay mã nguồn mở, bao gồm 78 công ty phần cứng, phần mềm và viễn thông nhằm mục đính tạo nên một chuẩn mở cho điện thoại di động trong tương lai. Chiếc điện thoại đầu tiên chạy Android là HTC Dream được bán vào ngày 22 tháng 10 năm 2008. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.1 Kiến trúc hệ điều hành Android Để nghiên cứu được về sự an toàn bảo mật trên hệ điều hành Android, trước tiên ta cần phải nắm được kiến trúc hệ điều hành này.

Từ đó có thể hiểu sâu hơn về hệ điều hành Android và nghiên cứu các mặt khác trong hệ điều hành dành cho đa số điện thoại thông minh này. Trong chương này, chúng ta sẽ tập trung vào nghiên cứu kiến trúc hệ thống cấp thấp Android và các thành phần bên trong. Dưới đây là sơ đồ mô tả nền tảng và kiến trúc hệ thống Android (Hình 1. Hệ thống gồm 5 phần, 4 lớp.

Mỗi phân vùng được đại diện bằng 1 màu. Vùng màu đỏ nằm ở lớp cuối cùng, đây là lớp Linux. Lớp này cung cấp 1 cập độ trừu tượng giữa phần cứng của thiết bị và các thành trình điều khiển phần cứng thiết yếu như máy ảnh, bàn phím, màn hình hiển thị … Vùng thứ hai là vùng màu xanh lá cây, bao gồm tập các thứ viện viết bằng ngôn ngữ C hoặc C++ như WebKit, libc, SQLite, …. Cùng một lớp với vùng này, là phần Android Runtime (Tiến trình Android).

Phần này cung cấp 1 bộ phận quan trọng là Dalvik Virtual Machine - là 1 loại Java Virtual Machine được thiết kế đặc biệt để tối ưu cho Android. Ngoài ra, nó cũng cung cấp 1 tập các thư viện chính giúp các nhà phát triển ứng dụng Android có thể viết ứng dụng Android bằng Java. Vùng màu xanh lam gồm hai lớp trên cùng, vùng này đại diện cho các ứng dụng cài đặt trên điện thoại cũng như các dịch vụ được cung cấp cho những ứng dụng đó. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.1:Sơ đồ kiến trúc hệ thống cấp thấp Android Các phần dưới đây sẽ phân tích kỹ hơn về từng phần trong hệ thống Android để làm rõ hơn về cấu trúc và chức năng của mỗi phần.1 Tầng hạt nhân Linux (Linux Kernel) Mã nguồn của Linux được sử dụng trong nhiều hệ điều hành mã nguồn mở như Ubuntu, Fedora, OpenSUSE,… Mã nguồn Linux là mã nguồn cho phép mọi người sử dụng mà không phải trả phí bản quyền, bên cạnh đó người dùng được phép tùy ý sửa chữa theo ý mình thích.

Giống các hệ điều hành trên, Android sử dụng một phiên bản đặc biệt của hạt nhân Linux với một vài bổ sung, thay đổi đặc biệt để phù hợp chạy trên điện thoại, từ đó tạo nên những chiếc điện thoại thông minh. Tầng hạt nhân Linux là tầng nằm dưới cùng trong kiến trúc hệ thống Android, có trách nhiệm quản lý tất cả các hoạt động của điện thoại:  Quản lý bộ nhớ điện thoại.  Giao tiếp với phần cứng.  Thực hiện bảo mật.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.vn 9  Quản lý tiến trình. Các thành phần chủ yếu trong tầng hạt nhân Linux:  Trình điều khiển hiện thị (Display Driver): điều khiển hiện thị trên màn hình điện thoại, cũng như thu nhận tín hiệu điệu khiển của người dùng thông qua màn hình cảm ứng.  Trình điều khiển máy ảnh (Camera Driver): Điều khiển hoạt động của máy ảnh và nhận dữ liệu từ máy ảnh.  Trình điều khiển bộ nhớ Flash (Flash Memory Driver): Quản lý việc đọc ghi dữ liệu lên bộ nhớ flash.

 Trình điều khiển kết nối mạng (Blinder (IPC) Driver): Chịu trách nhiệm về kết nối liên lạc mạng vô tuyến như CDMA, GSM, 3G, 4G, E để đảm bảo chức năng truyền thông của điện thoại.  Trình điều khiển bàn phím (Keypad Driver): Điều khiển bàn phím.  Trình điều khiển mạng wifi (Wifi Driver): Điều khiển hoạt động thu phát sóng wifi.  Trình điều khiển âm thành (Audio Driver): Điều khiển hoạt động thu phát âm thanh, giải mã từ các tín hiệu âm thanh sang tín hiệu số để ghi và từ tín hiệu số sang tín hiệu âm thanh để phát.

 Trình quản lý hiệu năng (Power Management): Giám sát và quản lý tiêu thụ điện năng.2 Tầng Thư viện (Libraries) và Tiến trình Android (Android Runtime) a) Tầng Thư viện (Libraries) Thư viện nằm trong phân vùng màu xanh lá cây của kiến trúc hệ thống Android. Vùng Thư viện chứa tất cả các thư viện cơ sở của hệ điều hành Android. Như đã nói ở trên, các thư viên này được viết bằng ngôn ngữ lập trình C hoặc C++. Bằng những định nghĩa có sẵn trong các thư viện, phần mềm có thể dễ dàng sử dụng để hoạt động trên hệ điều hành Android.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.vn 10 Các thư viện trong phân vùng này được chia làm nhiều nhóm thư viên, mỗi nhóm cùng định nghĩa cho một loại thư viện khác nhau.  Thư viện hệ thống (System C Library): đây là nhóm thư viện được viết theo chuẩn C. Nhóm thư viện này được thiết kế cho hệ điều hành và chỉ duy nhất hệ điều hành sử dụng nó.  Thư viện phương tiện truyền thông (Media Libraries): nhóm thư viện này hỗ trợ việc phát hoặc ghi các tập tin.

 Thư viện đồ họa 2D và 3D: Nhóm này hỗ trợ về vấn đề đồ họa. Trong Android, với OpenGL Lib, bạn có thẻ kết hợp cả 2D và 3D trong một giao diện người dùng.  Thư viện cơ sở dữ liệu SQL: Hỗ trợ về việc lưu trữ và sử dụng các cơ sở dữ liệu. Hệ điều hành Android có một công cụ cơ sở dữ liệu có tên là SQLite, công cụ này cho phép bạn sử dụng để lưu trữ dữ liệu về ứng dụng.

 Thư viện Web: Đây là một thư viện quan trong, nó giúp các thiết bị di dộng có thể hiện thị nhanh chóng các trang web gồm nhiều phần được viết với ngôn ngữ khác nhau như HTML, Java Script, CSS, … Để làm được điều này, hệ điều hành Android sử dụng thư viện Web Kit, giống với thư viện sử dụng trên Google Chrome và Safari. b) Tiến trình Android (Android Runtime) Như đã nói ở trên, trong hệ điều hành Android, để chạy một ứng dụng trên Android bạn cần sử dụng máy ảo Dalvik. Quá trình chạy Android chính là phần chứa máy ảo Dalvik và các thư viện giúp các chương trình viết bằng ngôn ngữ Java có thể hoạt động trên điện thoại. Để làm được điều này, Quá trình chạy Android chứa hai phần chính:  Thư viện lõi (Core Libraries) : gồm các lớp JavaIO, collections, File access.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.vn 11  Máy ảo Java : máy ảo được sử dụng trong hệ điều hành Android chính là máy ảo Dalvik. Chúng ta sẽ nói rõ hơn về máy ảo Dalvik vào phần sau.3 Tầng Khung ứng dụng (Application Framework) Tầng Khung ứng dụng cung cấp các dịch vụ cấp độ cao hơn cho các ứng dụng dưới dạng các lớp Java. Nói theo cách khác, các thành phần trong tầng này đều được viết bằng ngôn ngữ Java. Với tầng Khung ứng dụng của Android, các lập trình viên có thể dễ dàng sử dụng và xây dựng những ứng dụng cho điện thoại.

Có được điều đó bởi vì tầng này cung cấp các khối xây dựng mức độ cao, giúp hỗ trợ tạo nên các ứng dụng trong các dạng gói Android khác nhau. Hầu hết các phần trong tầng khung ứng dụng được thực thi như các ứng dụng và được chạy như các tiến trình nền trên thiết bị điện thoại. Tầng này có nhiệm vụ quản lý các chức năng cơ bản như thực hiện cuộc gọi, nhận cuộc gọi, gửi và nhận tin nhắn và giám sát hiệu năng sử dụng. Bên cạnh đó, ở đây còn có một số thành phần nắm giữ những chức năng đáng chú ý khác:  Khối quản lý hoạt động (Activity Manager – AM): AM kiểm soát tất cả khía cạnh của vòng đời ứng dụng và ngăn xếp các Activity.

Khối quản lý giúp hệ điều hành có thể quản lý các tiến trình bằng cách theo dõi các ứng dụng đang hoạt động. Cùng với đó, AM thực hiện đóng các tiến trình nền nếu thiết bị hết bộ nhớ. Trong khi theo dõi các ứng dụng, AM có thể phát hiện ra các ứng dụng không phản hồi với một tác động đầu vào trong 5 giây, AM sẽ quyết định đó là một Ứng dụng không phản hồi và sẽ có trách nhiệm tả về một hộp thoại nhắc nhở người dùng có một ứng dụng không phản hồi. Đồng thời, nó cho phép người dùng lựa chọn đóng ứng dụng hoặc đợi ứng dụng phản hồi (Hình 1.2) Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.2: Hộp thoại ứng dụng không phản hồi  Khối cung cấp nội dung (Content providers) : Đây là một khối xây dưng cơ bản của tầng khung ứng dụng.

Khối này có trách nhiệm giúp chia sẻ dữ liệu giữa các ứng dụng với nhau, giúp cùng một dữ liệu có thể được truy cập bởi nhiều ứng dụng. Mặc dù phải tạo ra một nơi để lưu trữ dữ liệu để cung cấp nội dung, nhưng giúp cho giảm đáng kể bộ nhớ cần sử dụng.  Khối quản lý tài nguyên (Resource Manager) : Cung cấp quyền truy cập vào các tài nguyên như các chuỗi, màu sắc, các layout giao diện người dùng.  Khối quản lý thông báo (Notifications Manager) : Cho phép các ứng dụng hiển thị thông báo các sự kiện.

Đây là hình thức truyền tải cho người dùng biết những thông tin, hoạt động chạy nền đang xảy ra. Có rất nhiều kiểu thông báo, bao gồm : đèn nháy, chế độ rung, âm thanh hay những thanh báo hiện thị trên màn hình (Hình 1. Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN http://lrc.3: Vị trí điện thoại được cung cấp cho google map 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân Tích An Toàn Ứng Dụng Android Dựa Trên Học Máy" cung cấp cái nhìn sâu sắc về cách thức áp dụng các kỹ thuật học máy để phân tích và cải thiện an toàn cho các ứng dụng Android. Bài viết nhấn mạnh tầm quan trọng của việc phát hiện và ngăn chặn các lỗ hổng bảo mật, đồng thời giới thiệu các phương pháp học máy hiệu quả trong việc nhận diện các mối đe dọa tiềm ẩn. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng các kỹ thuật này, giúp nâng cao khả năng bảo vệ dữ liệu và thông tin cá nhân trong môi trường di động ngày càng phức tạp.

Để mở rộng thêm kiến thức về bảo mật ứng dụng, bạn có thể tham khảo tài liệu Tìm hiểu cơ chế bảo mật của ứng dụng telegram luận văn thạc sĩ, nơi cung cấp cái nhìn chi tiết về các biện pháp bảo mật trong một ứng dụng phổ biến. Ngoài ra, tài liệu Báo cáo thực tập tốt nghiệp nghiên cứu kỹ thuật sql injection trong tấn công lỗ hổng bảo mật website sẽ giúp bạn hiểu rõ hơn về các kỹ thuật tấn công và cách phòng ngừa. Cuối cùng, tài liệu Phát hiện tấn công mạng dựa trên nền tảng xử lý dữ liệu lớn sẽ cung cấp thêm thông tin về các phương pháp phát hiện tấn công mạng hiện đại. Những tài liệu này sẽ là nguồn tài nguyên quý giá để bạn nâng cao hiểu biết về an toàn thông tin.

#bảo mật ứng dụng di động

#công nghệ học máy

#phát hiện lỗ hổng bảo mật

#học máy trong bảo mật

#học máy và an ninh mạng

#an toàn ứng dụng Android

Chủ đề

Bảo mật ứng dụng di động

Phân tích lỗ hổng bảo mật

học máy trong an ninh mạng

Xu hướng bảo mật ứng dụng Android