## Tổng quan nghiên cứu
Trong bối cảnh công nghệ số phát triển mạnh mẽ, smartphone trở thành thiết bị không thể thiếu trong cuộc sống hiện đại. Theo báo cáo của Kaspersky, năm 2012 số lượng phần mềm độc hại trên nền tảng Android tăng hơn 8 lần so với năm trước, với trung bình 6.300 mẫu phần mềm độc hại mới mỗi tháng. Đến năm 2016, số lượng malware trên thiết bị di động đã vượt mốc 2 triệu mẫu. Điều này đặt ra thách thức lớn về an toàn bảo mật cho người dùng Android khi các phần mềm độc hại ngày càng tinh vi, có khả năng vượt qua các rào cản bảo mật của Google để thu thập thông tin cá nhân hoặc gây hại cho thiết bị.
Luận văn tập trung nghiên cứu phương pháp phân tích mức độ an toàn của ứng dụng Android dựa trên học máy, nhằm phát hiện và đánh giá các phần mềm độc hại một cách hiệu quả hơn so với các phương pháp truyền thống dựa trên chữ ký. Mục tiêu cụ thể là xây dựng mô hình học máy kết hợp phân tích tĩnh và động để đánh giá mức độ đáng tin cậy của ứng dụng, giúp người dùng tránh cài đặt các phần mềm nguy hiểm.
Phạm vi nghiên cứu tập trung vào các ứng dụng trên nền tảng Android, sử dụng dữ liệu thu thập từ các nguồn công khai như Google Play, Drebin và Contagio Mobile Malware. Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao bảo mật cho thiết bị di động, góp phần giảm thiểu rủi ro mất an toàn thông tin cá nhân và bảo vệ người dùng trước các mối đe dọa ngày càng gia tăng.
---
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
- **Kiến trúc hệ điều hành Android**: Bao gồm 5 phần chính từ tầng hạt nhân Linux, thư viện hệ thống, tiến trình Android Runtime, khung ứng dụng đến tầng ứng dụng. Hiểu rõ kiến trúc này giúp phân tích các điểm yếu bảo mật và cách thức ứng dụng tương tác với hệ thống.
- **Học máy (Machine Learning)**: Tập trung vào hai kỹ thuật chính là học có giám sát và học phi giám sát. Trong đó, học có giám sát được sử dụng để phân loại ứng dụng độc hại dựa trên dữ liệu đã gán nhãn.
- **Thuật toán cây quyết định J48**: Thuật toán phân nhóm dựa trên nguyên tắc entropy và gain, giúp phân loại chính xác các ứng dụng dựa trên các đặc trưng như risk-score và protection-score.
- **Thuật toán hồi quy logistic**: Phân tích mối quan hệ giữa biến độc lập và biến nhị phân để dự đoán khả năng ứng dụng là độc hại hay không.
- **Phân tích tĩnh và động**: Phân tích tĩnh dựa trên mã nguồn và quyền ứng dụng, phân tích động theo dõi hành vi ứng dụng trong môi trường giả lập để phát hiện các hành vi bất thường.
Các khái niệm chính bao gồm: quyền ứng dụng (permission), sandbox, máy ảo Dalvik, entropy, gain, true positive rate (TPR), false positive rate (FPR).
### Phương pháp nghiên cứu
- **Nguồn dữ liệu**: Thu thập dữ liệu mẫu từ Google Play, Drebin, Contagio Mobile Malware, bao gồm cả ứng dụng lành tính và phần mềm độc hại.
- **Phương pháp phân tích**: Kết hợp phân tích tĩnh (đánh giá quyền ứng dụng, mã nguồn) và phân tích động (giám sát hành vi trong môi trường giả lập). Áp dụng thuật toán học máy J48 và hồi quy logistic để xây dựng mô hình phân loại.
- **Cỡ mẫu**: Khoảng 604 mẫu ứng dụng, trong đó 503 mẫu được phân loại chính xác, đạt tỷ lệ chính xác 83,28%.
- **Phương pháp chọn mẫu**: Lựa chọn ngẫu nhiên từ các nguồn dữ liệu công khai, đảm bảo đa dạng về loại ứng dụng và mức độ nguy hiểm.
- **Timeline nghiên cứu**: Nghiên cứu được thực hiện trong năm 2019, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, mô phỏng và đánh giá kết quả.
---
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Hiệu quả phân loại của thuật toán cây quyết định J48**: Mô hình đạt tỷ lệ phân loại chính xác 83,28%, với TPR (True Positive Rate) là 83,3%, cho thấy khả năng phát hiện phần mềm độc hại cao.
- **Thuật toán hồi quy logistic** cũng cho kết quả khả quan, hỗ trợ việc dự đoán mức độ an toàn của ứng dụng dựa trên các đặc trưng đầu vào.
- **Phân tích quyền ứng dụng** cho thấy các quyền nguy hiểm như truy cập danh bạ, ghi file, truy cập vị trí có liên quan mật thiết đến mức độ nguy hiểm của ứng dụng.
- **Phân tích động** phát hiện các hành vi bất thường như gửi tin nhắn trái phép, truy cập dữ liệu cá nhân mà không được phép, giúp tăng cường độ chính xác của mô hình.
### Thảo luận kết quả
Kết quả cho thấy việc kết hợp phân tích tĩnh và động cùng với mô hình học máy giúp nâng cao hiệu quả phát hiện phần mềm độc hại trên Android so với các phương pháp truyền thống chỉ dựa vào chữ ký. Tỷ lệ phát hiện chính xác trên 80% là mức đáng kể, phù hợp với các nghiên cứu trong ngành. Việc phân tích quyền ứng dụng cung cấp thông tin quan trọng để đánh giá mức độ rủi ro, đồng thời giúp người dùng có thể chủ động kiểm soát quyền truy cập.
Dữ liệu có thể được trình bày qua biểu đồ so sánh tỷ lệ phát hiện giữa các thuật toán, bảng confusion matrix thể hiện số lượng mẫu đúng và sai phân loại, giúp minh họa rõ ràng hiệu quả mô hình.
---
## Đề xuất và khuyến nghị
- **Triển khai hệ thống đánh giá tự động** dựa trên mô hình học máy để phân tích và cảnh báo mức độ an toàn của ứng dụng trước khi cài đặt, nhằm giảm thiểu rủi ro cho người dùng.
- **Tăng cường kiểm soát quyền ứng dụng** trên nền tảng Android, đặc biệt với các quyền nguy hiểm, nhằm hạn chế việc ứng dụng truy cập trái phép dữ liệu cá nhân.
- **Phát triển phần mềm bảo mật tích hợp phân tích hành vi động** để phát hiện sớm các phần mềm độc hại mới, nâng cao hiệu quả bảo vệ thiết bị.
- **Đào tạo người dùng nâng cao nhận thức về an toàn bảo mật** khi tải và cài đặt ứng dụng, tránh các nguồn không rõ ràng và kiểm tra kỹ quyền truy cập.
- **Thời gian thực hiện**: Các giải pháp nên được triển khai trong vòng 1-2 năm tới, phối hợp giữa nhà phát triển hệ điều hành, nhà cung cấp ứng dụng và người dùng cuối.
---
## Đối tượng nên tham khảo luận văn
- **Nhà phát triển phần mềm bảo mật**: Áp dụng mô hình học máy để phát triển các công cụ phát hiện phần mềm độc hại hiệu quả hơn.
- **Các nhà nghiên cứu trong lĩnh vực an toàn thông tin**: Tham khảo phương pháp kết hợp phân tích tĩnh, động và học máy để mở rộng nghiên cứu.
- **Nhà quản lý và chính sách công nghệ thông tin**: Sử dụng kết quả nghiên cứu để xây dựng chính sách kiểm soát quyền ứng dụng và bảo vệ người dùng.
- **Người dùng smartphone và doanh nghiệp**: Nâng cao nhận thức về an toàn bảo mật, lựa chọn ứng dụng an toàn, bảo vệ dữ liệu cá nhân.
---
## Câu hỏi thường gặp
1. **Phân tích tĩnh và phân tích động khác nhau như thế nào?**
Phân tích tĩnh đánh giá mã nguồn và quyền ứng dụng mà không chạy ứng dụng, trong khi phân tích động giám sát hành vi ứng dụng khi chạy trong môi trường giả lập để phát hiện hành vi bất thường.
2. **Tại sao cần kết hợp cả hai phương pháp phân tích?**
Kết hợp giúp phát hiện đầy đủ hơn các phần mềm độc hại, phân tích tĩnh nhanh và tiết kiệm tài nguyên, phân tích động phát hiện hành vi phức tạp mà phân tích tĩnh không thấy được.
3. **Mô hình học máy nào được sử dụng trong nghiên cứu?**
Thuật toán cây quyết định J48 và hồi quy logistic được sử dụng để phân loại ứng dụng dựa trên các đặc trưng như risk-score và protection-score.
4. **Làm thế nào để người dùng kiểm soát quyền ứng dụng trên Android?**
Từ Android 6.0 trở lên, người dùng có thể cấp hoặc thu hồi quyền truy cập từng ứng dụng qua phần cài đặt Permissions, giúp kiểm soát tốt hơn quyền truy cập dữ liệu.
5. **Mức độ chính xác của mô hình học máy trong nghiên cứu là bao nhiêu?**
Mô hình cây quyết định đạt tỷ lệ phân loại chính xác khoảng 83,28%, cho thấy hiệu quả cao trong việc phát hiện phần mềm độc hại.
---
## Kết luận
- Luận văn đã xây dựng thành công mô hình phân tích mức độ an toàn của ứng dụng Android dựa trên học máy, kết hợp phân tích tĩnh và động.
- Mô hình cây quyết định J48 đạt tỷ lệ phân loại chính xác trên 83%, hỗ trợ phát hiện phần mềm độc hại hiệu quả.
- Phân tích quyền ứng dụng là yếu tố quan trọng trong đánh giá mức độ nguy hiểm của ứng dụng.
- Kết quả nghiên cứu góp phần nâng cao bảo mật cho người dùng smartphone, giảm thiểu rủi ro mất dữ liệu cá nhân.
- Đề xuất triển khai hệ thống đánh giá tự động và tăng cường kiểm soát quyền ứng dụng trong thời gian tới để bảo vệ người dùng tốt hơn.
Hành động tiếp theo là phát triển phần mềm ứng dụng mô hình này vào thực tế, đồng thời nâng cao nhận thức người dùng về an toàn bảo mật khi sử dụng thiết bị di động.