I. Giới thiệu tổng quan về đề tài
Luận văn thạc sĩ CNTT tập trung vào phân loại Android Malware bằng cách sử dụng giá trị thanh ghi. Với sự phát triển mạnh mẽ của công nghệ thông tin, các mối đe dọa từ phần mềm độc hại ngày càng tăng. Android, nền tảng di động phổ biến, trở thành mục tiêu chính của các cuộc tấn công. Luận văn đề xuất phương pháp phân tích malware dựa trên hệ thống thanh ghi, cụ thể là thanh ghi RAX, để xác định và phân loại malware một cách hiệu quả.
1.1. Đặt vấn đề
Sự gia tăng của Android Malware đặt ra yêu cầu cấp thiết về các phương pháp phân loại malware hiệu quả. Phân tích malware truyền thống dựa trên cơ sở dữ liệu mẫu không thể đáp ứng được các biến thể mới. Luận văn đề xuất sử dụng giá trị thanh ghi để phân loại malware, đặc biệt là thanh ghi RAX, nhằm nâng cao độ chính xác và tự động hóa quá trình phân tích.
1.2. Mục đích nghiên cứu
Mục tiêu chính của luận văn là phát triển một phương pháp phân loại malware dựa trên giá trị thanh ghi. Sử dụng công cụ Radare2 để hợp dịch ngược và trích xuất giá trị thanh ghi RAX. Phương pháp phân tích động được áp dụng để giám sát hành vi của malware trong quá trình thực thi. Kết quả được sử dụng để huấn luyện mô hình học máy, mở rộng khả năng phát hiện malware mới.
II. Phương pháp phân tích malware
Luận văn đề cập đến ba phương pháp chính trong phân tích malware: phân tích tĩnh, phân tích động và phân tích kết hợp. Mỗi phương pháp có ưu nhược điểm riêng, phù hợp với các tình huống khác nhau. Phân tích tĩnh nhanh và rẻ nhưng không hiệu quả với malware mã hóa. Phân tích động giám sát hành vi thời gian thực nhưng tốn thời gian. Phân tích kết hợp kết hợp cả hai phương pháp nhưng đòi hỏi nhiều tài nguyên.
2.1. Phân tích tĩnh
Phân tích tĩnh được thực hiện khi ứng dụng không chạy. Phương pháp này thu thập thông tin từ mã nguồn, tệp tin và các quyền truy cập. Ưu điểm là nhanh chóng và không yêu cầu thực thi ứng dụng. Tuy nhiên, nó không hiệu quả với malware sử dụng kỹ thuật mã hóa hoặc làm rối mã.
2.2. Phân tích động
Phân tích động giám sát hành vi của ứng dụng trong quá trình thực thi. Phương pháp này phát hiện được các malware phức tạp và biến thể mới. Tuy nhiên, nó đòi hỏi thời gian và kiến thức chuyên sâu về malware. Luận văn sử dụng phân tích động để trích xuất giá trị thanh ghi và phân loại malware.
III. Phân loại malware dựa trên giá trị thanh ghi
Luận văn đề xuất phương pháp phân loại malware dựa trên giá trị thanh ghi, đặc biệt là thanh ghi RAX. Sử dụng công cụ Radare2 để hợp dịch ngược và trích xuất giá trị thanh ghi. Chỉ số tương đồng Jaccard được tính toán để xác định mẫu thử có phải là malware hay không. Kết quả được sử dụng để huấn luyện mô hình học máy, nâng cao khả năng phát hiện malware mới.
3.1. Công cụ Radare2
Radare2 là công cụ hợp dịch ngược mạnh mẽ, được sử dụng để phân tích và trích xuất giá trị thanh ghi. Luận văn sử dụng Radare2 để hợp dịch ngược tệp APK và giám sát giá trị thanh ghi RAX trong quá trình thực thi. Các lệnh cơ bản của Radare2 được sử dụng để phân tích động và trích xuất dữ liệu.
3.2. Thuật toán học máy
Luận văn áp dụng các thuật toán học máy như SVM, Random Forest và KNN để phân loại malware. Chỉ số tương đồng Jaccard được tính toán giữa mẫu thử và cơ sở dữ liệu để xác định loại malware. Kết quả phân loại được sử dụng để huấn luyện mô hình, nâng cao khả năng phát hiện malware mới.
IV. Mô hình thực nghiệm và kết quả
Luận văn trình bày mô hình thực nghiệm để phân loại malware dựa trên giá trị thanh ghi. Mô hình bao gồm các bước: trích xuất giá trị thanh ghi, tính toán chỉ số tương đồng Jaccard, và huấn luyện mô hình học máy. Kết quả thực nghiệm cho thấy phương pháp này đạt độ chính xác cao trong việc phân loại malware.
4.1. Mô hình đề xuất
Mô hình đề xuất bao gồm các bước: hợp dịch ngược tệp APK, trích xuất giá trị thanh ghi, tính toán chỉ số tương đồng Jaccard, và huấn luyện mô hình học máy. Mô hình được thực hiện trong môi trường máy ảo để đảm bảo an toàn và hiệu quả.
4.2. Kết quả thực nghiệm
Kết quả thực nghiệm cho thấy phương pháp phân loại malware dựa trên giá trị thanh ghi đạt độ chính xác cao. Mô hình học máy được huấn luyện trên cơ sở dữ liệu CIC-AndMal2017 cho kết quả phân loại chính xác các mẫu malware mới.