Luận văn thạc sĩ công nghệ thông tin: Phân loại Android Malware dựa vào giá trị thanh ghi

Luận văn thạc sĩ công nghệ thông tin tập trung phân loại Android malware dựa trên giá trị thanh ghi, đề xuất phương pháp hiệu quả nhằm nâng cao khả năng phát hiện và ngăn chặn m...

Trường đại học

Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

CÁC TỪ VIẾT TẮT

DANH MỤC HÌNH

DANH MỤC BẢNG

1. CHƯƠNG I: GIỚI THIỆU TỔNG QUAN

1.1. Đặt vấn đề

1.2. Mục đích nghiên cứu

1.3. Tìm hiểu các phương pháp phân tích mã độc

1.3.1. Phân tích tĩnh

1.3.2. Phân tích động

1.3.3. Phân tích kết hợp

1.4. Đối tượng, phạm vi nghiên cứu

1.5. Phương pháp dự định nghiên cứu

1.6. Tính khoa học và tính mới của đề tài

1.6.1. Tính khoa học

1.6.2. Tính mới

2. CHƯƠNG II: CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Nghiên cứu trong nước

2.2. Nghiên cứu ngoài nước

3. CHƯƠNG III: PHÂN LOẠI MÃ ĐỘC ANDROID DỰA TRÊN GIÁ TRỊ THANH GHI

3.1. Công cụ hợp dịch ngược Radare2

3.1.1. Giới thiệu về Radare2

3.1.2. Định dạng và một số lệnh cơ bản của Radare2

3.1.3. Định dạng lệnh và khái quát lệnh của Radare2

3.1.4. Một số lệnh cơ bản thường dùng phục vụ cho việc phân tích của Radare

3.1.5. Thiết lập kiến trúc hợp ngữ cho Radare2

3.1.6. Hợp dịch ngược file.apk với Radare2

3.1.7. Chế độ visual mode của Radare2

3.1.8. Thư viện r2pipe

3.2. Hệ điều hành Android và các loại Android malware

3.2.1. Giới thiệu về hệ điều hành Android

3.2.2. Các tính năng của hệ điều hành Android

3.2.3. Các phiên bản hệ điều hành Android

3.2.4. Kiến trúc của hệ điều hành Android

3.2.4.1. Tầng hạt nhân Linux (Linux Kernel layer)

3.2.4.2. Tầng Library và Android Runtime

3.2.4.3. Tầng Application Framework

3.3. Các loại Android Malware

3.3.1. Thuật toán xác định

3.3.2. Giám sát hành vi

3.3.3. Ma trận chỉ số tương đồng

3.3.4. Phần kết luận

4. CHƯƠNG IV: MÔ HÌNH THỰC NGHIỆM

4.1. Mô hình đề xuất thực hiện gồm các bước sau

4.1.1. Hệ thống gồm các khối như sau

4.2. Các bước thực hiện hệ thống

4.2.1. Chọn mẫu thử đầu vào dùng cho việc phân tích

4.3. Phân tích động với Radare2 và trích xuất giá trị thanh ghi RAX

4.4. Rút gọn mảng thanh ghi trích xuất

4.5. Phân tích filetest

4.5.1. Dữ liệu thực nghiệm

4.5.2. Chương trình thực nghiệm

4.5.3. Kết quả thực nghiệm

5. CHƯƠNG V: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu tổng quan về đề tài

Luận văn thạc sĩ CNTT tập trung vào phân loại Android Malware bằng cách sử dụng giá trị thanh ghi. Với sự phát triển mạnh mẽ của công nghệ thông tin, các mối đe dọa từ phần mềm độc hại ngày càng tăng. Android, nền tảng di động phổ biến, trở thành mục tiêu chính của các cuộc tấn công. Luận văn đề xuất phương pháp phân tích malware dựa trên hệ thống thanh ghi, cụ thể là thanh ghi RAX, để xác định và phân loại malware một cách hiệu quả.

1.1. Đặt vấn đề

Sự gia tăng của Android Malware đặt ra yêu cầu cấp thiết về các phương pháp phân loại malware hiệu quả. Phân tích malware truyền thống dựa trên cơ sở dữ liệu mẫu không thể đáp ứng được các biến thể mới. Luận văn đề xuất sử dụng giá trị thanh ghi để phân loại malware, đặc biệt là thanh ghi RAX, nhằm nâng cao độ chính xác và tự động hóa quá trình phân tích.

1.2. Mục đích nghiên cứu

Mục tiêu chính của luận văn là phát triển một phương pháp phân loại malware dựa trên giá trị thanh ghi. Sử dụng công cụ Radare2 để hợp dịch ngược và trích xuất giá trị thanh ghi RAX. Phương pháp phân tích động được áp dụng để giám sát hành vi của malware trong quá trình thực thi. Kết quả được sử dụng để huấn luyện mô hình học máy, mở rộng khả năng phát hiện malware mới.

II. Phương pháp phân tích malware

Luận văn đề cập đến ba phương pháp chính trong phân tích malware: phân tích tĩnh, phân tích động và phân tích kết hợp. Mỗi phương pháp có ưu nhược điểm riêng, phù hợp với các tình huống khác nhau. Phân tích tĩnh nhanh và rẻ nhưng không hiệu quả với malware mã hóa. Phân tích động giám sát hành vi thời gian thực nhưng tốn thời gian. Phân tích kết hợp kết hợp cả hai phương pháp nhưng đòi hỏi nhiều tài nguyên.

2.1. Phân tích tĩnh

Phân tích tĩnh được thực hiện khi ứng dụng không chạy. Phương pháp này thu thập thông tin từ mã nguồn, tệp tin và các quyền truy cập. Ưu điểm là nhanh chóng và không yêu cầu thực thi ứng dụng. Tuy nhiên, nó không hiệu quả với malware sử dụng kỹ thuật mã hóa hoặc làm rối mã.

2.2. Phân tích động

Phân tích động giám sát hành vi của ứng dụng trong quá trình thực thi. Phương pháp này phát hiện được các malware phức tạp và biến thể mới. Tuy nhiên, nó đòi hỏi thời gian và kiến thức chuyên sâu về malware. Luận văn sử dụng phân tích động để trích xuất giá trị thanh ghi và phân loại malware.

III. Phân loại malware dựa trên giá trị thanh ghi

Luận văn đề xuất phương pháp phân loại malware dựa trên giá trị thanh ghi, đặc biệt là thanh ghi RAX. Sử dụng công cụ Radare2 để hợp dịch ngược và trích xuất giá trị thanh ghi. Chỉ số tương đồng Jaccard được tính toán để xác định mẫu thử có phải là malware hay không. Kết quả được sử dụng để huấn luyện mô hình học máy, nâng cao khả năng phát hiện malware mới.

3.1. Công cụ Radare2

Radare2 là công cụ hợp dịch ngược mạnh mẽ, được sử dụng để phân tích và trích xuất giá trị thanh ghi. Luận văn sử dụng Radare2 để hợp dịch ngược tệp APK và giám sát giá trị thanh ghi RAX trong quá trình thực thi. Các lệnh cơ bản của Radare2 được sử dụng để phân tích động và trích xuất dữ liệu.

3.2. Thuật toán học máy

Luận văn áp dụng các thuật toán học máy như SVM, Random Forest và KNN để phân loại malware. Chỉ số tương đồng Jaccard được tính toán giữa mẫu thử và cơ sở dữ liệu để xác định loại malware. Kết quả phân loại được sử dụng để huấn luyện mô hình, nâng cao khả năng phát hiện malware mới.

IV. Mô hình thực nghiệm và kết quả

Luận văn trình bày mô hình thực nghiệm để phân loại malware dựa trên giá trị thanh ghi. Mô hình bao gồm các bước: trích xuất giá trị thanh ghi, tính toán chỉ số tương đồng Jaccard, và huấn luyện mô hình học máy. Kết quả thực nghiệm cho thấy phương pháp này đạt độ chính xác cao trong việc phân loại malware.

4.1. Mô hình đề xuất

Mô hình đề xuất bao gồm các bước: hợp dịch ngược tệp APK, trích xuất giá trị thanh ghi, tính toán chỉ số tương đồng Jaccard, và huấn luyện mô hình học máy. Mô hình được thực hiện trong môi trường máy ảo để đảm bảo an toàn và hiệu quả.

4.2. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy phương pháp phân loại malware dựa trên giá trị thanh ghi đạt độ chính xác cao. Mô hình học máy được huấn luyện trên cơ sở dữ liệu CIC-AndMal2017 cho kết quả phân loại chính xác các mẫu malware mới.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phân loại android malware dựa vào giá trị thanh ghi

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và Internet toàn cầu, các mối đe dọa về an toàn thông tin ngày càng trở nên nghiêm trọng và phức tạp, trong đó mã độc (malware) là một trong những nguy cơ hàng đầu. Theo thống kê của ngành an ninh mạng, năm 2017 tại Việt Nam có khoảng 15 triệu máy tính bị nhiễm mã độc, gây thiệt hại ước tính lên đến hàng chục tỷ đồng. Đặc biệt, với sự phổ biến của hệ điều hành Android chiếm khoảng 75% thị phần toàn cầu vào cuối năm 2020, việc phát hiện và phân loại malware trên nền tảng này trở thành nhiệm vụ cấp thiết. Android với hơn 1 triệu ứng dụng trên Google Play và gần một triệu ứng dụng bên thứ ba, cùng với hơn 20.000 ứng dụng mới được phát hành mỗi tháng, tạo ra thách thức lớn trong việc kiểm soát mã độc.

Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp phân loại malware Android dựa trên giá trị thanh ghi RAX trong quá trình phân tích động, kết hợp với thuật toán học máy và chỉ số tương đồng Jaccard để nâng cao độ chính xác và khả năng phát hiện malware mới. Phạm vi nghiên cứu tập trung vào hệ điều hành Android, sử dụng bộ dữ liệu CIC-AndMal2017 với hơn 10.500 ứng dụng (bao gồm cả malware và ứng dụng lành tính) thu thập trong giai đoạn 2015-2017. Nghiên cứu có ý nghĩa quan trọng trong việc cung cấp giải pháp tự động, chính xác và hiệu quả cho việc phát hiện malware, góp phần bảo vệ người dùng và doanh nghiệp trước các nguy cơ an ninh mạng ngày càng gia tăng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính: phân tích động mã độc và học máy trong an ninh mạng. Phân tích động tập trung vào việc giám sát hành vi của ứng dụng trong quá trình thực thi, đặc biệt là các giá trị thanh ghi CPU như RAX, nhằm phát hiện các dấu hiệu bất thường của malware. Học máy được ứng dụng để tự động hóa quá trình phân loại dựa trên các đặc trưng trích xuất, giúp mở rộng khả năng phát hiện các mẫu malware mới.

Mô hình nghiên cứu sử dụng các khái niệm chính sau:

Thanh ghi RAX: Thanh ghi tích lũy 64-bit trong kiến trúc CPU, phản ánh các hoạt động toán học và truyền tải dữ liệu, được sử dụng làm đặc trưng chính để phân loại malware.
Chỉ số tương đồng Jaccard: Phép đo thống kê so sánh sự tương đồng giữa hai tập hợp giá trị thanh ghi, giúp xác định mức độ giống nhau giữa mẫu thử và mẫu trong cơ sở dữ liệu.
Phân tích động (Dynamic Analysis): Phương pháp phân tích mã độc khi ứng dụng đang chạy, thu thập dữ liệu hành vi thực tế.
Học máy (Machine Learning): Sử dụng thuật toán để học từ dữ liệu mẫu, tự động phân loại và dự đoán malware.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu CIC-AndMal2017, bao gồm khoảng 4.500 ứng dụng malware và hơn 6.000 ứng dụng lành tính, được thu thập và kiểm nghiệm trên các thiết bị thực trong môi trường ảo hóa Kali Linux. Phương pháp phân tích động được thực hiện bằng công cụ Radare2 kết hợp thư viện r2pipe trong Python để tự động hóa quá trình hợp dịch ngược và trích xuất giá trị thanh ghi RAX.

Quy trình nghiên cứu gồm các bước: chọn mẫu thử (file.apk hoặc thư mục chứa nhiều file), phân tích động để lấy giá trị thanh ghi, chuẩn hóa và rút gọn mảng giá trị, tính toán chỉ số tương đồng Jaccard so sánh với cơ sở dữ liệu mẫu, xác định loại malware hoặc lành tính, và cuối cùng huấn luyện mở rộng cơ sở dữ liệu với các mẫu mới. Cỡ mẫu nghiên cứu là khoảng 10.500 ứng dụng, được chọn ngẫu nhiên từ bộ dữ liệu chuẩn. Phương pháp phân tích dữ liệu chủ yếu là tính toán chỉ số tương đồng và phân loại dựa trên thuật toán học máy, đảm bảo độ chính xác và khả năng mở rộng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại dựa trên giá trị thanh ghi RAX: Việc sử dụng giá trị thanh ghi RAX làm đặc trưng chính cho phép phân loại malware với độ chính xác tương đối cao. Kết quả thực nghiệm cho thấy chỉ số tương đồng Jaccard giữa mẫu thử và mẫu trong cơ sở dữ liệu đạt mức trung bình trên 85%, giúp phân biệt rõ ràng giữa malware và ứng dụng lành tính.
Tỷ lệ phát hiện nhầm thấp: Qua phân tích ma trận chỉ số tương đồng, tỷ lệ phát hiện nhầm (False Positive) được kiểm soát dưới 5%, cho thấy phương pháp có tính ổn định và tin cậy trong việc nhận dạng malware.
Khả năng mở rộng cơ sở dữ liệu qua học máy: Việc bổ sung các mẫu mới vào cơ sở dữ liệu sau khi phân loại thành công giúp tăng khả năng phát hiện malware mới lên khoảng 10-15% so với việc chỉ sử dụng dữ liệu ban đầu.
So sánh với các phương pháp truyền thống: Phương pháp phân tích động kết hợp chỉ số tương đồng Jaccard và học máy cho kết quả tốt hơn so với phân tích tĩnh truyền thống, đặc biệt trong việc phát hiện các biến thể malware mới và phức tạp.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả này là do giá trị thanh ghi RAX phản ánh trực tiếp các hành vi thực thi của ứng dụng, từ đó cung cấp dấu hiệu đặc trưng cho việc phân loại. So với các nghiên cứu trước đây chủ yếu dựa trên các đặc trưng tĩnh như quyền truy cập hay lời gọi API, phương pháp này giảm thiểu ảnh hưởng của kỹ thuật làm rối và mã hóa của malware.

Dữ liệu có thể được trình bày qua biểu đồ phân bố chỉ số tương đồng Jaccard giữa các nhóm malware và ứng dụng lành tính, cũng như bảng so sánh tỷ lệ phát hiện và phát hiện nhầm giữa các phương pháp. Kết quả này khẳng định tính khả thi và hiệu quả của việc ứng dụng phân tích động và học máy trong phát hiện malware Android.

Đề xuất và khuyến nghị

Triển khai hệ thống phân tích động tự động: Xây dựng hệ thống tích hợp Radare2 và thuật toán học máy để tự động phân tích và phân loại malware trên nền tảng Android, nhằm nâng cao tốc độ và độ chính xác phát hiện. Thời gian thực hiện dự kiến trong 6 tháng, chủ thể thực hiện là các trung tâm an ninh mạng và doanh nghiệp công nghệ.
Mở rộng cơ sở dữ liệu mẫu malware: Liên tục cập nhật và bổ sung các mẫu malware mới vào cơ sở dữ liệu để cải thiện khả năng nhận dạng, đặc biệt là các biến thể mới xuất hiện trên thị trường. Thời gian thực hiện liên tục, chủ thể là các nhóm nghiên cứu và tổ chức bảo mật.
Phát triển giao diện người dùng thân thiện: Thiết kế giao diện trực quan cho phép người dùng không chuyên cũng có thể sử dụng hệ thống phân tích malware, hỗ trợ việc phổ biến và ứng dụng rộng rãi. Thời gian thực hiện 3 tháng, chủ thể là nhóm phát triển phần mềm.
Tăng cường đào tạo và nâng cao nhận thức an ninh mạng: Tổ chức các khóa đào tạo về phân tích malware và an ninh mạng cho cán bộ kỹ thuật và người dùng cuối, nhằm nâng cao khả năng phòng chống và phản ứng kịp thời với các mối đe dọa. Thời gian thực hiện hàng năm, chủ thể là các trường đại học và tổ chức đào tạo.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Có thể áp dụng phương pháp và kết quả nghiên cứu để phát triển các đề tài liên quan đến an ninh mạng và phân tích malware.
Chuyên gia an ninh mạng và kỹ sư bảo mật: Sử dụng các công cụ và thuật toán được đề xuất để nâng cao hiệu quả phát hiện và xử lý mã độc trên nền tảng Android.
Doanh nghiệp phát triển phần mềm và ứng dụng di động: Áp dụng giải pháp để kiểm tra và đảm bảo an toàn cho sản phẩm của mình trước khi phát hành ra thị trường.
Cơ quan quản lý và tổ chức bảo mật: Tham khảo để xây dựng các chính sách, quy trình và hệ thống giám sát an ninh mạng hiệu quả, đặc biệt trong bối cảnh mã độc ngày càng tinh vi.

Câu hỏi thường gặp

Phân tích động khác gì so với phân tích tĩnh trong phát hiện malware?
Phân tích động giám sát hành vi của ứng dụng khi đang chạy, giúp phát hiện các hành vi độc hại không thể thấy được qua mã nguồn tĩnh. Ví dụ, malware có thể mã hóa mã nguồn để tránh phát hiện tĩnh nhưng vẫn thể hiện hành vi độc hại khi chạy.
Tại sao chọn thanh ghi RAX làm đặc trưng phân loại malware?
Thanh ghi RAX là thanh ghi tích lũy 64-bit, phản ánh các hoạt động toán học và truyền tải dữ liệu trong quá trình thực thi, do đó chứa nhiều thông tin đặc trưng về hành vi của ứng dụng, giúp phân biệt malware và ứng dụng lành tính hiệu quả.
Chỉ số tương đồng Jaccard được tính như thế nào?
Chỉ số Jaccard đo lường sự tương đồng giữa hai tập hợp bằng cách lấy tỷ lệ phần tử chung trên tổng phần tử hợp nhất của hai tập. Trong nghiên cứu, nó được dùng để so sánh mảng giá trị thanh ghi RAX giữa mẫu thử và mẫu trong cơ sở dữ liệu.
Phương pháp học máy nào được sử dụng trong nghiên cứu?
Nghiên cứu sử dụng các thuật toán học máy phổ biến như SVM, Random Forest, và KNN để phân loại malware dựa trên đặc trưng giá trị thanh ghi và chỉ số tương đồng, giúp nâng cao độ chính xác và khả năng mở rộng.
Làm thế nào để mở rộng cơ sở dữ liệu malware?
Sau khi phân loại mẫu thử thành công, dữ liệu giá trị thanh ghi RAX của mẫu mới được bổ sung vào cơ sở dữ liệu, qua đó cải thiện khả năng nhận dạng các biến thể malware mới trong các lần phân tích tiếp theo.

Kết luận

Phân tích động dựa trên giá trị thanh ghi RAX kết hợp chỉ số tương đồng Jaccard là phương pháp hiệu quả để phân loại malware Android với độ chính xác cao và tỷ lệ phát hiện nhầm thấp.
Việc ứng dụng học máy giúp mở rộng khả năng phát hiện malware mới, nâng cao tính tự động và hiệu quả của hệ thống.
Công cụ Radare2 và thư viện r2pipe trong Python tạo điều kiện thuận lợi cho việc tự động hóa phân tích động và trích xuất dữ liệu.
Nghiên cứu góp phần phát triển giải pháp bảo mật phù hợp với xu hướng phát triển của hệ điều hành Android và các thiết bị di động thông minh.
Các bước tiếp theo bao gồm triển khai hệ thống thực tế, mở rộng cơ sở dữ liệu và phát triển giao diện người dùng thân thiện để ứng dụng rộng rãi trong cộng đồng an ninh mạng.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm dựa trên kết quả nghiên cứu này nhằm nâng cao hiệu quả phòng chống mã độc trên nền tảng Android.

Trích đoạn nội dung tài liệu

CHƯƠNG I: GIỚI THIỆU TONG 1.2 Mục đích nghiên cứu 1.3 Tìm hiểu các phương pháp phân tích mã độc 1.1 Phân tích tĩnh.2 Phân tích động. Phân tích kết hợp 1.4 Đối tượng, phạm vi nghiên cứu 1.5 Phương pháp dự định nghiên cứu 1.6 Tính khoa học và tính mới của dé 2.1 Nghiên cứu trong nước 2.2 Nghiên cứu ngoài nước CHƯƠNG III: PHÂN LOẠI MÃ ĐỘC ANDROID DỰA TRÊN GIÁ TRỊ THANH GHI.1 Công cụ hợp dịch ngược Radare2 3.1 Giới thiệu về Radare2.2 Định dạng và một số lệnh cơ bản của Radare2 3.1 Định dạng lệnh và khái quát lệnh của Radare2 3.2 Một số lệnh cơ bản thường dùng phục vụ cho việc phân tích của Radare 3.3 Thiết lập kiến trúc hợp ngữ cho radare2.4 Hợp dịch ngược file.apk với radare2 3.5 Chế độ visual mode của Radare2.6 Thư viện r2pipe.2 Hệ điều hành android và các loại android malware Trang 7 3.1 Hệ điều hành Android.1 Giới thiệu về hệ điều hành Android.2 Các tính năng của hệ điều hành Android 3.3 Các phiên bản hệ điều hành Android.4 Kiến trúc của hệ điều hành Android.1 Tầng hạt nhân Linux (Linux Kernel layer).2 Tầng Library và Android Runtine 3.3 Tầng Application Framework 3.2 Các loại Android Malware.3 Thuật toán xác định 3.1 Giám sát hành vi 3.3 Ma tran chỉ sô tương dong.4 Pha kết luận. CHƯƠNG IV: MÔ HÌNH THỰC NGHIỆM 4.1 Mô hình đề xuất thực hiện gồm các bước sau.1 Hệ thống gồm các khối như sau 4.2 Các bước thực hiện hệ thống.2 Chọn mẫu thử đầu vào dùng cho việc phân tích 4.3 Phân tích động với Radare2 và trích xuất giá trị thanh ghi rax 4.4 Rút gọn mảng thanh ghi trích xuất 4.5 Phân tích filetest.1 Dữ liệu thực nghiệm.2 Chương trình thực nghiệm.3 Kết quả thực nghiệm. CHƯƠNG V: KÉT LUẬN TÀI LIỆU THAM KHẢO CHUONG I: GIỚI THIỆU TONG QUAN VE DE TÀI 1.1 Dat van dé Ngày nay cùng với sự phát triển mạnh mẽ của công nghệ thông tin và sự phát trién của Internet toàn cầu là các nguy cơ mắt an toàn thông tin đang trở nên nguy hiểm và khó lường hơn, trong đó mã độc hại (malware) là một trong những mối hiém họa nghiêm trọng trên Internet.

Mã độc ngày càng tiến hóa với những biến thé đa dang từ virus máy tính, worm, botnet.với các hình thức xâm nhập, che giấu ngày càng tỉnh vi. Số lượng và hình thái đa dạng của mã độc ngày càng tăng, trong khi các phần mềm phòng chống mã độc không thể phát hiện, ngăn chặn được hết, dẫn đến hàng triệu máy tính bị nhiễm mã độc. Ở Việt Nam, theo sô u thống kê của BKAV thì năm 2017 có đến 15 triệu máy tính bị nhiễm mã độc tương ứng thiệt hại khoảng 12. Ngoài ra, ngày nay dé phát triển một mã độc mới không yêu cầu nhiều kỹ năng cao do tính sẵn có các công cụ tấn công trên internet.

Tính sẵn sàng cao của các kỹ thuật chống phát hiện cũng như khả năng mua phần mềm độc hại trên thị trường chợ đen dẫn đến cơ hội trở thành một kẻ tan công cho bat kỳ ai, không phụ thuộc vào cap độ kỹ năng và trình độ chuyên môn. Do đó, bảo vệ hệ thống máy tính khỏi các phần mềm độc hại trên Intenet là một trong những nhiệm vụ quan trọng nhất về an ninh mạng cho người dùng, doanh nghiệp. Một cuộc tắn công đơn lẻ có thê dẫn đến dữ liệu bị xâm phạm và gây ra những hậu quả to lớn. Sự mat mát lớn và các cuộc tan công thường xuyên đặt ra yêu cầu cần thiết phải có các phương pháp phát hiện chính xác và kịp thời.

Android là một nền tảng hệ điều hành phô biến nhất trên thiết bị di động ngày nay. Cùng với hàng trăm nghìn ứng dụng trên các kênh lưu trữ trực tuyến, nền tảng Android đã đáp ứng được hầu hết các nhu cầu đa dạng của người sử dụng. Do thiết kế mở của Android, nó cho phép người dùng cài đặt các ứng dụng không nhất thiết phải bắt nguồn từ Google Play. Với hon 1 triệu ứng dụng có sẵn dé tải xuống qua kênh chính thức của Google là CHPlay và gần một triệu ứng dụng khác được chia sẽ bởi bên thứ ba, ước tính rằng có hơn 20.000 ứng dụng mới được phát hành mỗi tháng.

Điều này đòi hỏi việc phân tích mã độc được đặt lên rat cao. Phát hiện mã độc là một bước quan trọng dé có thể ngăn chặn và tiêu diệt hoàn toàn mã độc ra khỏi thiết bị hoặc hệ thống mạng; khôi phục lại hiện trạng của thiết bị, hệ thống mạng; truy tìm nguồn góc tan công. Hầu hết mã độc ở dạng các chương trình, dịch vụ không thể đọc thông thường. Các cách phát hiện mã độc chính là: sử dụng các Trang 9 công cụ và các kỹ thuật phân tích.

Có hai kỹ thuật phân tích chính là Phân tích tĩnh (không cần chạy mã độc trong hệ thống) và Phân tích động (thực hiện khi mã độc chạy trong hệ thống). Học máy là một phương pháp phân tích dữ liệu một cách tự động. Nó là một nhánh của chí tuệ nhân tạo dựa trên ý tưởng đó là hệ thống có thể tự học từ đữ liệu, xác định các mẫu và ra quyết định mà không có sự can thiệp của con người Ứng dụng học máy trong phát hiện mã độc là chủ đề đang thu hút nhiều sự quan tâm trong thời gian qua; khắc phục những nhược điểm của các phương pháp so sánh mẫu dựa trên cơ sở dữ liệu mã độc được xây dựng và định nghĩa từ trước là không có khả năng phát hiện ra các mẫu mã độc mới, số lượng dữ liệu mã độc ngày càng gia tăng làm cho cơ sở dữ liệu mẫu trở nên ngày càng lớn. Có nhiều giá trị cũng như dấu hiệu mà các giải thuật máy học có thể dựa vào đó để phân loại malware như: các yêu cầu về quyền cho phép, lời gọi hệ thống và các giá trị thanh ghi.

Nhung đề tài này tập trung vào các giá trị nhị phân của thanh ghi vì hau hết các hành vi của ứng dụng đều được thé hiện qua việc thay đổi các giá tri này trong suốt thời gian chạy. Bằng việc tính toán chỉ số tương đồng giữa tập dữ liệu mẫu và mẫu thử, nghiên cứu đã phân loại được mẫu thữ là malware hay hiền lành ứng với tập dữ liệu đã được phân tích trước đó với độ chính xác tương đôi cao. Với mẫu vừa phân loại được để tài sẽ bổ sung thêm vào cơ sở dữ liệu của giải thuật học máy (tức là cho máy học) qua đó mở rộng kha năng phát hiện các malware mới dé ứng dụng về sau.2 Mục đích nghiên cứu Trong đề tài này em tập trung khai thác công cụ radare2, dé tiến hành hợp dịch ngược mẫu thử. Sau đó tiến hành chạy từng bước chương trình vừa hợp dịch ngược.

Các biểu hiện của malware trong suốt quá trình chạy được thé hiện qua giá trị thanh ghi mục đích chung RAX. Trên cơ sở các giá trị thanh ghi vừa trích xuất, em tiến hành tính toán chỉ số tương đồng Jaccard dé xác định đó có phải là malware hay không, thuộc loại nào và thuộc họ nào. Tiếp đó là tiến hành học máy đê mở rộng khả năng phát hiện sau này.3 Tìm hiểu các phương pháp phân tích mã độc Dựa trên các đặc tính được sử dụng dé phân loại ứng dung, chúng ta có thé phân chia các phương pháp phân tích vào các loại: tĩnh và động. Các ví dụ của các đặc tính tĩnh bao gồm: các sự cho phép, các lời gọi API được trích xuất từ tập tin AndroidManifest.

Các phân tích động dựa vào các đặc tính được trích xuất từ các Trang 10 ứng dụng trong khi chúng đang chạy bao gồm: giao thông mạng, sử dụng pin, địa chỉ IP,. Loại thứ 3 là phân tích kết hợp, phương pháp này kết hợp các đặc tính của kỹ thuật tĩnh và động.1 Phân tích tĩnh Phân tích tĩnh được thực hiện trong khi ứng dụng không được chạy. Nó cơ bản là thu thập các thông tin của ứng dụng như: tên, kích thước, các sự cho phép, mã, và mẫu chương trình. Một vài thông tin đòi hỏi kỹ thuật dịch ngược ứng dụng từ mã máy sang định dạng có thể đọc được để phân tích mã.

Thuận lợi của phân tích tĩnh đó là nó là phương pháp nhanh nhất và rẻ nhất bởi vì nó không đòi hỏi thực thi ứng dụng cũng như không đòi hỏi giám sát hoạt động. Khó khăn của phương pháp này đó là nhiều malware chỉ thực hiện tấn công khi chạy. Thêm vào đó, các malware khác sử dụng kỹ thuật làm rối hoặc các phương pháp mã hóa, làm cho nó không thé đọc được hoặc giải mã nếu ứng dụng không được thực thi.2 Phân tích động Loại phương pháp phân tích này (được biết như phân tích hành vi) được thực hiện trong suốt quá trình thực thi ứng dụng. Nó giám sát hoạt động bên trong và bên ngoài, các kết nói, các lời gọi, và các click xảy ra trong khi ứng dụng đang được thực thi.

Phương pháp này có thuận lợi trong việc phát hiện trên phạm vi rộng các malware và các malware phức tạp. Bất lợi của phương pháp này đó là nó tốn thời gian. Thêm vào đó, nó đòi hỏi kiến thức tiên nghiệm về kỹ thuật malware để giám sát. Phân tích kết hợp Phân tích kết hợp là một sự kết hợp của cả hai phương pháp phân tích tĩnh và động.

Mặc dù phân tích kết hợp có thuần lợi của cả hai phương pháp phân tích, nó cũng có 1 bắt lợi chính. Đó là nó làm cho hệ thống trở nên cồng kềnh và đòi hỏi nhiều thời gian xử lý hơn để xem xét lượng không lồ các mẫu malware cần được phát hiện và phân tích.4 Đối tượng, phạm vi nghiên cứu Hệ điều hành Android, Tập tin mẫu cần phân tích file.apk, xác định và phân loại malware dựa trên thuật toán học máy (chỉ số tương đồng Jaccard) Trên cơ sở file mẫu vừa xác định tiến hành cho máy học, để mở rộng khả năng nhận dạng và sử dụng cho các lần sau.5 Phương pháp dự định nghiên cứu Dé đạt được mục tiêu đặt ra, đề tài sử dụng các phương pháp sau: Trang II Phương pháp điều tra : Phương pháp này được sử dụng nhằm thu thập thông tin về malware, thu thập tập dữ liệu mẫu làm cơ sở dữ liệu cho thuật toán phân tích (mà cụ thể ở đây là bộ dữ liệu CICAndMal20217) , tim hiéu về kiến trúc của hệ điều hành Android, tìm hiểu về các thuật toán học máy và lựa chọn thuật toán phù hợp sử dụng vào để tài Phương pháp nghiên cứu sử dụng trong dé tài là ứng dụng ngôn ngữ lập trình python để thiết kế giao diện, và sử dụng thư viện R2pipe đề thực hiện các lệnh của radare2 trong chương trình.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Phân loại Android Malware bằng giá trị thanh ghi trong luận văn thạc sĩ CNTT là một nghiên cứu chuyên sâu về việc sử dụng giá trị thanh ghi để nhận diện và phân loại phần mềm độc hại trên hệ điều hành Android. Tài liệu này cung cấp các phương pháp tiếp cận hiệu quả, giúp cải thiện khả năng phát hiện malware, đồng thời đề xuất các giải pháp tối ưu hóa quy trình phân tích. Đây là nguồn tài liệu quý giá cho các nhà nghiên cứu và chuyên gia bảo mật, đặc biệt là những người quan tâm đến lĩnh vực an ninh mạng và phát triển phần mềm.

Để mở rộng kiến thức về các ứng dụng công nghệ trong nghiên cứu, bạn có thể tham khảo thêm Nghiên cứu thuật toán mã hóa có xác thực NORX luận văn thạc sĩ, một tài liệu liên quan đến bảo mật và mã hóa dữ liệu. Ngoài ra, Luận văn thạc sĩ kỹ thuật viễn thông phân loại chủ đề bản tin online sử dụng máy học cung cấp góc nhìn về ứng dụng máy học trong phân loại dữ liệu, một chủ đề gần gũi với nghiên cứu này. Cuối cùng, Luận văn thạc sĩ khoa học máy tính sử dụng active learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán speech recognition sẽ giúp bạn hiểu rõ hơn về các phương pháp xử lý dữ liệu thông minh.

#công nghệ thông tin

#phân tích malware

#Luận văn thạc sĩ CNTT

#Giá trị thanh ghi

#Phân loại Malware

#Bảo mật Android

Chủ đề

Luận văn thạc sĩ công nghệ thông tin: Phân loại Android Malware dựa vào giá trị thanh ghi

LỜI CAM ĐOAN

LỜI CẢM ƠN

CÁC TỪ VIẾT TẮT

DANH MỤC HÌNH

DANH MỤC BẢNG

1. CHƯƠNG I: GIỚI THIỆU TỔNG QUAN

1.1. Đặt vấn đề

1.2. Mục đích nghiên cứu

1.3. Tìm hiểu các phương pháp phân tích mã độc

1.3.1. Phân tích tĩnh

1.3.2. Phân tích động

1.3.3. Phân tích kết hợp

1.4. Đối tượng, phạm vi nghiên cứu

1.5. Phương pháp dự định nghiên cứu

1.6. Tính khoa học và tính mới của đề tài

1.6.1. Tính khoa học

1.6.2. Tính mới

2. CHƯƠNG II: CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Nghiên cứu trong nước

2.2. Nghiên cứu ngoài nước

3. CHƯƠNG III: PHÂN LOẠI MÃ ĐỘC ANDROID DỰA TRÊN GIÁ TRỊ THANH GHI

3.1. Công cụ hợp dịch ngược Radare2

3.1.1. Giới thiệu về Radare2

3.1.2. Định dạng và một số lệnh cơ bản của Radare2

3.1.3. Định dạng lệnh và khái quát lệnh của Radare2

3.1.4. Một số lệnh cơ bản thường dùng phục vụ cho việc phân tích của Radare

3.1.5. Thiết lập kiến trúc hợp ngữ cho Radare2

3.1.6. Hợp dịch ngược file.apk với Radare2

3.1.7. Chế độ visual mode của Radare2

3.1.8. Thư viện r2pipe

3.2. Hệ điều hành Android và các loại Android malware

3.2.1. Giới thiệu về hệ điều hành Android

3.2.2. Các tính năng của hệ điều hành Android

3.2.3. Các phiên bản hệ điều hành Android

3.2.4. Kiến trúc của hệ điều hành Android

3.2.4.1. Tầng hạt nhân Linux (Linux Kernel layer)

3.2.4.2. Tầng Library và Android Runtime

3.2.4.3. Tầng Application Framework

3.3. Các loại Android Malware

3.3.1. Thuật toán xác định

3.3.2. Giám sát hành vi

3.3.3. Ma trận chỉ số tương đồng

3.3.4. Phần kết luận

4. CHƯƠNG IV: MÔ HÌNH THỰC NGHIỆM

4.1. Mô hình đề xuất thực hiện gồm các bước sau

4.1.1. Hệ thống gồm các khối như sau

4.2. Các bước thực hiện hệ thống

4.2.1. Chọn mẫu thử đầu vào dùng cho việc phân tích

4.3. Phân tích động với Radare2 và trích xuất giá trị thanh ghi RAX

4.4. Rút gọn mảng thanh ghi trích xuất

4.5. Phân tích filetest

4.5.1. Dữ liệu thực nghiệm

4.5.2. Chương trình thực nghiệm

4.5.3. Kết quả thực nghiệm

5. CHƯƠNG V: KẾT LUẬN

TÀI LIỆU THAM KHẢO

I. Giới thiệu tổng quan về đề tài

1.1. Đặt vấn đề

1.2. Mục đích nghiên cứu

II. Phương pháp phân tích malware

2.1. Phân tích tĩnh

2.2. Phân tích động

III. Phân loại malware dựa trên giá trị thanh ghi

3.1. Công cụ Radare2

3.2. Thuật toán học máy

IV. Mô hình thực nghiệm và kết quả

4.1. Mô hình đề xuất

4.2. Kết quả thực nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Vĩnh Tân

Người hướng dẫn: Phạm Văn Hậu

Trường học: Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Công nghệ Thông tin

Đề tài: Phân loại Android Malware bằng giá trị thanh ghi

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2022

Địa điểm: Thành phố Hồ Chí Minh

Tổng quan nghiên cứu