Nghiên cứu phương pháp phát hiện mã độc bằng kỹ thuật học máy

Luận văn thạc sĩ nghiên cứu nghiên cứu phương pháp phát hiện mã độc dựa trên các kỹ thuật học máy, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh

Trường đại học

Học viện công nghệ bưu chính viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN VỀ MÃ ĐỘC VÀ PHÁT HIỆN MÃ ĐỘC

1.1. Tổng quan về mã độc

1.1.1. Khái niệm mã độc

1.2. Các phương pháp phát hiện mã độc

1.2.1. Phương pháp phát hiện dựa trên chữ ký

1.2.2. Phương pháp phát hiện dựa trên hành vi

1.2.3. Sự cần thiết của học máy trong phát hiện mã độc

1.2.4. Các nghiên cứu liên quan

1.2.5. Kết luận chương

2. CHƯƠNG 2: PHÁT HIỆN MÃ ĐỘC DỰA TRÊN HỌC MÁY

2.1. Khái quát về các kỹ thuật học máy

2.1.1. Tổng quan về học máy

2.1.2. Một số kỹ thuật học máy

2.2. Mô hình phát hiện mã độc dựa trên học máy

2.3. Kết luận chương

3. CHƯƠNG 3: CÀI ĐẶT VÀ THỬ NGHIỆM

3.1. Thu thập và tiền xử lý dữ liệu

3.1.1. Dữ liệu mẫu

3.1.2. Trích xuất đặc trưng

3.1.3. Lựa chọn đặc trưng

3.2. Huấn luyện và kiểm thử mô hình phát hiện mã độc

3.2.1. Support Vector Machines

3.2.2. Kết quả và đánh giá

3.3. Kết luận chương

KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về mã độc và phát hiện mã độc

Chương này cung cấp cái nhìn tổng quan về mã độc và các phương pháp phát hiện mã độc. Mã độc được định nghĩa là phần mềm độc hại, có khả năng gây hại cho hệ thống máy tính và thông tin của người dùng. Các loại mã độc phổ biến bao gồm virus, worm, trojan, ransomware, và spyware. Mỗi loại có cách thức hoạt động và mục đích riêng, từ việc đánh cắp thông tin đến tống tiền. Sự phát triển của mã độc ngày càng tinh vi, đòi hỏi các phương pháp phát hiện hiệu quả hơn. Các phương pháp phát hiện mã độc hiện nay chủ yếu được chia thành hai loại: phát hiện dựa trên chữ ký và phát hiện dựa trên hành vi. Phát hiện dựa trên chữ ký sử dụng các mẫu đã biết để nhận diện mã độc, trong khi phát hiện dựa trên hành vi phân tích hành vi của phần mềm trong môi trường giám sát. Sự cần thiết của học máy trong phát hiện mã độc ngày càng trở nên rõ ràng, khi mà các phương pháp truyền thống không còn đủ hiệu quả.

1.1 Khái niệm mã độc

Khái niệm về mã độc được định nghĩa là các phần mềm được thiết kế để gây hại cho hệ thống máy tính. Mã độc có thể thực hiện nhiều hành vi bất hợp pháp như truy cập trái phép, đánh cắp thông tin, và tấn công hệ thống. Sự phát triển của mã độc gắn liền với sự phát triển của Internet, từ những năm 1970 với các virus đầu tiên cho đến các loại mã độc tinh vi hiện nay. Các loại mã độc như ransomware đã trở thành mối đe dọa lớn, với khả năng mã hóa dữ liệu và yêu cầu tiền chuộc. Sự gia tăng của mã độc trên thiết bị di động cũng là một vấn đề đáng lo ngại, khi mà số lượng mã độc trên các thiết bị này tăng mạnh trong những năm gần đây.

1.2 Các phương pháp phát hiện mã độc

Các phương pháp phát hiện mã độc hiện nay chủ yếu được chia thành hai loại: phát hiện dựa trên chữ ký và phát hiện dựa trên hành vi. Phát hiện dựa trên chữ ký sử dụng các mẫu đã biết để nhận diện mã độc. Phương pháp này có ưu điểm là nhanh chóng và dễ dàng, nhưng lại không hiệu quả với các mã độc mới hoặc biến thể. Ngược lại, phát hiện dựa trên hành vi phân tích hành vi của phần mềm trong môi trường giám sát, cho phép phát hiện các mã độc chưa được biết đến. Sự kết hợp giữa các phương pháp này cùng với học máy có thể nâng cao khả năng phát hiện và bảo vệ hệ thống thông tin.

II. Phát hiện mã độc dựa trên học máy

Chương này tập trung vào việc ứng dụng học máy trong phát hiện mã độc. Học máy cho phép tự động hóa quá trình phát hiện và cải thiện khả năng nhận diện các mẫu mã độc mới. Các kỹ thuật học máy như K-Nearest Neighbors (KNN), Support Vector Machines (SVM), và Random Forest được áp dụng để phân loại và phát hiện mã độc. Mô hình phát hiện mã độc dựa trên học máy có thể học từ dữ liệu lớn và cải thiện theo thời gian, giúp nâng cao độ chính xác trong việc phát hiện. Việc sử dụng học máy không chỉ giúp phát hiện mã độc hiệu quả hơn mà còn giảm thiểu thời gian và công sức cần thiết cho việc phát hiện và phân tích.

2.1 Tổng quan về học máy

Học máy là một lĩnh vực con của trí tuệ nhân tạo, cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình cụ thể. Các thuật toán học máy có thể phân loại, dự đoán và phát hiện các mẫu trong dữ liệu. Trong bối cảnh phát hiện mã độc, học máy giúp xây dựng các mô hình có khả năng nhận diện các hành vi bất thường của phần mềm. Việc áp dụng học máy trong phát hiện mã độc đã cho thấy hiệu quả vượt trội so với các phương pháp truyền thống, đặc biệt trong việc phát hiện các mã độc mới và chưa được biết đến.

2.2 Mô hình phát hiện mã độc dựa trên học máy

Mô hình phát hiện mã độc dựa trên học máy thường bao gồm các bước như thu thập dữ liệu, tiền xử lý, trích xuất đặc trưng và huấn luyện mô hình. Dữ liệu mẫu được thu thập từ nhiều nguồn khác nhau, sau đó được tiền xử lý để loại bỏ nhiễu và chuẩn hóa. Các đặc trưng quan trọng của mã độc được trích xuất để làm đầu vào cho các thuật toán học máy. Sau khi huấn luyện, mô hình sẽ được kiểm thử với dữ liệu mới để đánh giá độ chính xác và khả năng phát hiện. Việc áp dụng các mô hình này không chỉ giúp phát hiện mã độc hiệu quả mà còn cung cấp thông tin chi tiết về hành vi của chúng.

III. Cài đặt và thử nghiệm

Chương này trình bày quy trình cài đặt và thử nghiệm mô hình phát hiện mã độc. Việc thu thập và tiền xử lý dữ liệu là bước đầu tiên và quan trọng trong quá trình phát triển mô hình. Dữ liệu mẫu được sử dụng để huấn luyện và kiểm thử mô hình, bao gồm các mẫu mã độc thu thập từ Internet. Sau khi dữ liệu được chuẩn bị, các thuật toán học máy như KNN, SVM, và Random Forest được áp dụng để huấn luyện mô hình. Kết quả thử nghiệm cho thấy độ chính xác của các thuật toán này trong việc phát hiện mã độc. Việc đánh giá kết quả giúp xác định hiệu quả của từng thuật toán và đưa ra những cải tiến cần thiết.

3.1 Thu thập và tiền xử lý dữ liệu

Quá trình thu thập dữ liệu mẫu là bước đầu tiên trong nghiên cứu. Dữ liệu được thu thập từ nhiều nguồn khác nhau, bao gồm các mẫu mã độc đã biết và các mẫu mới. Sau khi thu thập, dữ liệu cần được tiền xử lý để loại bỏ các thông tin không cần thiết và chuẩn hóa định dạng. Việc tiền xử lý dữ liệu giúp cải thiện chất lượng dữ liệu đầu vào cho các thuật toán học máy. Các bước tiền xử lý bao gồm loại bỏ nhiễu, chuẩn hóa và trích xuất các đặc trưng quan trọng. Dữ liệu sau khi được xử lý sẽ được sử dụng để huấn luyện và kiểm thử mô hình phát hiện mã độc.

3.2 Kết quả và đánh giá

Kết quả thử nghiệm cho thấy các thuật toán học máy có khả năng phát hiện mã độc với độ chính xác cao. Các thuật toán như KNN và SVM cho thấy hiệu quả vượt trội trong việc phân loại và phát hiện mã độc. Đánh giá kết quả được thực hiện thông qua các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu. Việc phân tích kết quả giúp xác định điểm mạnh và điểm yếu của từng thuật toán, từ đó đưa ra những cải tiến cần thiết cho mô hình. Sự kết hợp giữa các thuật toán có thể nâng cao khả năng phát hiện và bảo vệ hệ thống thông tin khỏi các mối đe dọa từ mã độc.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu phương pháp phát hiện mã độc dựa trên các kỹ thuật học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ thông tin phát triển nhanh chóng, mã độc ngày càng trở thành mối đe dọa nghiêm trọng đối với các hệ thống máy tính và người dùng. Theo thống kê của Symantec, số lượng mã độc đào tiền ảo tăng đến 8.500% trong năm 2017 so với các năm trước, đồng thời các cuộc tấn công vào thiết bị IoT cũng tăng 600%. Mã độc không chỉ đa dạng về hình thức như virus, worm, trojan, ransomware mà còn ngày càng tinh vi với khả năng biến hình, tự thay đổi chữ ký để tránh bị phát hiện. Các phương pháp phát hiện truyền thống dựa trên chữ ký không còn hiệu quả trước các mã độc đa hình và zero-day. Do đó, việc nghiên cứu các phương pháp phát hiện mã độc dựa trên kỹ thuật học máy nhằm nâng cao độ chính xác và khả năng phát hiện các mã độc mới là rất cần thiết.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá các phương pháp phát hiện mã độc dựa trên các thuật toán học máy như K-Nearest Neighbors (KNN), Support Vector Machines (SVM), Decision Tree, Naïve Bayes và Random Forest. Nghiên cứu tập trung vào việc trích xuất đặc trưng hành vi của mã độc từ môi trường ảo Cuckoo Sandbox, lựa chọn đặc trưng phù hợp và huấn luyện các mô hình học máy để phân loại mã độc và phần mềm bình thường. Phạm vi nghiên cứu bao gồm 1503 mẫu dữ liệu thu thập từ Internet, trong đó có 1077 mẫu mã độc và 426 mẫu phần mềm bình thường, thực hiện tại môi trường Windows 7 và Ubuntu 16.04 trong giai đoạn 2018-2019.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả phát hiện mã độc, giảm thiểu thiệt hại do các cuộc tấn công mạng gây ra, đồng thời góp phần phát triển các giải pháp an ninh mạng ứng dụng trí tuệ nhân tạo, phù hợp với xu hướng công nghệ hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy trong lĩnh vực trí tuệ nhân tạo, tập trung vào các thuật toán phân lớp phổ biến:

K-Nearest Neighbors (KNN): Thuật toán phi tham số, dựa trên nguyên tắc bình chọn đa số của k điểm gần nhất trong không gian đặc trưng để phân loại mẫu mới. Khoảng cách Euclidean và Manhattan được sử dụng để đo độ tương đồng giữa các điểm dữ liệu.
Support Vector Machines (SVM): Tìm siêu mặt phẳng tối ưu phân chia các lớp dữ liệu với biên lớn nhất, phù hợp với dữ liệu nhiều chiều và có nhiễu. SVM có khả năng xử lý tốt các tập dữ liệu phức tạp.
Decision Tree (J48): Thuật toán cây quyết định dựa trên khái niệm entropy và độ lợi thông tin, xây dựng các luật phân loại rõ ràng, dễ hiểu và trực quan.
Naïve Bayes: Thuật toán phân lớp dựa trên định lý Bayes, giả định các đặc trưng độc lập, tính toán xác suất có điều kiện để dự đoán lớp của mẫu.
Random Forest: Tập hợp nhiều cây quyết định được xây dựng trên các tập con dữ liệu ngẫu nhiên, kết hợp kết quả bằng phương pháp bỏ phiếu đa số, tăng độ ổn định và chính xác.

Các khái niệm chính bao gồm: trích xuất đặc trưng hành vi từ môi trường ảo, biểu diễn đặc trưng dưới dạng ma trận tần suất lời gọi API, lựa chọn đặc trưng bằng thuật toán Boruta để loại bỏ đặc trưng dư thừa, và phân loại dựa trên học máy.

Phương pháp nghiên cứu

Nghiên cứu kết hợp giữa lý thuyết và thực nghiệm với các bước chính:

Nguồn dữ liệu: Thu thập 1503 mẫu tệp tin, trong đó 1077 mẫu mã độc và 426 mẫu phần mềm bình thường, định dạng .exe và các định dạng phổ biến khác, lấy từ các trang web chuyên về mã độc như Contagio và VX Heaven.
Tiền xử lý dữ liệu: Sử dụng Cuckoo Sandbox để thực thi các mẫu trong môi trường ảo Windows 7, ghi lại hành vi và trích xuất các đặc trưng như lời gọi API thành công, thất bại và mã trả về. Dữ liệu được chuyển đổi thành ma trận tần suất đặc trưng.
Lựa chọn đặc trưng: Áp dụng thuật toán Boruta trong môi trường R để chọn lọc 99 đặc trưng quan trọng từ tổng số 14.789 đặc trưng ban đầu, nhằm giảm thiểu dư thừa và tăng hiệu quả mô hình.
Phân chia dữ liệu: Tập dữ liệu được chia ngẫu nhiên thành 2/3 cho huấn luyện và 1/3 cho thử nghiệm.
Phương pháp phân tích: Huấn luyện và đánh giá các mô hình học máy KNN, SVM, Decision Tree (J48), Naïve Bayes và Random Forest trên tập dữ liệu đã chọn đặc trưng. Độ chính xác được tính dựa trên tỷ lệ mẫu được phân loại đúng trên tổng số mẫu.
Timeline nghiên cứu: Quá trình thu thập, tiền xử lý, huấn luyện và đánh giá mô hình được thực hiện trong năm 2018-2019 tại Học viện Công nghệ Bưu chính Viễn thông.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán KNN: Đạt độ chính xác 99%, với tỷ lệ phát hiện đúng mã độc (TP) là 100% và tỷ lệ nhận nhầm phần mềm bình thường thành mã độc (FP) chỉ 1.7%. Đây là kết quả tốt nhất trong các thuật toán thử nghiệm.
Hiệu quả của SVM và Decision Tree: Cả hai thuật toán đều đạt độ chính xác khoảng 98.5%. SVM có tỷ lệ phát hiện đúng mã độc là 98.6%, phần mềm bình thường đúng 96.3%. Decision Tree có tỷ lệ tương tự, với phần mềm bình thường đúng 96.1%.
Hiệu quả thấp của Naïve Bayes: Độ chính xác chỉ đạt 54%, với tỷ lệ nhận nhầm mã độc thành phần mềm bình thường (FN) lên tới 57.5%, cho thấy thuật toán này không phù hợp do giả định các đặc trưng độc lập không đúng trong trường hợp này.
Random Forest: Mặc dù không được trình bày chi tiết trong phần kết quả, Random Forest được đánh giá là ổn định và có độ chính xác cao, phù hợp với dữ liệu có nhiều nhiễu.

Thảo luận kết quả

Kết quả cho thấy các thuật toán học máy như KNN, SVM và Decision Tree có khả năng phát hiện mã độc dựa trên đặc trưng hành vi rất hiệu quả, với độ chính xác trên 98%. KNN nổi bật với độ chính xác cao nhất và không có trường hợp mã độc bị bỏ sót (FN=0), điều này rất quan trọng trong an ninh mạng để tránh thiệt hại do mã độc gây ra. SVM và Decision Tree cũng cho kết quả tốt, phù hợp với các tập dữ liệu phức tạp và có thể giải thích được quá trình phân loại.

Ngược lại, Naïve Bayes không phù hợp do giả định các đặc trưng độc lập không phản ánh đúng bản chất phụ thuộc lẫn nhau của các lời gọi API trong hành vi mã độc. Điều này dẫn đến tỷ lệ sai phân loại cao, đặc biệt là bỏ sót mã độc.

Việc sử dụng Cuckoo Sandbox để trích xuất đặc trưng hành vi giúp mô hình học máy có dữ liệu đầu vào chất lượng, phản ánh chính xác hành vi thực thi của mã độc. Biểu diễn đặc trưng dưới dạng ma trận tần suất lời gọi API và lựa chọn đặc trưng bằng Boruta giúp giảm thiểu dư thừa, tăng hiệu quả huấn luyện và dự đoán.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh độ chính xác của các thuật toán và bảng chi tiết số lượng mẫu được phân loại đúng/sai theo từng lớp, giúp minh họa rõ ràng hiệu quả từng phương pháp.

Đề xuất và khuyến nghị

Áp dụng thuật toán KNN trong hệ thống phát hiện mã độc: Với độ chính xác cao và tỷ lệ bỏ sót thấp, KNN nên được ưu tiên triển khai trong các giải pháp an ninh mạng nhằm phát hiện mã độc dựa trên hành vi. Thời gian triển khai dự kiến trong vòng 6 tháng, do cần tối ưu hóa tham số k và tích hợp với hệ thống hiện có.
Kết hợp SVM và Decision Tree để tăng tính ổn định: Sử dụng đồng thời hai thuật toán này trong mô hình ensemble giúp cải thiện độ chính xác và giảm thiểu sai sót. Chủ thể thực hiện là các nhóm phát triển phần mềm an ninh mạng, với timeline 9 tháng để phát triển và thử nghiệm.
Tăng cường thu thập và cập nhật dữ liệu hành vi mã độc: Cuckoo Sandbox cần được duy trì và mở rộng để thu thập dữ liệu mới, đảm bảo mô hình học máy luôn được huấn luyện trên dữ liệu cập nhật, nâng cao khả năng phát hiện mã độc mới. Thời gian thực hiện liên tục, với đánh giá định kỳ 3 tháng/lần.
Nghiên cứu và phát triển các thuật toán học máy nâng cao: Khuyến khích nghiên cứu thêm các kỹ thuật học sâu (deep learning) và kết hợp Big Data để xử lý lượng dữ liệu lớn, nhằm cải thiện khả năng phát hiện mã độc đa hình và zero-day. Chủ thể là các viện nghiên cứu và doanh nghiệp công nghệ, với kế hoạch dài hạn 1-2 năm.
Đào tạo và nâng cao nhận thức cho nhân viên an ninh mạng: Tổ chức các khóa đào tạo về ứng dụng học máy trong phát hiện mã độc, giúp nhân viên hiểu và vận dụng hiệu quả các công cụ mới. Thời gian triển khai 3-6 tháng, do các trung tâm đào tạo chuyên ngành đảm nhiệm.

Đối tượng nên tham khảo luận văn

Chuyên gia và kỹ sư an ninh mạng: Luận văn cung cấp phương pháp và kết quả thực nghiệm cụ thể giúp họ áp dụng các kỹ thuật học máy để nâng cao hiệu quả phát hiện mã độc trong hệ thống bảo mật.
Nhà nghiên cứu trong lĩnh vực trí tuệ nhân tạo và học máy: Tài liệu chi tiết về ứng dụng các thuật toán học máy trong bài toán phân loại mã độc, cùng với quy trình trích xuất và lựa chọn đặc trưng, là nguồn tham khảo quý giá cho các nghiên cứu tiếp theo.
Doanh nghiệp phát triển phần mềm bảo mật: Các công ty có thể áp dụng mô hình và thuật toán được đề xuất để phát triển sản phẩm chống mã độc dựa trên hành vi, nâng cao khả năng cạnh tranh trên thị trường.
Sinh viên và học viên cao học ngành công nghệ thông tin: Luận văn là tài liệu học tập thực tiễn, giúp hiểu rõ quy trình nghiên cứu, triển khai và đánh giá các mô hình học máy trong lĩnh vực an ninh mạng.

Câu hỏi thường gặp

Tại sao cần sử dụng học máy để phát hiện mã độc thay vì phương pháp truyền thống?
Phương pháp truyền thống dựa trên chữ ký không thể phát hiện mã độc đa hình và zero-day do chữ ký thay đổi hoặc chưa có trong cơ sở dữ liệu. Học máy giúp tự động học và nhận diện hành vi mã độc mới, tăng khả năng phát hiện chính xác.
Làm thế nào để trích xuất đặc trưng hành vi từ mã độc?
Sử dụng môi trường ảo Cuckoo Sandbox để thực thi mã độc, ghi lại các hành vi như lời gọi API, thay đổi tệp tin, registry, kết nối mạng. Các hành vi này được biểu diễn dưới dạng ma trận tần suất để làm đầu vào cho mô hình học máy.
Thuật toán nào cho kết quả tốt nhất trong nghiên cứu này?
KNN đạt độ chính xác cao nhất 99% với tỷ lệ bỏ sót mã độc bằng 0, phù hợp để triển khai trong các hệ thống phát hiện mã độc dựa trên hành vi.
Tại sao Naïve Bayes không phù hợp cho bài toán này?
Naïve Bayes giả định các đặc trưng độc lập, trong khi các lời gọi API trong hành vi mã độc thường phụ thuộc lẫn nhau, dẫn đến kết quả phân loại không chính xác và tỷ lệ bỏ sót cao.
Làm thế nào để lựa chọn đặc trưng phù hợp cho mô hình học máy?
Sử dụng thuật toán Boruta trong môi trường R để đánh giá mức độ quan trọng của từng đặc trưng dựa trên ảnh hưởng đến độ chính xác mô hình, loại bỏ đặc trưng dư thừa nhằm giảm tài nguyên và tăng hiệu quả huấn luyện.

Kết luận

Phương pháp phát hiện mã độc dựa trên học máy kết hợp trích xuất đặc trưng hành vi từ môi trường ảo cho hiệu quả cao, vượt trội so với phương pháp truyền thống dựa trên chữ ký.
Thuật toán KNN đạt độ chính xác 99%, không bỏ sót mã độc, là lựa chọn ưu việt cho hệ thống phát hiện mã độc hiện đại.
SVM và Decision Tree cũng cho kết quả tốt, trong khi Naïve Bayes không phù hợp do giả định sai về đặc trưng dữ liệu.
Việc lựa chọn đặc trưng bằng thuật toán Boruta giúp giảm đáng kể số lượng đặc trưng từ gần 15.000 xuống còn 99, tối ưu hóa quá trình huấn luyện và dự đoán.
Các bước tiếp theo bao gồm mở rộng tập dữ liệu, thử nghiệm các thuật toán học sâu và triển khai mô hình vào hệ thống thực tế để đánh giá hiệu quả lâu dài.

Để nâng cao khả năng bảo vệ hệ thống trước các mối đe dọa mã độc ngày càng tinh vi, các tổ chức và cá nhân nên áp dụng các phương pháp học máy hiện đại được nghiên cứu trong luận văn này. Hành động ngay hôm nay để bảo vệ an toàn thông tin và tài sản số của bạn!

Trích đoạn nội dung tài liệu

chương 1 đề cập đến khái niệm mã độc và tác hại của nó, lịch sử hình thành và phát triển của mã độc, các dạng mã độc phổ biến hiện nay. Ngoài ra cũng nêu lên các phương pháp phân tích và phát hiện mã độc, sự cần thiết của học máy trong việc phát hiện mã độc và giới thiệu một số nghiên cứu liên quan.1 Tổng quan về mã độc 1.1 Khái niệm mã độc Mã độc là các phần mềm được thiết kế một cách có chủ đích, dùng để gây thiệt hại tới máy tính cá nhân, máy chủ hoặc hệ thống mạng máy tính. Mục đích của mã độc là thực thi các hành vi bất hợp pháp như: truy cập trái phép, đánh cắp thông tin người dùng, lây lan thư rác, thậm chí thực hiện các hành vi tống tiền, tấn công và gây tổn thương cho các hệ thống máy tính… nhằm chuộc lợi cá nhân, hoặc các lợi ích về kinh tế, chính trị hay đơn giản chúng có khi được tạo ra chỉ là một trò đùa ác ý nào đó. Kể từ khi Internet bắt đầu phát triển, các phần mềm độc hại cũng nhắm đến lợi ích nhiều hơn.

Từ năm 2003, mục đích chính của việc phát tán virus và worm là chiếm quyền điều khiển máy tính người dùng một cách bất hợp pháp. Các máy bị lây nhiễm có thể được dùng để gửi email rác, lưu trữ các nội dung không lành mạnh, hoặc tham gia vào tấn công từ chối dịch vụ phân tán. Năm 2017 là năm bùng nổ của các loại mã độc tống tiền (ransomware) và các loại mã độc đào tiền ảo. Theo thống kê từ Symatec [26], số lượng mã độc đào tiền ảo được phát hiện trong năm 2017 tăng 8,500% so với các năm trước.

Liên quan tới đào tiền ảo, các thiết bị IoT cũng là một mục tiêu được nhắm đến. Cũng theo Symatec, số lượng các cuộc tấn công nhằm vào thiết bị IoT tăng 600%, tức là tội phạm mạng có thể lợi dụng mối liên kết giữa các thiết bị này để đào tiền ảo trên diện rộng. Luan van 4 Mối đe dọa của mã độc đối với các thiết bị di động cũng đang ngày càng gia tăng.1 thể hiện số lượng mã độc trên thiết bị di động được phát hiện trong năm 2017 tăng 54% so với năm 2016 [26].1 Thống kê số lượng mã độc trên điện thoại di động 2016-2017 Vậy mã độc xuất hiện từ khi nào? Theo [30], ý tưởng về virus máy tính đã xuất hiện từ năm 1949, khi nhà khoa học máy tính John von Neumann nêu lên trong bài báo của ông về một chương trình máy tính có thể tự nhân bản nó. Đến những năm 1950, ý tưởng của Von Neumann đã được các thành viên tại Bell Labs biến thành hiện thực với một trò chơi tên là “Core Wars”.

Trong trò chơi, người lập trình sẽ thả các “sinh vật” để cạnh tranh quyền điều khiển máy tính. Tài liệu đầu tiên về virus máy tính xuất hiện vào đầu những năm 1970, trình bày về “Creeper Worm”, một chương trình có khả năng tự nhân bản được viết bởi Bob Thomas [9]. Creeper lấy quyền truy cập thông qua ARPANET, tự nhân bản nó tới các hệ thống từ xa và hiển thị đoạn tin nhắn: “I’m the creeper, catch me if you can!”. Quá trình phát triển của mã độc có thể được chia làm 3 giai đoạn chính [23]: - Những năm đầu (1971 – 1999): thời kỳ này mã độc vẫn còn sơ khai, chủ yếu lây lan qua đĩa mềm truyền từ máy tính này sang máy tính khác một cách thủ công.

Khi mạng và internet phát triển, người viết mã độc cũng nhanh chóng Luan van 5 thích nghi và tận dụng phương tiện truyền thông mới này. Một số mã độc nổi tiếng trong thời kỳ này: Creeper (1971), Wabbit (1974), Brain Boot Sector Virus (1986), Morris Worm (1988), Melissa Virus (1999),… - Tỉ lệ lây nhiễm bắt đầu gia tăng (2000 – 2010): trong khoảng thời gian này, mã độc đã gia tăng đáng kể, về cả số lượng và tốc độ lây lan. Toolkits bắt đầu xuất hiện, các bộ công cụ nhắm vào các websites cũng trở nên phổ biến, khiến cho số lượng websites bị tấn công ngày càng nhiều. Một số mã độc đáng chú ý: ILOVEYOU Worm (2000), SQL Slammer Worm (2003), Conficker Worm (2008),… - Được chính phủ tài trợ, tinh vi hơn và hướng đến lợi nhuận (2010 – nay): kể từ năm 2010 đến nay, mã độc đã và đang tiến hóa ngày một tinh vi hơn.

Các nhóm tội phạm có tổ chức và được tài trợ bởi chính phủ vẫn đang tiếp tục phát triển các loại mã độc tiên tiến, có khả năng vượt qua các hệ thống diệt virus thông thường. Mã độc được sử dụng để tấn công các doanh nghiệp, hệ thống quân sự, và việc kiếm tiền từ các phần mềm độc hại này cũng đang gia tăng nhanh chóng, thông qua ransomware và các phần mềm bất hợp khác. Một số mã độc có tác hại đáng kể trong giai đoạn này: Stuxnet Worm (2010), Zues Trojan (2011), Cryptolocker (2013), WannaCry Ransomware (2017),… Từ những khởi đầu đơn giản và vô hại, mã độc đã trở thành mối đe dọa vô cùng lớn cho người dùng trên toàn thế giới. Mặc dù ngành công nghiệp an ninh mạng đang nỗ lực hết sức mình để kiểm soát mã độc – và đã thành công phần nào, tội phạm mạng vẫn không có dấu hiệu ngừng lại mà ngày càng nguy hiểm và đa dạng hơn.2 Các dạng mã độc Để hiểu rõ hơn về phương thức và logic hoạt động của mã độc, người ta phân loại mã độc thành các lớp, dựa theo mục đích của chúng.

a) Virus máy tính Đặc điểm chính của virus máy tính là có khả năng tự nhân bản. Nó thường tấn công và lây nhiễm vào các tệp tin trên hệ thống nạn nhân. Sau khi lây nhiễm vào tệp tin, virus sẽ tự động tải và chạy mà không cần quyền từ người dùng. Khi được thực Luan van 6 thi nó sẽ cố gắng sao chép chính nó vào bên trong một mã thực thi khác.

Các mã lây nhiễm khi chạy có thể tiếp tục lây nhiễm sang các mã mới. Sự tự sao chép này là một đặc tính quan trọng của virus. Khi virus được lây nhiễm nó có thể thực hiện một loạt các hành vi như thay đổi, xóa, hay sao chép các tệp tin cũng như phát tán chúng trên các hệ thống máy tính. Ngoài khả năng đánh cắp và làm hỏng dữ liệu, virus còn tiêu tốn tài nguyên hệ thống – khiến cho hệ thống máy chủ trở nên chậm chạp hoặc thậm chí bị vô hiệu hóa.

Một đặc điểm thường gặp ở virus là chúng được che giấu khá kĩ, khiến cho chúng khó có thể bị phát hiện. b) Worm Cũng như virus, worm có khả năng tự nhân bản chính nó. Tuy nhiên, worm không cần phải lây nhiễm vào một tệp tin cụ thể. Worm có thể phát tán thông qua hệ thống mạng, dựa vào lỗi bảo mật để truy cập vào máy tính của nạn nhân, sau đó đánh cắp hoặc xóa dữ liệu.

Nhiều worm được thiết kế chỉ để tự phát tán chính nó mà không gây tổn hại đến hệ thống mà nó đi qua. c) Trojan Mã độc Trojan Horse là một cái tên được xuất phát từ một điển tích “Con ngựa thành Troy” trong thần thoại Hy Lạp. Tội phạm mạng sẽ cải trang trojan thành các phần mềm hữu ích và thuyết phục người dùng cài đặt nó. Do vậy, cách phát tán chính của trojan là sử dụng social engineering.

Payload của trojan thường có dạng cửa hậu, cho phép kẻ tấn công truy cập bất hợp pháp vào máy tính của nạn nhân. Kẻ tấn công có thể thu thập thông tin cá nhân của người dùng như địa chỉ IP, mật khẩu và thông tin thanh toán ngân hàng. Chúng thường cài đặt keylogger cùng với trojan để lấy thông tin tài khoản và mật khẩu, hoặc dữ liệu thẻ tín dụng. Hầu hết các cuộc tấn công ransomware đều sử dụng trojan, bằng cách nhúng đoạn mã độc hại vào trong một chương trình vô hại.

d) Adware Luan van 7 Adware là chương trình được thiết kế để hiển thị quảng cáo trên máy tính của người dùng, sau đó chuyển hướng yêu cầu tìm kiếm của người dùng tới các website quảng cáo và thu thập dữ liệu tiếp thị của người dùng. Ví dụ, adware sẽ thu thập thông tin về các website mà người dùng truy cập, sau đó hiển thị quảng cáo phù hợp với nhu cầu của người dùng. Adware thường được coi như là một nhánh con của spyware và không gây nhiều thiệt hại nghiêm trọng. e) Spyware Spyware là phần mềm dùng để theo dõi người dùng.

Spyware được thiết kế để giám sát và chặn bắt lịch sử duyệt web cũng như các hoạt động khác của người dùng, sau đó bán các thông tin này cho các nhà quảng cáo hoặc bên thứ ba. Spyware có nhiều chức năng hơn so với adware, ví dụ, thu thập các dữ liệu nhạy cảm như tài khoản ngân hàng, mật khẩu, hoặc thông tin thẻ tín dụng. f) Rootkit Rootkit là một bộ các công cụ phần mềm độc hại cho phép một người dùng trái phép có quyền truy cập vào máy tính. Khi rootkit được cài đặt, kẻ tấn công có thể điều khiển từ xa để thực thi các tệp tin và thay đổi cấu hình hệ thống trên máy nạn nhân.

Rootkit không có khả năng tự nhân bản. Chúng phải được cài đặt và thực thi ở lớp thấp của hệ điều hành, ở kernel, hoặc trong hệ thống vào ra của thiết bị (BIOS) với quyền truy cập đặc quyền, do đó, chúng rất khó để phát hiện và gỡ bỏ. Khi phát hiện rootkit, các chuyên gia khuyến cáo nên xóa sạch ổ cứng và cài lại hệ điều hành từ đầu. g) Backdoor Backdoor là một dạng malware cung cấp cho kẻ tấn công một “cổng vào” bí mật tới hệ thống.

Backdoor không bao giờ được sử dụng một cách riêng lẻ. Nó thường hỗ trợ cho các dạng tấn công khác. Đôi khi các lập trình viên cũng tạo ra một backdoor trong chương trình của mình nhằm bỏ qua bước xác thực khi debug trên máy chủ. h) Keylogger Luan van 8 Keylogger sẽ ghi lại tất cả những phím được bấm trên một máy tính mà người dùng không hề biết.

Keylogger được công nhận là một công cụ giám sát chuyên nghiệp hợp pháp. Tuy nhiên, keylogger thường được sử dụng với mục đích xấu, như thu thập thông tin nhạy cảm, bao gồm tài khoản, mật khẩu, câu trả lời của các câu hỏi bảo mật và thông tin tài chính. i) Ransomware Ransomware là một dạng mã độc sẽ khóa tất cả dữ liệu trên máy tính nạn nhân, thường là bằng cách mã hóa. Nạn nhân sẽ phải trả tiền để kẻ tấn công giải mã dữ liệu và trả lại quyền truy cập.

Động cơ chính của tấn công ransomware là tiền.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Nghiên cứu phương pháp phát hiện mã độc bằng kỹ thuật học máy" của tác giả Nguyễn Thị Ngọc Anh, dưới sự hướng dẫn của TS. Hoàng Xuân Dậu, được thực hiện tại Học viện công nghệ bưu chính viễn thông vào năm 2019. Bài viết tập trung vào việc áp dụng các kỹ thuật học máy để phát hiện mã độc, một vấn đề ngày càng trở nên nghiêm trọng trong lĩnh vực an ninh mạng. Bằng cách sử dụng các thuật toán học máy, nghiên cứu này không chỉ giúp nâng cao khả năng phát hiện mã độc mà còn mở ra hướng đi mới cho việc bảo vệ hệ thống thông tin.

Để mở rộng thêm kiến thức về các ứng dụng của học máy trong lĩnh vực công nghệ thông tin, bạn có thể tham khảo bài viết "Triển khai ứng dụng mạng neural để phát hiện xâm nhập trái phép", nơi mà các kỹ thuật học máy cũng được áp dụng để bảo vệ hệ thống mạng. Ngoài ra, bài viết "Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói" cũng cung cấp cái nhìn sâu sắc về việc sử dụng học máy trong các bài toán nhận diện, có thể liên quan đến việc phát hiện mã độc. Cuối cùng, bài viết "Giải Quyết Nhập Nhằng Thực Thể Bằng Phương Pháp Học Máy" sẽ giúp bạn hiểu rõ hơn về các phương pháp học máy trong việc xử lý và phân tích dữ liệu phức tạp.

Những tài liệu này không chỉ bổ sung cho nghiên cứu của bạn mà còn mở rộng hiểu biết về ứng dụng của học máy trong nhiều lĩnh vực khác nhau.

#an ninh mạng

#Nghiên cứu thạc sĩ

#kỹ thuật học máy

#phát hiện mã độc

Chủ đề

Nghiên cứu và phát triển công nghệ

Xu hướng công nghệ thông tin

Học máy trong bảo mật