Luận văn thạc sĩ về phát hiện mã độc dựa trên phân tích mẫu

Khám phá luận văn thạc sĩ về phát hiện mã độc thông qua phân tích mẫu, cung cấp kiến thức và phương pháp hiệu quả trong an ninh mạng.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG I: TỔNG QUAN VỀ MÃ ĐỘC VÀ CÁC PHƯƠNG PHÁP PHÁT HIỆN

1.1. Tổng quan về mã độc

1.2. Các phương pháp phát hiện mã độc

1.3. Các nghiên cứu liên quan

1.4. Kết luận chương

2. CHƯƠNG II: MÔ HÌNH PHÁT HIỆN MÃ ĐỘC

2.1. Tổng quan về học máy

2.2. Một số kỹ thuật học máy phổ biến

2.3. Một số phương pháp trích chọn đặc trưng phổ biến với bài toán phát hiện mã độc

2.4. Phương pháp phát hiện mã độc dựa trên phân tích mẫu

2.5. Kết luận chương

3. CHƯƠNG III: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. Thu thập dữ liệu và tiền xử lý dữ liệu

3.2. Cài đặt và thử nghiệm

3.3. Kết quả đánh giá

3.5. Kết luận chương

MỞ ĐẦU

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về mã độc và các phương pháp phát hiện

Chương này cung cấp cái nhìn tổng quan về mã độc và các phương pháp phát hiện hiện có. Mã độc hay còn gọi là Malware, là phần mềm được thiết kế để gây hại cho hệ thống máy tính hoặc mạng. Các loại mã độc phổ biến bao gồm virus, worm, trojan, ransomware, và spyware. Mỗi loại có cách thức hoạt động và mục tiêu khác nhau. Việc phát hiện mã độc là rất quan trọng trong việc bảo vệ an ninh mạng. Các phương pháp phát hiện mã độc có thể chia thành hai loại chính: phân tích tĩnh và phân tích động. Phân tích tĩnh cho phép kiểm tra mã mà không cần chạy nó, trong khi phân tích động yêu cầu chạy mã trong môi trường kiểm soát để quan sát hành vi của nó. Những nghiên cứu liên quan đến phát hiện mã độc đã chỉ ra rằng việc kết hợp cả hai phương pháp này có thể nâng cao hiệu quả phát hiện.

1.1 Định nghĩa và lịch sử phát triển mã độc

Mã độc được định nghĩa là phần mềm độc hại có khả năng lây lan và gây hại cho hệ thống. Lịch sử phát triển của mã độc bắt đầu từ những năm 1980 với sự xuất hiện của virus đầu tiên. Ban đầu, mã độc chỉ là những trò đùa vô hại, nhưng dần dần đã trở thành công cụ tấn công nghiêm trọng. Các loại mã độc như virus, worm, và trojan đã phát triển mạnh mẽ, đặc biệt là với sự gia tăng của Internet. Các cuộc tấn công như WannaCry đã cho thấy sự nguy hiểm của mã độc trong thời đại số. Việc phát hiện và ngăn chặn mã độc ngày càng trở nên khó khăn hơn do sự phát triển của các kỹ thuật tấn công mới.

II. Mô hình phát hiện mã độc

Chương này giới thiệu mô hình phát hiện mã độc dựa trên phân tích mẫu. Mô hình này sử dụng các kỹ thuật học máy để phân tích và phát hiện mã độc. Các kỹ thuật học máy phổ biến như Naive Bayes, SVM, và Random Forest được áp dụng để phân loại và phát hiện mã độc. Việc trích xuất đặc trưng từ dữ liệu là một bước quan trọng trong quá trình phát hiện. Các đặc trưng này giúp mô hình nhận diện các mẫu mã độc và phân loại chúng một cách chính xác. Kết quả từ các thử nghiệm cho thấy mô hình có khả năng phát hiện mã độc với độ chính xác cao, góp phần nâng cao khả năng bảo vệ an ninh mạng.

2.1 Kỹ thuật học máy trong phát hiện mã độc

Kỹ thuật học máy đã trở thành một công cụ quan trọng trong việc phát hiện mã độc. Các thuật toán như Naive Bayes, SVM, và Decision Tree được sử dụng để phân tích dữ liệu và phát hiện các mẫu mã độc. Mỗi thuật toán có ưu điểm và nhược điểm riêng, nhưng việc kết hợp chúng có thể tạo ra một hệ thống phát hiện mạnh mẽ hơn. Việc sử dụng học máy không chỉ giúp phát hiện mã độc mà còn cải thiện khả năng phản ứng nhanh chóng với các mối đe dọa mới. Các nghiên cứu đã chỉ ra rằng việc áp dụng học máy trong phát hiện mã độc có thể giảm thiểu thiệt hại do các cuộc tấn công mạng gây ra.

III. Thử nghiệm và đánh giá

Chương này trình bày quy trình thử nghiệm và đánh giá mô hình phát hiện mã độc. Dữ liệu được thu thập từ nhiều nguồn khác nhau và được xử lý để đảm bảo tính chính xác. Các thử nghiệm được thực hiện để đánh giá hiệu suất của mô hình trong việc phát hiện mã độc. Kết quả cho thấy mô hình có khả năng phát hiện mã độc với độ chính xác cao, đồng thời cũng chỉ ra những điểm cần cải thiện. Việc đánh giá mô hình không chỉ dựa trên độ chính xác mà còn xem xét tốc độ phát hiện và khả năng xử lý các loại mã độc khác nhau. Những kết quả này có thể giúp cải thiện các phương pháp bảo vệ an ninh mạng trong tương lai.

3.1 Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy mô hình phát hiện mã độc đạt được độ chính xác cao trong việc phân loại các loại mã độc khác nhau. Các thuật toán học máy như SVM và Random Forest cho thấy hiệu suất vượt trội so với các phương pháp truyền thống. Việc sử dụng các đặc trưng được trích xuất từ dữ liệu giúp mô hình nhận diện chính xác các mẫu mã độc. Kết quả này không chỉ khẳng định tính khả thi của mô hình mà còn mở ra hướng đi mới cho việc phát triển các hệ thống bảo vệ an ninh mạng hiệu quả hơn.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát hiện mã độc dựa trên phân tích mẫu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Phần mềm độc hại (malware) đang là mối đe dọa nghiêm trọng đối với an ninh mạng toàn cầu. Theo thống kê, số lượng các cuộc tấn công bằng mã độc đã tăng từ khoảng 25 triệu năm 2008 lên gần 600 triệu vào năm 2017, cho thấy sự gia tăng theo cấp số nhân của các mối nguy hiểm này. Mã độc ngày càng tinh vi với các kỹ thuật đa hình, biến hình và lẩn tránh, khiến việc phát hiện trở nên khó khăn hơn. Đặc biệt, các loại mã độc có mục tiêu như APT (Advanced Persistent Threat) ngày càng phổ biến và nguy hiểm, gây thiệt hại lớn cho các tổ chức, doanh nghiệp và quốc gia.

Luận văn tập trung nghiên cứu phương pháp phát hiện mã độc dựa trên phân tích mẫu, ứng dụng các kỹ thuật học máy để tự động hóa và nâng cao độ chính xác phát hiện. Mục tiêu chính là xây dựng mô hình phát hiện mã độc hiệu quả dựa trên phân tích các đoạn mã assembly trích xuất từ các file thực thi, đồng thời đánh giá hiệu quả của các thuật toán học máy phổ biến như Naive Bayes, SVM, Decision Tree và Random Forest. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ các nguồn trực tuyến với hơn 2700 file mẫu, trong đó có 1738 file mã độc và 998 file bình thường, chủ yếu trên nền tảng Windows với kiến trúc vi xử lý Intel. Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các giải pháp bảo mật mạng, góp phần giảm thiểu rủi ro từ các cuộc tấn công mã độc trong bối cảnh an ninh mạng ngày càng phức tạp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: lý thuyết về mã độc và các kỹ thuật học máy.

Lý thuyết về mã độc: Mã độc (malware) là phần mềm được thiết kế để thực hiện các hành vi gây hại trên hệ thống máy tính. Các loại mã độc phổ biến bao gồm virus khởi động, virus macro, virus script, virus thực thi, Trojan, worm, rootkit, botnet, keylogger và ransomware. Mỗi loại có đặc điểm và phương thức lây lan riêng biệt, đòi hỏi các phương pháp phát hiện phù hợp. Phân tích mã độc được chia thành phân tích tĩnh (đọc mã nguồn hoặc mã máy mà không thực thi) và phân tích động (giám sát hành vi khi mã độc thực thi trong môi trường ảo).
Lý thuyết học máy (Machine Learning): Học máy là công nghệ cho phép máy tính tự học từ dữ liệu để đưa ra dự đoán hoặc phân loại. Các thuật toán học máy phổ biến được áp dụng trong nghiên cứu gồm:
- Naive Bayes: Dựa trên định lý Bayes, giả định các đặc trưng độc lập để tính xác suất phân lớp.
- Support Vector Machine (SVM): Tìm siêu mặt phẳng tối ưu phân chia các lớp dữ liệu với khoảng cách biên lớn nhất.
- Decision Tree (Cây quyết định): Xây dựng các luật phân loại dựa trên đặc trưng dữ liệu, sử dụng entropy và độ lợi thông tin.
- Random Forest: Tập hợp nhiều cây quyết định để cải thiện độ chính xác và ổn định của mô hình.

Các khái niệm chính trong nghiên cứu bao gồm: mã lệnh assembly, trích chọn đặc trưng, chuẩn hóa dữ liệu, ma trận nhầm lẫn, precision, recall và F1-score.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ hai kho dữ liệu trực tuyến là VirusTotal và VirusShare, với tổng cộng 2736 file, trong đó 1738 file mã độc và 998 file bình thường. Các file mã độc thuộc nhiều loại như trojan, worm, virus, adware, spyware. Dữ liệu được gán nhãn rõ ràng để phục vụ cho quá trình huấn luyện và đánh giá mô hình.

Quy trình nghiên cứu gồm các bước:

Tiền xử lý dữ liệu: Sử dụng công cụ objdump để dịch ngược các file thực thi sang mã assembly, trích xuất danh sách mã lệnh từ các đoạn mã này.
Trích chọn đặc trưng: Lựa chọn 29 loại mã lệnh phổ biến nhất làm đặc trưng, tính tần suất xuất hiện của từng mã lệnh trong mỗi chương trình.
Chuẩn hóa dữ liệu: Áp dụng phương pháp chính quy hóa (standardisation) để chuẩn hóa các đặc trưng nhằm tăng tốc độ và hiệu quả huấn luyện.
Phân chia dữ liệu: Chia dữ liệu thành tập huấn luyện (80%) và tập thử nghiệm (20%) với phân bố cân bằng giữa mã độc và bình thường.
Huấn luyện và đánh giá mô hình: Áp dụng các thuật toán học máy Naive Bayes, SVM, Decision Tree và Random Forest để huấn luyện mô hình, đánh giá bằng các chỉ số accuracy, precision, recall, F1-score và ma trận nhầm lẫn.

Thời gian nghiên cứu tập trung vào năm 2021, sử dụng môi trường thực nghiệm trên hệ điều hành Ubuntu 18.04 với cấu hình Intel i5, RAM 4GB, ngôn ngữ Python 3 và các thư viện hỗ trợ như Numpy, Pandas, scikit-learn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của các thuật toán học máy: Thuật toán SVM đạt độ chính xác cao nhất với accuracy 94,89%, precision 97,92%, recall 88,68% và F1-score 93,07%. Trong khi đó, Naive Bayes có độ chính xác thấp nhất, chỉ đạt accuracy 58,76%, precision 98,96%, recall 45,89% và F1-score 62,71%. Điều này cho thấy SVM phù hợp hơn với bài toán phát hiện mã độc dựa trên phân tích mẫu.
Phân bố mã lệnh trong mã độc và chương trình bình thường: 14 loại mã lệnh phổ biến chiếm hơn 90% tổng số mã lệnh trong cả chương trình bình thường và mã độc. Tuy nhiên, mật độ xuất hiện của từng loại mã lệnh có sự khác biệt rõ rệt giữa các loại mã độc khác nhau và chương trình bình thường, tạo cơ sở cho việc phân loại.
Tác động của chuẩn hóa dữ liệu: Việc áp dụng chuẩn hóa chính quy hóa giúp tăng tốc độ huấn luyện và cải thiện độ chính xác của các mô hình học máy, đặc biệt là với các thuật toán như SVM và Random Forest.
Phân bố dữ liệu cân bằng: Việc đảm bảo phân bố cân bằng giữa các lớp trong tập huấn luyện và thử nghiệm giúp giảm thiểu hiện tượng lệch lớp, nâng cao độ tin cậy của kết quả phân loại.

Thảo luận kết quả

Kết quả cho thấy phương pháp phát hiện mã độc dựa trên phân tích mẫu kết hợp học máy là khả thi và hiệu quả. Thuật toán SVM thể hiện ưu thế vượt trội nhờ khả năng xử lý tốt các tập dữ liệu nhiều chiều và có nhiễu, phù hợp với đặc điểm dữ liệu mã lệnh phức tạp. Ngược lại, Naive Bayes bị hạn chế do giả định các đặc trưng độc lập không hoàn toàn đúng trong thực tế, dẫn đến tỷ lệ nhận nhầm cao.

So sánh với các nghiên cứu trước đây, kết quả này phù hợp với báo cáo của ngành khi SVM và Random Forest thường được đánh giá cao trong các bài toán phân loại mã độc. Việc trích chọn đặc trưng dựa trên tần suất mã lệnh assembly là một cách tiếp cận hiệu quả, giúp mô hình học máy nhận diện các mẫu hành vi đặc trưng của mã độc.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố tần suất mã lệnh và ma trận nhầm lẫn để minh họa rõ ràng hiệu quả của từng thuật toán. Các biểu đồ này giúp trực quan hóa mức độ chính xác và sai sót trong phân loại, từ đó hỗ trợ việc lựa chọn thuật toán phù hợp cho ứng dụng thực tế.

Đề xuất và khuyến nghị

Tăng cường thu thập và đa dạng hóa dữ liệu: Mở rộng bộ dữ liệu mã độc và chương trình bình thường với nhiều loại mã độc mới và các định dạng file khác nhau nhằm nâng cao tính đại diện và độ chính xác của mô hình. Thời gian thực hiện: 6-12 tháng. Chủ thể: các tổ chức nghiên cứu và doanh nghiệp an ninh mạng.
Ứng dụng kết hợp nhiều thuật toán học máy: Phát triển mô hình kết hợp (ensemble) giữa SVM, Random Forest và các thuật toán khác để tận dụng ưu điểm của từng phương pháp, giảm thiểu sai sót và tăng độ chính xác phát hiện. Thời gian thực hiện: 3-6 tháng. Chủ thể: nhóm nghiên cứu và phát triển phần mềm bảo mật.
Tích hợp phân tích động và tĩnh: Kết hợp phân tích mẫu tĩnh với phân tích hành vi động trong môi trường sandbox để phát hiện các mã độc đa hình và mã độc có khả năng lẩn tránh, nâng cao khả năng phát hiện các mã độc mới. Thời gian thực hiện: 6-9 tháng. Chủ thể: các công ty phát triển phần mềm chống mã độc.
Phát triển công cụ tự động hóa quy trình phân tích: Xây dựng hệ thống tự động thu thập, tiền xử lý, trích chọn đặc trưng và huấn luyện mô hình để giảm thiểu sự can thiệp thủ công, tăng hiệu quả và tốc độ phát hiện. Thời gian thực hiện: 6 tháng. Chủ thể: các nhóm phát triển phần mềm và trung tâm nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành an ninh mạng, khoa học máy tính: Luận văn cung cấp kiến thức chuyên sâu về mã độc, kỹ thuật học máy và phương pháp phát hiện mã độc dựa trên phân tích mẫu, hỗ trợ nghiên cứu và phát triển đề tài liên quan.
Chuyên gia phát triển phần mềm bảo mật: Các kỹ thuật trích chọn đặc trưng và mô hình học máy được trình bày chi tiết giúp các chuyên gia xây dựng hoặc cải tiến các giải pháp phát hiện mã độc hiệu quả hơn.
Doanh nghiệp và tổ chức quản lý an ninh mạng: Thông tin về các loại mã độc phổ biến và phương pháp phát hiện giúp nâng cao nhận thức, lựa chọn công cụ phù hợp và xây dựng chiến lược phòng chống mã độc hiệu quả.
Nhà quản lý và hoạch định chính sách công nghệ thông tin: Luận văn cung cấp cơ sở khoa học để đánh giá các giải pháp bảo mật hiện tại, từ đó đề xuất chính sách, đầu tư phù hợp nhằm bảo vệ hệ thống thông tin quốc gia và doanh nghiệp.

Câu hỏi thường gặp

Phân tích mẫu mã độc là gì và tại sao quan trọng?
Phân tích mẫu là quá trình trích xuất và phân tích các đặc trưng từ mã lệnh assembly của chương trình để nhận diện mã độc. Phương pháp này giúp phát hiện mã độc dựa trên cấu trúc và hành vi mã lệnh, đặc biệt hiệu quả với các mã độc đa hình và chưa có chữ ký.
Tại sao sử dụng học máy trong phát hiện mã độc?
Học máy cho phép tự động hóa quá trình phát hiện, học từ dữ liệu lớn để nhận diện các mẫu mã độc mới và biến thể mà phương pháp truyền thống dựa trên chữ ký không thể phát hiện kịp thời.
Ưu nhược điểm của các thuật toán học máy phổ biến trong nghiên cứu?
SVM có độ chính xác cao và xử lý tốt dữ liệu phức tạp nhưng tốn thời gian huấn luyện. Naive Bayes đơn giản, nhanh nhưng giả định độc lập đặc trưng không thực tế. Decision Tree dễ hiểu nhưng dễ bị overfitting. Random Forest ổn định và chính xác nhưng khó giải thích.
Làm thế nào để đảm bảo dữ liệu huấn luyện chất lượng?
Cần thu thập dữ liệu đa dạng, cân bằng giữa các lớp, loại bỏ dữ liệu nhiễu và chuẩn hóa đặc trưng để mô hình học máy học hiệu quả và tránh hiện tượng khớp quá.
Phương pháp này có thể áp dụng cho các hệ điều hành khác ngoài Windows không?
Phương pháp có thể mở rộng nhưng cần điều chỉnh công cụ trích xuất mã assembly và đặc trưng phù hợp với kiến trúc và hệ điều hành tương ứng, do cấu trúc mã lệnh và định dạng file khác nhau.

Kết luận

Phương pháp phát hiện mã độc dựa trên phân tích mẫu kết hợp học máy là giải pháp hiệu quả, đặc biệt với thuật toán SVM đạt độ chính xác gần 95%.
Việc trích chọn 29 loại mã lệnh phổ biến làm đặc trưng giúp mô hình nhận diện chính xác các mẫu mã độc và chương trình bình thường.
Chuẩn hóa dữ liệu và phân chia tập huấn luyện, thử nghiệm cân bằng là yếu tố quan trọng nâng cao hiệu quả mô hình.
Kết quả nghiên cứu góp phần phát triển các công cụ phát hiện mã độc tự động, giảm thiểu rủi ro an ninh mạng trong thực tế.
Hướng phát triển tiếp theo là mở rộng dữ liệu, kết hợp phân tích động và tĩnh, phát triển mô hình ensemble và tự động hóa quy trình phân tích.

Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và chuyên gia bảo mật được khuyến khích áp dụng phương pháp này, đồng thời phát triển thêm các kỹ thuật mới nhằm đối phó với sự biến đổi nhanh chóng của mã độc hiện đại.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Phần mềm độc hại đang là một mối đe dọa rất lớn về bảo mật trong thời đại kỹ thuật số ngày nay. Người dùng máy tính, các công ty và chính phủ đang chịu các cuộc tấn công sử dụng các phần mềm độc hại gia tăng theo cấp số nhân: Năm 2008, tổng các cuộc tấn công là khoảng 25 triệu, đến năm 2014, thiệt hại con số này đã tăng gấp 4 lần, lên tới 325 triệu và đến 2017 là gần 600 triệu [1]. Phân tích phần mềm độc hại trở thành một thành phần quan trọng của cơ chế bảo vệ. Phương pháp phân tích tĩnh mã độc cổ điển đã đem lại những hiệu quả cao tuy nhiên nhiều phần mềm độc hại gần đây sử dụng các kỹ thuật đa hình, biến hình và các kỹ thuật lẩn tránh khác để thay đổi hành vi của phần mềm độc hại một cách nhanh chóng và tạo ra một số lượng lớn phần mềm độc hại.

Trong thập kỷ qua, rất nhiều nghiên cứu đã được thực hiện, sử dụng các phương pháp khai phá dữ liệu trên cả phân tích tĩnh và động. Một trong những dạng phần mềm độc hại mới nhất được gọi là phần mềm độc hại có mục tiêu, chưa có nhiều nghiên cứu về nó. Phần mềm độc hại có mục tiêu, là một tập hợp của Mối đe dọa liên tục nâng cao (APT), đang phát triển về số lượng và độ phức tạp trong những năm gần đây. Tấn công mạng có mục tiêu (thông qua phần mềm độc hại được nhắm mục tiêu) ngày càng đóng một vai trò độc hại trong việc phá vỡ hệ thống tài chính và xã hội trực tuyến.

APT được thiết kế để ăn cắp bí mật công ty / quốc gia và / hoặc gây tổn hại đến lợi ích quốc gia / công ty. Rất khó để nhận ra phần mềm độc hại có mục tiêu bằng các công cụ chống vi-rút, Hệ thống phát hiện xâm nhập(Intrusion Detection System - IDS), Hệ thống phòng chống xâm nhập IPS và các công cụ phát hiện phần mềm độc hại tùy chỉnh. Những kẻ tấn công tận dụng các kỹ thuật tấn công xã hội (Social Engineering) cùng với một hoặc nhiều lỗ hổng chưa được phát hiện để thực hiện triển khai các phương thức tấn công. Cùng với đó, sự ra đời gần đây của Mã hóa khóa và Ransomware(phần mềm sau khi lây nhiễm vào máy tính, mã hóa hoặc chặn truy cập dữ liệu) đặt ra những mối đe dọa nghiêm trọng đối với các tổ chức/quốc gia cũng như cá nhân.

7 Luan van Từ nhu cầu phát triển phân tích mã độc trên, luận văn sẽ tập trung nghiên cứu phương pháp phát hiện mã độc dựa trên phân tích mẫu với nội dung được trình bày như sau: Chƣơng 1: Mã độc và một số phƣơng pháp phân tích mã độc Giới thiệu chương về các khái niệm cơ bản về mã độc và phân tích mã độc cũng như một số phương pháp, công cụ xác định mã độc hiện hành. Chƣơng 2: Mô hình phát hiện mã độc Giới thiệu chương: Chương này đưa ra mô hình chung cho việc xử lý các dữ liệu độc hại, giới thiệu cách thức để trích xuất dữ liệu sang dạng phân tích được, cuối cùng là khai phá các mẫu tuần tự để tìm ra ngưỡng phù hợp để xác định mã độc và phân tích xem dữ liệu có phải là độc hại hay không. Chƣơng 3: Thử nghiệm và đánh giá Giới thiệu chương: Chương này giới thiệu về tập dữ liệu, cách thức thực hiện và triển khai mô hình phân tích mã độc Nội dung chương sẽ giới thiệu quá trình thu thập dữ liệu thử nghiệm, xử lý và trích chọn đặc trưng, huấn luyện các mô hình thuật toán học máy, đưa ra kết quả và nhận xét đánh giá. 8 Luan van CHƢƠNG I: TỔNG QUAN VỀ MÃ ĐỘC V CÁC PHƢƠNG PHÁP PHÁT HIỆN Chƣơng I trình bày khái niệm về mã độc, lịch sử phát triển và các loại mã độc phổ biến.

Ngoài ra, trong chƣơng này cũng sẽ đi tìm hiểu về các phƣơng pháp phân tích và phát hiện mã độc cùng các nghiên cứu có liên quan.1 Tổng quan về mã độc 1. Định nghĩa Mã độc hay Malware (Malicious software) là một khái niệm chung dùng để chỉ các phần mềm độc hại được viết với mục đích có thể lây lan phát tán (hoặc không lây lan, phát tán) trên hệ thống máy tính và internet, nhằm thực hiện các hành vi bất hợp pháp nhằm vào người dùng cá nhân, cơ quan, tổ chức. Thực hiện các hành vi chuộc lợi cá nhân, kinh tế, chính trị hoặc đơn giản là để thỏa mãn ý tưởng và sở thích của người viết. Lịch sử phát triển Lịch sử phát triển của mã độc gắn liền với lịch sử phát triển máy tình và mạng máy tính.

Các virus đầu tiên là trò đùa lành tính; virus độc hại không được công khai cho đến đầu những năm 1980. Đầu tiên là Sâu (worms) , được tạo ra vào cuối năm 1970, cũng là lành tính, nhằm thực hiện bảo trì hệ thống. Mã độc đã không trở nên phổ biến cho đến cuối những năm 1980. Trong thời gian đó, hình thức phổ biến nhất là virus, đặc biệt là là các virus nhiễm vào MBR.

Tại thời điểm đó, người viết virus cũng tạo ra một số kỹ thuật khiến virus của họ có thể tránh bị phát hiện. Năm 1988, Morris worm khét tiếng đã được phát hành, phá hoại hàng ngàn máy tính nối mạng. Trojan bắt đầu lộ diện vào giữa năm 1980. Trong những năm đầu thập niên 1990, tình hình phần mềm độc hại phần lớn vẫn không thay đổi, với virus biên soạn tiếp tục là hình thức phổ biến của mã độc.

Tuy nhiên, trong nửa sau của năm 1990, một số thay đổi quan trọng trong máy tính tạo ra cơ hội mới cho các phần mềm độc hại. Thứ nhất, số lượng máy tính cá nhân tăng lên rất nhiều. Ngoài ra, việc sử dụng các ứng dụng Thư điện tử và phần mềm với ngôn ngữ vĩ mô, chẳng hạn như xử lý văn bản và bảng tính, trở nên phổ biến. Theo đó, người viết virus bắt 9 Luan van đầu phát triển virus hiểu và lan truyền qua thư điện tử, cũng như phát triển Sâu với khả năng tương tự.

Hai vụ tấn công giải thích phần mềm độc hại, virus Melissa (năm 1999) và Love-Letter worm (năm 2000), mỗi vụ tấn công ảnh hưởng hàng triệu hệ thống. Kể từ năm 2000, Worms trở thành một dạng phần mềm độc hại phổ biến. Những người viết virus thường thích worms hơn virus vì worms có thể lây lan nhanh hơn nhiều. Trong số các loại virus, virus khởi động đã trở nên khá phổ biến, chủ yếu là do việc sử dụng suy giảm của đĩa mềm; virus macro đã trở thành loại virus phổ biến nhất.

Năm 2001, lần đầu tiên loại virus tấn công trộn, Nimda, đã được phát hành, gây ảnh hưởng nghiêm trọng. Nimda có đặc điểm của virus, worms, và viru di động. Gần đây hơn, mã độc tấn công điện thoại di động đã trở nên ngày càng phổ biến, chủ yếu là do sự phổ biến của các trình duyệt Web và HTML dựa trên thư điện tử; Tuy nhiên, mã độc trên các thiết bị di động vẫn không phổ biến như worms. Một xu hướng khác là nhiều trường hợp của các phần mềm độc hại, bao gồm worms, trojan và mã độc di động, cung cấp các công cụ tấn công, chẳng hạn như các rootkit, keystroke logger, và backdoors, để hệ thống bị nhiễm.

Trong những năm gần đây, cùng với sự phát triển của tiền điện tử, các cuộc tấn công tống tiền bằng mã độc bùng nổ. Nổi bật nhất có thể kể đến cuộc tấn công WannaCry (năm 2017) lây nhiễm cho 250000 máy tính. Sau khi các máy tính bị lây nhiễm, mã độc đã thực hiện mã hoá toàn bộ dữ liệu của người dùng và bắt người dùng phải nộp cho kẻ tấn công một khoản tiền bằng bitcoin để có thể lấy lại được dữ liệu. Với khả năng của các tin tặc, mã độc ngày ngay có thể xâm nhập bằng cách phá vỡ các hàng rào an toàn của hệ điều hành hay xâm nhập vào các lỗ hổng của các phần mềm nhất là các phần mềm thư điện tử, rồi từ đó lan tỏa khắp nơi theo các nối kết mạng hay qua thư điện tử.

Do đó, việc truy tìm ra nguồn gốc phát tán virus sẽ càng khó hơn nhiều. Chính Microsoft, hãng phần mềm tạo ra các phần mềm phổ biến, cũng là một nạn nhân. Họ đã phải nghiên cứu, sửa chữa và phát hành rất nhiều các phần mềm nhằm sửa các khiếm khuyết của phần mềm cũng như phát hành các cập nhật của gói dịch vụ (service pack) nhằm giảm hay vô hiệu hóa các tấn công của mã độc. Nhưng dĩ nhiên với các phần mềm có hàng triệu dòng mã nguồn thì mong ước chúng hoàn hảo theo ý nghĩa của sự an 10 Luan van toàn chỉ có trong lý thuyết.

Đây cũng là cơ hội cho các nhà sản xuất các loại phần mềm bảo vệ, sửa lỗi phát triển. Trong tương lai không xa, mã độc được dự báo sẽ có thêm các bước biến đổi khác, nó bao gồm mọi điểm mạnh sẵn có (polymorphic, hay tấn công bằng nhiều cách thức, nhiều kiểu) và còn kết hợp với các thủ đoạn khác của phần mềm gián điệp (spyware). Đồng thời chúng có thể tấn công vào nhiều hệ điều hành khác nhau chứ không nhất thiết nhắm vào một hệ điều hành độc nhất như trong trường hợp của Microsoft Windows hiện nay. Và có lẽ mã độc sẽ không hề (thậm chí là không cần) thay đổi phương thức tấn công: lợi dụng điểm yếu của máy tính cũng như chương trình.

Các loại mã độc phổ biến a) Vi rút khởi động Virus khởi động, là loại virus lây vào phân vùng khởi động hoặc bản ghi gốc của ổ đĩa cứng. Đây là các khu vực đặc biệt chứa các dữ liệu để khởi động hệ thống, nạp các phân vùng. Vi rút khởi động được thực thi trước khi hệ điều hành được nạp lên. Vì vậy, nó hoàn toàn độc lập với hệ điều hành.

Virus khởi động có nhược điểm là khó viết do không thể sử dụng các dịch vụ, chức năng có sẵn của hệ điều hành và kích thước virus bị hạn chế bởi kích thước của các sector (mỗi sector chỉ có 512 byte). Ngày nay gần như không còn thấy sự xuất hiện của Virus khởi động do đặc điểm lây lan chậm và không phù hợp với thời đại Internet. b) Virus tác vụ (Macro virus) Đây là loại virus đặc biệt tấn công vào chương trình trong bộ Microsoft Office của Microsoft: Word, Excel, Powerpoint. Macro là tính năng hỗ trợ trong bộ công cụ văn phòng Microsoft Office cho phép người sử dụng lưu lại các công việc cần thực hiện lại nhiều lần.

Thực tế hiện nay cho thấy virus macro gần như đã “tuyệt chủng”.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về phát hiện mã độc dựa trên phân tích mẫu" của tác giả Đậu Đức Siêu, dưới sự hướng dẫn của TS. Phạm Hoàng Duy tại Học viện Công nghệ Bưu chính Viễn thông, tập trung vào việc phát hiện mã độc thông qua phân tích mẫu, một lĩnh vực quan trọng trong an toàn thông tin. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp phát hiện mã độc mà còn đề xuất các giải pháp hiệu quả nhằm nâng cao khả năng bảo vệ hệ thống thông tin. Độc giả sẽ tìm thấy nhiều thông tin hữu ích về cách thức hoạt động của mã độc và các kỹ thuật phân tích mẫu, từ đó có thể áp dụng vào thực tiễn để bảo vệ hệ thống của mình.

Nếu bạn quan tâm đến các khía cạnh khác của an toàn thông tin, hãy khám phá thêm về Nghiên Cứu Triển Khai Hệ Thống Giám Sát An Ninh Mạng Dựa Trên Phần Mềm Wazuh, nơi bạn sẽ tìm thấy thông tin về việc giám sát an ninh mạng, một phần không thể thiếu trong việc bảo vệ hệ thống khỏi mã độc. Bên cạnh đó, bài viết Luận văn thạc sĩ về phát hiện sớm mã độc IoT botnet trên các thiết bị IoT cũng sẽ cung cấp cái nhìn sâu sắc về cách phát hiện mã độc trong môi trường IoT, một lĩnh vực đang ngày càng trở nên quan trọng. Cuối cùng, bạn có thể tham khảo Luận văn thạc sĩ về phát hiện tấn công ứng dụng web dựa trên log truy cập sử dụng bộ phân lớp rừng ngẫu nhiên để hiểu rõ hơn về các phương pháp phát hiện tấn công trong ứng dụng web, một phần quan trọng trong việc bảo vệ thông tin trực tuyến. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và nâng cao khả năng bảo mật cho hệ thống của mình.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#an ninh mạng

#khoa học máy tính

#phân tích mẫu

#phát hiện mã độc

Chủ đề

Nghiên cứu và phát triển trong lĩnh vực công nghệ thông tin

An ninh mạng và bảo mật thông tin

Phân tích và xử lý dữ liệu

Giáo dục và nghiên cứu sau đại học