Nghiên Cứu Phương Pháp Tự Động Hóa Khai Thác Xâm Nhập Hệ Thống Mạng Dựa Trên Học Tăng Cường Phân Cấp

Khóa luận nghiên cứu phương pháp tự động hóa khai thác xâm nhập hệ thống mạng bằng học tăng cường phân cấp trong an toàn thông tin.

Trường đại học

Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Ngành An toàn thông tin

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. TÓM TẮT ĐỀ TÀI

2. TỔNG QUAN

2.1. Giới thiệu vấn đề

2.2. Giới thiệu những nghiên cứu liên quan

2.2.1. Công trình nghiên cứu Automating Privilege Escalation with Deep Reinforcement Learning

2.2.2. Công trình nghiên cứu Automating post-exploitation with deep reinforcement learning

2.2.3. Công trình nghiên cứu An Intelligent Penetration Testing Method Using Human Feedback

2.2.4. Công trình nghiên cứu Raiju: Reinforcement Learning-Guided Post-Exploitation for Automating Security Assessment of Network Systems

2.3. Nhận định về các nghiên cứu liên quan

2.4. Định hướng phát triển từ các nghiên cứu liên quan

2.5. Mục tiêu, đối tượng, và phạm vi nghiên cứu

2.5.1. Mục tiêu nghiên cứu

2.5.2. Đối tượng và phạm vi nghiên cứu

2.6. Cấu trúc khóa luận tốt nghiệp

3. CƠ SỞ LÝ THUYẾT

3.1. Kiểm thử xâm nhập

3.2. Hậu khai thác xâm nhập

3.3. Kiểm thử xâm nhập tự động

3.4. Deep Learning hoạt động như thế nào?

3.5. Học tăng cường (Reinforcement Learning)

3.5.1. Quy trình quyết định Markov (Markov Decision Process - MDP)

3.5.2. Tổng quan mô hình học tăng cường

3.5.3. Mô hình học tăng cường sâu

3.5.4. Các thuật toán Deep Reinforcement Learning

3.5.4.1. Value-based và Policy-based

3.5.4.2. Actor và Critic

3.5.4.3. Thuật toán Advantage Actor Critic (A2C)

3.5.4.4. Thuật toán Proximal Policy Optimization (PPO)

3.5.5. Mô hình học tăng cường sâu phân cấp

4. MÔ HÌNH HỌC TĂNG CƯỜNG SÂU PHÂN CẤP CHO QUÁ TRÌNH TỰ ĐỘNG HÓA HẬU KHAI THÁC XÂM NHẬP

4.1. Định nghĩa 2 lớp tác nhân Upper-level Agent và Lower-level Agent của tác nhân học tăng cường sâu phân cấp (HDRL Agent)

4.1.1. Upper-level Agent

4.1.2. Lower-level Agent

4.1.3. Mô hình học tăng cường sâu phân cấp trong tự động hóa hậu khai thác xâm nhập

5. KẾT QUẢ THỰC NGHIỆM, PHÂN TÍCH - ĐÁNH GIÁ

5.1. Thiết lập thí nghiệm

5.1.1. Tổng quan môi trường thí nghiệm

5.1.2. Ý tưởng cho việc tăng tốc quá trình huấn luyện

5.1.3. Chi tiết quá trình huấn luyện

5.2. Kết quả khai thác của công cụ

5.3. Tổng quan quá trình huấn luyện

5.4. Thời gian huấn luyện của hai thuật toán HA2C và HPPO

5.5. Kết quả thực nghiệm trên các môi trường đánh giá (testing)

5.6. Kết luận việc so sánh giữa hai thuật toán HA2C và HPPO từ kết quả của quá trình thực nghiệm

5.6.1. Kết quả đạt được

5.6.2. Khó khăn và thách thức

5.6.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Nghiên Cứu Tự Động Hóa Khai Thác Mạng

Nghiên cứu tự động hóa khai thác mạng dựa trên học tăng cường phân cấp đang trở thành một xu hướng quan trọng trong lĩnh vực an ninh mạng. Với sự phát triển của công nghệ, việc áp dụng các phương pháp tự động hóa giúp nâng cao hiệu quả và giảm thiểu rủi ro trong quá trình kiểm thử thâm nhập. Học tăng cường phân cấp (HDRL) là một trong những phương pháp hứa hẹn, cho phép tối ưu hóa các hành động trong quá trình khai thác mạng.

1.1. Khái Niệm Về Tự Động Hóa Khai Thác Mạng

Tự động hóa khai thác mạng là quá trình sử dụng các thuật toán và công nghệ để thực hiện các cuộc tấn công mạng mà không cần sự can thiệp của con người. Điều này giúp tiết kiệm thời gian và nguồn lực trong việc phát hiện và khắc phục các lỗ hổng bảo mật.

1.2. Lợi Ích Của Học Tăng Cường Phân Cấp

Học tăng cường phân cấp cho phép phân chia các tác vụ phức tạp thành các nhiệm vụ nhỏ hơn, giúp cải thiện hiệu suất và khả năng ra quyết định của hệ thống. Điều này đặc biệt hữu ích trong các kịch bản kiểm thử thâm nhập, nơi mà không gian hành động rất lớn.

II. Vấn Đề Và Thách Thức Trong Tự Động Hóa Khai Thác Mạng

Mặc dù có nhiều lợi ích, việc tự động hóa khai thác mạng cũng đối mặt với nhiều thách thức. Độ phức tạp của các kịch bản tấn công và không gian hành động rộng lớn có thể làm giảm hiệu suất của các hệ thống tự động. Cần có các giải pháp hiệu quả để khắc phục những vấn đề này.

2.1. Độ Phức Tạp Của Kịch Bản Tấn Công

Các kịch bản tấn công ngày càng trở nên phức tạp, đòi hỏi các hệ thống tự động phải có khả năng xử lý nhiều tình huống khác nhau. Điều này tạo ra áp lực lớn cho các thuật toán học máy trong việc đưa ra quyết định chính xác.

2.2. Không Gian Hành Động Rộng Lớn

Không gian hành động rộng lớn có thể dẫn đến việc các thuật toán gặp khó khăn trong việc tìm kiếm các hành động tối ưu. Việc phân tách các hành động thành các nhóm nhỏ hơn có thể giúp cải thiện hiệu suất của hệ thống.

III. Phương Pháp Tự Động Hóa Khai Thác Mạng Hiệu Quả

Để giải quyết các thách thức trong tự động hóa khai thác mạng, nhiều phương pháp đã được đề xuất. Trong đó, mô hình học tăng cường sâu phân cấp (HDRL) nổi bật với khả năng tối ưu hóa các hành động trong quá trình kiểm thử thâm nhập.

3.1. Mô Hình Học Tăng Cường Sâu Phân Cấp

Mô hình HDRL sử dụng hai lớp tác nhân để xử lý các hành động khác nhau trong quá trình hậu khai thác. Điều này giúp tăng cường khả năng ra quyết định và cải thiện hiệu suất của hệ thống.

3.2. Ứng Dụng Các Thuật Toán Học Tăng Cường

Các thuật toán như A2C và PPO được áp dụng trong mô hình HDRL để tối ưu hóa quá trình khai thác. Những thuật toán này cho phép hệ thống học hỏi từ các trải nghiệm trước đó và cải thiện khả năng ra quyết định.

IV. Ứng Dụng Thực Tiễn Của Nghiên Cứu

Nghiên cứu về tự động hóa khai thác mạng đã cho thấy nhiều ứng dụng thực tiễn trong lĩnh vực an ninh mạng. Các công cụ tự động hóa giúp nâng cao hiệu quả kiểm thử thâm nhập và giảm thiểu rủi ro cho các tổ chức.

4.1. Công Cụ Kiểm Thử Thâm Nhập Tự Động

Các công cụ như Metasploit và PowerShell Empire đã được cải tiến để hỗ trợ quá trình tự động hóa khai thác. Những công cụ này giúp các chuyên gia an ninh mạng thực hiện kiểm thử một cách hiệu quả hơn.

4.2. Kết Quả Nghiên Cứu Thực Tế

Kết quả từ các nghiên cứu cho thấy mô hình HDRL có khả năng đạt được mục tiêu kiểm thử với số lượng thao tác tối thiểu, cho thấy tính hiệu quả của phương pháp này trong thực tế.

V. Kết Luận Và Tương Lai Của Nghiên Cứu

Nghiên cứu về tự động hóa khai thác mạng dựa trên học tăng cường phân cấp mở ra nhiều triển vọng cho tương lai. Việc cải tiến các thuật toán và mô hình sẽ giúp nâng cao hiệu quả và độ chính xác trong quá trình kiểm thử thâm nhập.

5.1. Triển Vọng Phát Triển

Với sự phát triển không ngừng của công nghệ, các mô hình học máy sẽ ngày càng được cải tiến, giúp nâng cao khả năng tự động hóa trong lĩnh vực an ninh mạng.

5.2. Hướng Nghiên Cứu Tương Lai

Các nghiên cứu trong tương lai có thể tập trung vào việc kết hợp nhiều phương pháp khác nhau để tối ưu hóa quá trình tự động hóa khai thác mạng, từ đó nâng cao tính hiệu quả và độ chính xác.

10/07/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp an toàn thông tin nghiên cứu phương pháp tự động hóa khai thác xâm nhập hệ thống mạng dựa trên học tăng cường phân cấp

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu tổng quan về đề tài và những nghiên cứu liên quan. e Chương 2: Trinh bay cơ sở lý thuyết và kiến thức nền tang liên quan đến đề tài. e Chương 3: Trình bày mô hình học tăng cường phân cấp cho tự động hóa hậu khai thác xâm nhập. e Chương 4: Trình bày kết quả thực nghiệm, phân tích - đánh giá.

e Chương 5: Kết luận và hướng phát triển của đề tài. CƠ SỞ LY THUYET Chương này trình bày cơ sở lý thuyết của nghiên cứu: Bao gồm kiểm thử xâm nhập, mô hình học máy, và mô hình học tăng cường, các thuật toán học tăng cường trong hậu khai thác (PPO, A2C, HDRL). Kiểm thử xâm nhập 2. Khéi niém Kiểm thử xâm nhập (Penetration Testing - Pentest - PT) là hình thức đánh giá mức độ an toàn của một hệ thống mạng bằng các cuộc tấn công mô phỏng thực tế.

Hiểu đơn giản, PT cố gắng xâm nhập vào hệ thống để phát hiện ra những điểm yếu tiềm tàng của hệ thống mà tin tặc có thể khai thác và gây thiệt hại. Mục tiêu của PT là giúp tổ chức phát hiện càng nhiều lỗ hổng càng tốt, từ đó khắc phục chúng để loại trừ khả năng bị tấn công trong tương lai. Có 3 hình thức PT thường gặp: e Kiểm thử hộp trắng (White box Testing): Trong hình thức pentest white box, các chuyên gia kiểm thử được cung cấp đầy đủ thông tin về đối tượng mục tiêu trước khi họ tiến hành kiểm thử. Những thông tin này bao gồm: địa chỉ IP, sơ đồ hạ tầng mạng, các giao thức sử dụng, hoặc source code.

e Kiểm thử hộp xám (Gray box Testing): Pentest gray box là hình thức kiểm thử mà pentester nhận được một phần thông tin của đối tượng kiểm thử, ví dụ URL, IP address,. nhưng không có hiểu biết đầy đủ hay quyền truy cập vào đối tượng. 15 e Kiểm thử hộp den (Black box Testing): Là hình thức pentest dưới góc độ của một hacker trong thực tế. Với hình thức này, các chuyên gia kiểm thử không nhận được bất kỳ thông tin nào về đối tượng trước khi tấn công.

Các chuyên gia kiểm thử phải tự tìm kiếm và thu thập thông tin về đối tượng để tiến hành kiểm thử. Loại hình pentest này yêu cầu một lượng lớn thời gian tìm hiểu và nỗ lực tấn công, nên chi phí không hề rẻ. Hậu khai thác xâm nhập Hậu khai thác xâm nhập (Post-exploitation) là giai đoạn diễn ra sau khi tin tặc hoặc kẻ tấn công đã xâm nhập thành công vào hệ thống mạng hoặc máy chủ mục tiêu bằng việc khai thác các lỗ hổng hay tìm được cách để xâm nhập vào hệ thống. Ở giai đoạn này, mục tiêu của kẻ tấn công là duy trì và mở rộng quyền truy cập vào hệ thống đã bị xâm nhập, thu thập thông tin nhạy cảm, mở rộng tấn công sang các máy chủ lân cận trong mạng, tiếp tục khai thác các lỗ hồng khác hoặc thực hiện các hoạt động độc hại khác trên hệ thống đã bị xâm chiếm.

© @ © M Setup Discovery Enumeration Detection = © © ie Final Testing Oo Exploitation À6 Re Có © © © © Remediation Read-Out Reporting Post Exploitation Hình 2.1: Hậu khai thác ram nhập (Post-exploitation) nằm ở giai đoạn 6 của quá trành PT Trong quá trình hậu khai thác xâm nhập, kẻ tấn công thường dùng những công cụ và phương pháp khác nhau để truy cập và kiểm soát hệ thống mà không bị phát hiện. Các hoạt động hậu khai thác xâm nhập có thể bao gồm việc tìm kiếm các thông tin quan trọng như tên người dùng, mật khẩu, các tệp tin quan 16 trọng, cài đặt backdoor để duy trì quyền truy cập, mở rộng truy cập vào các máy chủ khác trong mạng nội bộ, tăng quyền hạn truy cập, hoặc thực hiện các cuộc tan công tiếp theo như tấn công theo chuỗi (lateral movement), leo thang đặc quyền (privilege escalation), lừa đảo (phishing) và lây lan malware. Quá trình hậu khai thác là một phần quan trọng trong quá trình PT và nghiên cứu bảo mật mạng, được diễn ra sau quá trình PT và trước khi viết báo cáo cuối cùng về quá trình PT. Việc hiểu và tìm hiểu về cách kẻ tấn công hoạt động trong giai đoạn hậu khai thác giúp các chuyên gia bảo mật xác định các biện pháp phòng ngừa và bảo vệ hiệu quả, ngăn chặn và phát hiện sự xâm nhập và sử dụng lại hệ thống một cách an toàn.

lộ day tôi sẽ áp dụng phương pháp tự động hóa bước hậu khai thác xâm nhập bằng phương pháp học tăng cường sâu phân cấp (Hierarchical Deep Reinforce- ment Learning) để kiểm tra mức độ ảnh hưởng của hệ thống khi bị tin tặc tấn công vào hệ thống mạng, từ đó giúp Pentester dễ dàng hơn trong việc bảo mật hệ thống. Kiểm thử xâm nhập tự động Kiểm thử xâm nhập tự động (Automated Penetration Testing) là quá trình xác định các lỗ hồng trong hệ thống bảo mật bằng cách sử dung các công cụ PT hoặc hệ thống một cách tự động để khai thác và phát hiện mức độ đe dọa do các 16 hồng hiện tại gây ra va để hiểu tác động của chúng. Một số mới lợi ích mà kiểm thử xâm nhập tự động mang lại: e Tốc độ và hiệu qua: Một trong những ưu điểm chính của kiểm thử xâm nhập tự động là khả năng xác định nhanh chóng các lỗ hồng bảo mật trên nhiều hệ thống. Với việc sử dụng các công cụ tự động, các tổ chức có thể quét mạng và ứng dụng của họ trong một khoảng thời gian ngắn mà con người cần để thực hiện các nhiệm vụ tương tự.

e Khả năng mở rộng: Khi các tổ chức phát triển, mạng lưới và hệ thống 17 của họ cũng phát triển, khiến các chuyên gia bảo mật ngày càng gặp khó khăn trong việc theo kịp tốc độ mở rộng. Thử nghiệm xâm nhập tự động cung cấp giải pháp có thể mở rộng, có thể dễ dàng triển khai trên cơ sở hạ tầng đang mở rộng của tổ chức, đảm bảo kiểm tra bảo mật liên tục đối với các mẫu lỗ hổng đã biết. e Chi phí: Việc thuê một công ty an ninh mạng chuyên biệt hoặc người kiểm thử xâm nhập toàn thời gian có thể tốn kém, đặc biệt đối với các tổ chức nhỏ hơn với ngân sách hạn chế. Kiểm thử xâm nhập tự động có thể là một lựa chọn tiết kiệm chi phí hơn, cho phép doanh nghiệp tiến hành đánh giá bảo mật thường xuyên ma không tốn nhiều chi phí.

e Kiểm tra bảo mật liên tục: Với khả năng quét suốt ngày đêm, kiểm thử xâm nhập tự động có thể cung cấp khả năng giám sát liên tục các hệ thống của tổ chức, xác định các lỗ hồng đã biết khi chúng phát sinh và cảnh báo cho các nhóm bảo mật trong thời gian thực. Cách tiếp cận chủ động này có thể giúp các tổ chức đón đầu các mối đe dọa tiềm an và phan ứng nhanh chóng. Học máy (Machine Learning) Học máy hay máy học (Machine Learning) là một loại Trí tuệ nhân tạo (Artificial Intelligence - AI) cho phép các ứng dung phần mềm trở nên chính xác hơn trong việc dự đoán kết quả mà không cần được lập trình rõ ràng để làm như vậy. Các thuật toán học máy sử dụng dữ liệu lịch sử làm đầu vào để dự đoán các giá trị đầu ra mới.

Một số ứng dụng phổ biến của học máy bao gồm hệ thống đề xuất (recommend system), hệ thống phát hiện bất thường (anomaly detection), phát hiện xâm nhập (ids), phần mềm độc hại (malwares), lọc thư rác (spam email). Học máy cổ điển thường được phân loại theo cách một thuật toán học để trở nên chính xác hơn trong các dự đoán của nó. Có bốn cách tiếp cận cơ bản: học có giám sát, học không giám sát, học bán giám sát va hoc tăng 18 cường. Loại thuật toán mà các nhà khoa học sử dụng tùy thuộc vào loại dữ liệu họ muốn dự đoán.

e Học có giám sát (Supervised Machine Learning): Trong loại hoc máy này, các nhà nghiên cứu cung cấp các thuật toán với dữ liệu huấn luyện được gắn nhãn và xác định các biến mà họ muốn thuật toán đánh giá để tìm mối tương quan. Cả đầu vào và đầu ra của thuật toán đều được chỉ định. e Học không giám sát (Unsupervised Machine Learning): Loại học máy này liên quan đến các thuật toán đào tạo trên dit liệu không được gắn nhãn. Thuật toán quét qua các tập dit liệu để tìm kiếm bất kỳ kết nối có ý nghĩa nào.

Dữ liệu mà các thuật toán đào tạo cũng như các dự đoán hoặc khuyến nghị mà chúng xuất ra được xác định trước. e Học bán giám sát (Semi-Supervised Learning): Cách tiếp cận này đối với học máy liên quan đến sự kết hợp của hai loại trước đó. Các nhà khoa học dữ liệu có thể cung cấp một thuật toán chủ yếu là dữ liệu đào tạo được gắn nhãn, nhưng mô hình có thể tự do khám phá dữ liệu và phát triển sự hiểu biết của riêng mình về tập dữ liệu. e Hoc tăng cường (Reinforcement Learning): những người nghiên cứu thường sử dụng học tăng cường để dạy máy hoàn thành một quy trình gồm nhiều bước trong đó có các quy tắc được xác định rõ ràng.

Các nhà khoa học lập trình một thuật toán để hoàn thành một nhiệm vụ và cung cấp cho nó những dấu hiệu tích cực hoặc tiêu cực khi nó tìm ra cách hoàn thành một nhiệm vụ. Nhưng phần lớn, thuật toán tự quyết định những bước cần thực hiện trong quá trình thực hiện. Khai niệm, Học sâu (Deep Learning) là một phương pháp trong lĩnh vực Trí tuệ nhân tạo (Artificial Intelligence - AT) mà tập trung vào việc xây dựng và huấn luyện các mạng neural (neural networks) có cấu trúc mạng neural sâu (deep neural networks) để tự động học và suy nghĩ giống như bộ não của con người. Deep Learning được gọi là "sâu" vì nó bao gồm nhiều tầng (lớp) của các đơn vị tính toán gọi là neurons.

Các tầng này kết nối với nhau và truyền dữ liệu qua từ tầng này sang tầng khác, qua đó tạo thành một mạng neural có khả năng học tập phức tạp. Quá trình huấn luyện mạng neural sâu thường được thực hiện thông qua quá trình gọi là lan truyền ngược (backpropagation), trong đó mô hình tìm cách điều chỉnh các trọng số để tối ưu hóa kết quả đầu ra so với kết quả mong đợi. Deep Learning đã gây ra cuộc cách mạng trong nhiều lĩnh vực như thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận dạng giọng nói. Ví dụ, trong thị giác máy tính, các mạng neural sâu đã đạt được kết quả ấn tượng trong việc phân loại ảnh, nhận dạng khuôn mặt và phát hiện vật thể.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Nghiên cứu về tự động hóa trong an ninh mạng

Ứng dụng học máy trong kiểm thử xâm nhập

Phương pháp học tăng cường trong bảo mật

Phát triển công cụ tự động hóa kiểm thử