NÂNG CAO KHẢ NĂNG PHÁT HIỆN WEBSHELL BẰNG CÁC PHƯƠNG PHÁP ỨNG DỤNG DEEP LEARNING

Luận án tiến sĩ về Hệ thống thông tin: Nghiên cứu các phương pháp học sâu nâng cao để phát hiện webshell và mã độc hiệu quả. Ứng dụng Deep Learning trong an ninh mạng.

Chuyên ngành

Information Systems

Người đăng

Ẩn danh

Thể loại

Luận án Tiến sĩ

2024

139
2
0

Phí lưu trữ

35 Point

Mục lục chi tiết

DECLARATION OF AUTHORSHIP

ACKNOWLEDGEMENTS

ABSTRACT

TABLE OF CONTENTS

1. INTRODUCTION

1.1. Research Motivations

1.2. Research Challenges

1.3. Objectives of Dissertation

1.4. Research Scope

1.5. Methodologies

1.6. Research Contributions

2. THEORETICAL BACKGROUND AND PRELIMINARIES

2.1. Fundamental Concepts

2.2. Webshell Evasion

2.3. Webshell Detection Approaches

2.4. Webshell Dataset Collection

2.5. Non-AI Approaches

2.6. AI-Powered Source Code Analysis Approaches

2.7. AI-Powered Network Analysis Approaches

2.8. Dissertation Research Direction

2.9. Summary of Chapter 1

3. DL-POWERED WEBSHELL DETECTION BY SOURCE CODE ANALYSIS

3.1. Proposed DL-Powered Source Code Analysis Framework

3.2. PHP Webshell Detection

3.3. Yara-Based Analysis

3.4. Dataset Collecting and Cleaning

3.5. Hyperparameter Tuning CNN Model

3.6. Experimental Results and Evaluation

3.7. Results and Evaluation .NET Webshell Detection

3.8. Yara-based Analysis

3.9. CNN Model Hyperparameter Tuning

3.10. Dataset Collecting and Cleaning

3.11. Experimental Results and Evaluations

3.12. Results and Evaluation

3.13. Summary of Chapter 2

4. DL-POWERED PROACTIVE WEBSHELL DETECTION AND PREVENTION BY HTTP TRAFFIC ANALYSIS

4.1. Proactive Webshell Detection and Prevention

4.2. Deep Learning Intrusion Detection Model

4.3. Webshell Detection and Prevention

4.4. Handling Imbalanced Datasets

4.5. Experiments and Evaluation

4.6. Results and Evaluation

4.7. Comparisons and Discussions

4.8. Summary of Chapter 3

5. CONCLUSION AND FUTURE WORKS

5.1. Contribution Highlights

5.2. Dissertation Limitations

5.3. Future Works

BIBLIOGRAPHY

LIST OF FIGURES

LIST OF TABLES

ABBREVIATIONS

Tóm tắt

I. Tổng quan Phát hiện Webshell nâng cao bằng Deep Learning

Sự gia tăng của các cuộc tấn công webshell là một mối đe dọa lớn đối với an ninh web. Luận án này tập trung vào việc phát triển các cơ chế phát hiện mạnh mẽ, đặc biệt là sử dụng Deep Learning for Webshell detection. Hai hướng nghiên cứu chính được xác định: quét mã nguồn ứng dụng web và phân tích sâu lưu lượng HTTP. Mục tiêu là nâng cao khả năng phát hiện cả known and unknown webshells, một thách thức lớn trong bối cảnh các kỹ thuật tấn công ngày càng tinh vi. Các cuộc tấn công Malware detection using deep learning đang ngày càng trở nên phổ biến. Tầm quan trọng của Web application securityWeb server security chưa bao giờ lớn hơn. Luận án này đóng góp vào lĩnh vực Cybersecurity threats bằng cách đề xuất các phương pháp tiếp cận mới để đối phó với mối đe dọa này. "Webshell attacks pose a severe threat to organisations due to the extensive damage and vulnerabilities they introduce after compromising web-facing servers."

1.1. Bản chất và sự nguy hiểm của Webshells

Webshell là các đoạn mã độc được viết bằng ngôn ngữ lập trình web phổ biến, cho phép kẻ tấn công thực thi lệnh hệ thống từ xa. Chúng có thể vượt qua các biện pháp phòng thủ mạng truyền thống bằng cách sử dụng các giao thức được cho phép như HTTP hoặc HTTPS. Webshell rất nguy hiểm vì chúng có thể được sử dụng để duy trì quyền truy cập trái phép, đánh cắp dữ liệu nhạy cảm và thậm chí lây lan sang các mạng nội bộ. Kẻ tấn công thường sử dụng các kỹ thuật che giấu như mã hóa base64 hoặc mã hóa hex để tránh bị phát hiện, làm cho việc phát hiện trở nên khó khăn hơn. Điều này đòi hỏi các phương pháp phát hiện Advanced Webshell detection techniques liên tục được cải tiến. Các Security vulnerabilities mà webshell khai thác cần được vá một cách nhanh chóng.

1.2. Các phương pháp phát hiện Webshell hiện tại Ưu và nhược điểm

Các phương pháp phát hiện webshell hiện tại bao gồm phân tích mã nguồn và phân tích dựa trên mạng. Phân tích mã nguồn kiểm tra các tệp ứng dụng web để tìm các dấu hiệu của webshell, nhưng có thể gặp khó khăn trong việc phát hiện các webshell được mã hóa hoặc tùy chỉnh cao. Phân tích dựa trên mạng phân tích lưu lượng web để tìm các mẫu bất thường, nhưng có thể bị bỏ qua bởi các webshell được thiết kế để bắt chước lưu lượng truy cập hợp pháp. Cả hai phương pháp đều có những hạn chế, làm nổi bật sự cần thiết của các phương pháp phát hiện tiên tiến hơn như sử dụng Deep learning for Webshell detection. Những phương pháp truyền thống này có thể không hiệu quả trước các kỹ thuật tấn công ngày càng tinh vi.

II. Thách thức Vượt qua rào cản trong Phát hiện Webshell Deep Learning

Mặc dù Deep learning for Webshell detection mang lại nhiều hứa hẹn, nhưng vẫn còn những thách thức đáng kể. Một trong những thách thức lớn nhất là sự đa dạng của ngôn ngữ webshell, đòi hỏi các mô hình có khả năng khái quát hóa trên nhiều ngôn ngữ khác nhau. Ngoài ra, việc đối phó với các kỹ thuật che giấu và tấn công đối nghịch là rất quan trọng để đảm bảo tính mạnh mẽ của các mô hình. Việc có đủ bộ dữ liệu huấn luyện cũng là một thách thức, đặc biệt là đối với các loại webshell mới và hiếm gặp. Các nghiên cứu trước đây có thể tập trung vào một ngôn ngữ cụ thể như PHP, nhưng thiếu khả năng mở rộng để áp dụng cho các ngôn ngữ khác như ASP.NET. “Defenders also face challenges in obtaining robust datasets spanning various obfuscation schemas needed to train machine learning models.”

2.1. Sự đa dạng của ngôn ngữ Webshell và nhu cầu khái quát hóa

Webshell có thể được viết bằng nhiều ngôn ngữ khác nhau, bao gồm PHP, Python, Perl, ASP, JSP và Ruby. Mỗi ngôn ngữ có cú pháp và tính năng riêng, đòi hỏi các mô hình học sâu có khả năng xử lý sự đa dạng này. Việc tạo ra các mô hình có thể khái quát hóa trên nhiều ngôn ngữ là rất quan trọng để phát hiện webshell một cách hiệu quả trong các môi trường web khác nhau. Hơn nữa, các mô hình cần có khả năng hiểu được các chức năng của webshell bất kể ngôn ngữ được sử dụng để viết chúng. Điều này đòi hỏi một sự hiểu biết sâu sắc về các mô hình lập trình khác nhau và các cách khác nhau mà các webshell có thể được triển khai.

2.2. Đối phó với các kỹ thuật che giấu và tấn công đối nghịch

Kẻ tấn công thường sử dụng các kỹ thuật che giấu để tránh bị phát hiện, chẳng hạn như mã hóa, mã hóa và đa hình. Điều này đòi hỏi các mô hình học sâu có khả năng phát hiện webshell ngay cả khi chúng được che giấu. Ngoài ra, các mô hình cần có khả năng chống lại các cuộc tấn công đối nghịch, trong đó kẻ tấn công cố gắng lừa các mô hình bằng cách tạo ra các mẫu đầu vào được thiết kế đặc biệt. Việc phát triển các biện pháp phòng thủ chống lại các cuộc tấn công này là rất quan trọng để đảm bảo tính mạnh mẽ của các mô hình phát hiện webshell. Các cuộc tấn công Adversarial attacks on Deep Learning models có thể dễ dàng đánh lừa các mô hình học sâu nếu không có biện pháp phòng vệ.

2.3. Hạn chế về dữ liệu và nhu cầu về bộ dữ liệu toàn diện

Việc có đủ bộ dữ liệu huấn luyện là rất quan trọng để huấn luyện các mô hình học sâu hiệu quả. Tuy nhiên, việc thu thập và gắn nhãn dữ liệu webshell có thể tốn thời gian và khó khăn. Ngoài ra, các bộ dữ liệu có thể không đại diện cho toàn bộ phạm vi các webshell, đặc biệt là các loại mới và hiếm gặp. Việc xây dựng các bộ dữ liệu toàn diện bao gồm nhiều ngôn ngữ và kỹ thuật che giấu khác nhau là rất quan trọng để cải thiện hiệu suất của các mô hình phát hiện webshell. Cần có các Dataset for Webshell detection được cập nhật thường xuyên để theo kịp các kỹ thuật tấn công mới.

III. Giải pháp ASAF Khung quét mã nguồn dựa trên Deep Learning

Luận án đề xuất một khung quét mã nguồn dựa trên DL tiên tiến, gọi là ASAF, tích hợp các kỹ thuật dựa trên chữ ký với các thuật toán học sâu để tăng cường khả năng phát hiện cả known and unknown webshells. Khung này được thiết kế để tạo điều kiện thuận lợi cho việc tạo các mô hình phát hiện tùy chỉnh cho nhiều ngôn ngữ lập trình khác nhau. ASAF sử dụng cả phân tích tĩnh và động để xác định các hoạt động đáng ngờ. Nó cũng bao gồm một cơ chế để đánh giá hiệu quả của các mô hình phát hiện bằng cách sử dụng nhiều Evaluation metrics for Webshell detection. Luận án này tập trung vào hai ngôn ngữ: PHP (ngôn ngữ thông dịch) và ASP.NET (ngôn ngữ biên dịch).

3.1. Kiến trúc và các thành phần của khung ASAF

ASAF bao gồm một số thành phần chính, bao gồm một mô-đun trích xuất tính năng, một mô-đun mô hình hóa học sâu và một mô-đun đánh giá. Mô-đun trích xuất tính năng trích xuất các tính năng có liên quan từ mã nguồn, chẳng hạn như cú pháp, ngữ nghĩa và cấu trúc hành vi. Mô-đun mô hình hóa học sâu sử dụng các thuật toán học sâu để xây dựng các mô hình phát hiện. Mô-đun đánh giá đánh giá hiệu quả của các mô hình phát hiện bằng cách sử dụng nhiều số liệu khác nhau, chẳng hạn như độ chính xác, độ chính xác và khả năng thu hồi. Các mô hình Machine learning for security cần được xây dựng một cách cẩn thận để đảm bảo hiệu quả cao.

3.2. Tùy chỉnh mô hình phát hiện cho các ngôn ngữ lập trình khác nhau

ASAF được thiết kế để cho phép tạo các mô hình phát hiện tùy chỉnh cho nhiều ngôn ngữ lập trình khác nhau. Điều này đạt được bằng cách cung cấp một tập hợp các API có thể được sử dụng để phát triển các mô-đun trích xuất tính năng cụ thể cho ngôn ngữ và các mô hình học sâu. Bằng cách tùy chỉnh các mô hình phát hiện cho từng ngôn ngữ, có thể đạt được độ chính xác phát hiện cao hơn. Hơn nữa, ASAF cho phép các nhà nghiên cứu thử nghiệm với các kiến trúc học sâu khác nhau và các kỹ thuật trích xuất tính năng để tìm ra sự kết hợp tốt nhất cho một ngôn ngữ cụ thể.

3.3. Tích hợp các kỹ thuật dựa trên chữ ký để tăng cường độ chính xác

ASAF tích hợp các kỹ thuật dựa trên chữ ký với các thuật toán học sâu để tăng cường khả năng phát hiện cả webshell đã biết và chưa biết. Các kỹ thuật dựa trên chữ ký sử dụng các mẫu đã biết của mã độc để xác định webshell. Các thuật toán học sâu được sử dụng để học các mẫu từ dữ liệu và phát hiện các webshell mới dựa trên các mẫu này. Bằng cách kết hợp hai kỹ thuật này, ASAF có thể đạt được độ chính xác phát hiện cao hơn so với một trong hai kỹ thuật được sử dụng riêng lẻ. Các chữ ký có thể giúp xác định các webshell phổ biến, trong khi học sâu có thể phát hiện các biến thể mới và không rõ ràng.

IV. Giải pháp Phát hiện chủ động Webshell qua phân tích lưu lượng HTTP

Luận án giới thiệu một mạng nơ-ron sâu sử dụng phân tích lưu lượng HTTP thời gian thực để phát hiện webshell. Một thuật toán được đề xuất để cải thiện hàm mất mát được áp dụng trong mô hình học sâu để giải quyết vấn đề mất cân bằng dữ liệu. Mô hình này cũng được tích hợp với hệ thống NetIDPS để cải thiện khả năng xác định các webshell mới và ngăn chặn các cuộc tấn công bằng cách tự động thêm các IP nguồn tấn công vào danh sách đen. Việc phân tích Real-time Webshell detection cần được thực hiện một cách nhanh chóng và hiệu quả. Các giải pháp Cloud-based Webshell detection có thể giúp mở rộng quy mô và đáp ứng nhu cầu.

4.1. Thiết kế mạng nơ ron sâu để phân tích lưu lượng HTTP

Mạng nơ-ron sâu được thiết kế để phân tích lưu lượng HTTP bằng cách trích xuất các tính năng có liên quan từ các gói HTTP và sử dụng các tính năng này để phân loại lưu lượng truy cập là độc hại hay không độc hại. Mạng được huấn luyện trên một bộ dữ liệu lớn gồm lưu lượng HTTP và được tối ưu hóa để giảm thiểu tỷ lệ dương tính giả và tỷ lệ âm tính giả. Mạng cũng được thiết kế để có thể mở rộng và có thể xử lý lưu lượng lớn. Kiến trúc Mạng nơ-ron sâu có thể là CNN, RNN hoặc các biến thể khác tùy thuộc vào dữ liệu và yêu cầu.

4.2. Giải quyết vấn đề mất cân bằng dữ liệu trong huấn luyện mô hình

Mất cân bằng dữ liệu là một vấn đề phổ biến trong các tác vụ phân loại, trong đó số lượng mẫu từ một lớp lớn hơn đáng kể so với số lượng mẫu từ các lớp khác. Điều này có thể dẫn đến các mô hình bị thiên vị đối với lớp chiếm ưu thế và có hiệu suất kém trên các lớp thiểu số. Để giải quyết vấn đề này, luận án đề xuất một thuật toán để cải thiện hàm mất mát được áp dụng trong mô hình học sâu. Thuật toán này gán trọng số cao hơn cho các mẫu từ lớp thiểu số, điều này giúp mô hình học cách phân biệt giữa các lớp một cách chính xác hơn. Các kỹ thuật như oversampling hoặc undersampling cũng có thể được sử dụng để cân bằng dữ liệu.

4.3. Tích hợp với NetIDPS để phòng ngừa chủ động

Mô hình học sâu được tích hợp với hệ thống NetIDPS để cải thiện khả năng xác định các webshell mới và ngăn chặn các cuộc tấn công. NetIDPS là một hệ thống phòng chống xâm nhập sử dụng một tập hợp các quy tắc để phát hiện và chặn các lưu lượng truy cập độc hại. Bằng cách tích hợp mô hình học sâu với NetIDPS, hệ thống có thể tự động học các quy tắc mới và cải thiện khả năng phát hiện các webshell mới. Việc tích hợp cũng cho phép hệ thống tự động thêm các IP nguồn tấn công vào danh sách đen, ngăn chặn chúng khỏi việc thực hiện các cuộc tấn công trong tương lai. Phòng chống tấn công Webshell là một phần quan trọng của bất kỳ chiến lược bảo mật web nào.

V. Kết quả và Ứng dụng Đóng góp thực tiễn cho An ninh mạng

Nghiên cứu này đã được chứng minh thông qua bằng sáng chế quốc gia, các bài báo trên tạp chí SCI-E, E-SCI và WoS, và được ứng dụng thực tế trong dự án nghiên cứu quốc gia KC01.19/16-20. Luận án này đóng góp vào lĩnh vực Luận án tiến sĩ về an ninh mạng bằng cách cung cấp các phương pháp mới và hiệu quả để phát hiện và ngăn chặn các cuộc tấn công webshell. Những kết quả nghiên cứu này có thể được sử dụng để cải thiện tính bảo mật của các ứng dụng và máy chủ web. Các kỹ thuật Reverse engineering, Static analysisDynamic analysis đã được sử dụng để đánh giá hiệu quả của các phương pháp được đề xuất.

5.1. Đánh giá hiệu suất mô hình bằng các số liệu tiêu chuẩn

Hiệu suất của các mô hình học sâu được đánh giá bằng cách sử dụng các số liệu tiêu chuẩn như độ chính xác, độ chính xác, khả năng thu hồi và điểm F1. Các số liệu này cung cấp một định lượng về mức độ hiệu quả của các mô hình trong việc phát hiện webshell. Luận án cũng so sánh hiệu suất của các mô hình được đề xuất với các phương pháp phát hiện webshell khác hiện có. Các mô hình học sâu thường vượt trội hơn các phương pháp truyền thống, đặc biệt là khi đối phó với các webshell được che giấu. Cần phải giảm thiểu các False positive rateFalse negative rate để đảm bảo độ tin cậy của hệ thống.

5.2. Ứng dụng trong dự án nghiên cứu quốc gia KC01.19 16 20

Nghiên cứu này đã được áp dụng thực tế trong dự án nghiên cứu quốc gia KC01.19/16-20, được tài trợ bởi Bộ Khoa học và Công nghệ Việt Nam. Dự án này tập trung vào việc phát triển một hệ thống toàn diện để bảo vệ cơ sở hạ tầng quan trọng của Việt Nam khỏi các cuộc tấn công mạng. Các kỹ thuật phát hiện webshell được phát triển trong luận án đã được tích hợp vào hệ thống này và đã được chứng minh là có hiệu quả trong việc phát hiện và ngăn chặn các cuộc tấn công webshell thực tế.

VI. Kết luận Hướng đi tương lai cho Phát hiện Webshell Deep Learning

Luận án này đã khám phá việc sử dụng Deep learning for Webshell detection để phát hiện webshells. Các kết quả cho thấy rằng các mô hình học sâu có thể có hiệu quả trong việc phát hiện webshell, nhưng vẫn còn những thách thức cần phải giải quyết. Các hướng nghiên cứu trong tương lai bao gồm việc phát triển các mô hình có khả năng chống lại các cuộc tấn công đối nghịch hơn, xây dựng các bộ dữ liệu toàn diện hơn và khám phá việc sử dụng học sâu để phát hiện các loại tấn công mạng khác. Sự phát triển của các phương pháp Automated Webshell analysis có thể giúp các nhà phân tích bảo mật đối phó với số lượng lớn các mối đe dọa webshell.

6.1. Các hướng nghiên cứu tiềm năng trong tương lai

Nghiên cứu trong tương lai có thể tập trung vào việc phát triển các mô hình có khả năng chống lại các cuộc tấn công đối nghịch hơn, xây dựng các bộ dữ liệu toàn diện hơn và khám phá việc sử dụng học sâu để phát hiện các loại tấn công mạng khác. Ví dụ: có thể phát triển các mô hình có khả năng phát hiện webshell ngay cả khi chúng được che giấu bằng các kỹ thuật che giấu tiên tiến. Ngoài ra, có thể tạo ra các bộ dữ liệu bao gồm nhiều ngôn ngữ và kỹ thuật che giấu khác nhau. Cuối cùng, học sâu có thể được sử dụng để phát hiện các loại tấn công mạng khác, chẳng hạn như tấn công từ chối dịch vụ (DoS) và tấn công SQL injection.

6.2. Tầm quan trọng của hợp tác và chia sẻ thông tin

Hợp tác và chia sẻ thông tin rất quan trọng để cải thiện khả năng phát hiện webshell. Các nhà nghiên cứu, nhà cung cấp bảo mật và tổ chức cần hợp tác để chia sẻ dữ liệu, kinh nghiệm và hiểu biết sâu sắc về các mối đe dọa webshell mới nhất. Bằng cách làm việc cùng nhau, có thể phát triển các phương pháp phát hiện hiệu quả hơn và cải thiện tính bảo mật của các ứng dụng và máy chủ web. Các sáng kiến chia sẻ thông tin, chẳng hạn như các trung tâm chia sẻ và phân tích thông tin (ISAC), có thể đóng một vai trò quan trọng trong việc tạo điều kiện cho sự hợp tác này.

13/05/2025

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Le Viet Ha ENHANCING WEBSHELL DETECTION WITH DEEP LEARNING-POWERED METHODS PHD DISSERTATION IN INFORMATION SYSTEMS Ha Noi - 2024 VIETNAM NATIONAL UNIVERSITY HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Le Viet Ha ENHANCING WEBSHELL DETECTION WITH DEEP LEARNING-POWERED METHODS Major: Information Systems Code: 9480104.01 PHD DISSERTATION OF INFORMATION SYSTEMS PhD STUDENT SUPERVISORS Le Viet Ha Nguyen Ngoc Hoa Phung Van On CONFIRMATION OF THE TRAINING UNIVERSITY Ha Noi - 2024 DECLARATION OF AUTHORSHIP I, Le Viet Ha, declare that this dissertation titled, "ENHANCING WEBSHELL DETECTION WITH DEEP LEARNING-POWERED METHODS" and the work presented in it are my own. I confirm that: m This work was done mainly while in candidature for the degree of Ph.D at VNU University of Engineering and Technology. m This dissertation has not previously been submitted for any degree. m The results in my dissertation are my independent work, except where works in the collaboration have been included.

Other appropriate acknowledgments are given within this dissertation by explicit references. Signed: Date: ACKNOWLEDGEMENTS This dissertation would not have been possible without the support, guidance, and encouragement of many individuals. First and foremost, I would like to express my deepest gratitude to my supervisors, Associate Professor Nguyen Ngoc Hoa and Doctor Phung Van On, whose expertise, patience, and unwavering support have been instrumental in the completion of this research. Your insightful feedback and continuous motivation have pushed me to refine my work and think critically, for which I am profoundly grateful.

I am deeply appreciative of the support from my colleagues and friends, whose encouragement and camaraderie have provided me with the energy and resilience to persevere through the challenges of this journey. Lastly, but most importantly, I owe a great debt of gratitude to my family, whose love and understanding have been my constant source of strength. This accomplish- ment would not have been possible without you. Thank you all for your contributions to this work and to my life.

1 ABSTRACT The increasing prevalence of webshell attacks poses a significant threat to web application security, necessitating the development of robust detection mechanisms. The dissertation clearly identifies two research directions: scanning web application source code and in-depth analysis of HTTP traffic to detect webshells. First, the dissertation proposes an advanced DL-Powered Source-Code Scanning Framework, called ASAF, that integrates signature-based techniques with deep learning algo- rithms to enhance the detection of both known and unknown webshells. We design the framework to facilitate the creation of customized detection models for various programming languages.

For the interpreted language, the study chose PHP; for the compiled language, the dissertation chose ASP.NET to build a complete ASAF-based model for experimentation and comparison with other research results to prove its effectiveness. Second, the dissertation introduces a deep neural network that utilizes real-time HTTP traffic analysis of web applications to detect webshells. The study proposes an algorithm to improve the loss function applied in the deep learning model to solve the problem of data imbalance. To demonstrate its effectiveness, we experimented with and compared the model to other studies on the same CSE-CIC-IDS2018 dataset.

We have also integrated the model with the NetIDPS system to improve its capacity to identify new webshells. From there, proactively prevent these attacks by automatically adding attack source IPs to the blacklist and creating rules to block URIs querying webshells on the web server. This research contribution has been demonstrated through 01 national patent, 2 SCI-E journals, 1 E-SCI journal, 1 national journal, 2 WoS conference papers and 1 pending patent, as well as being practically applied in the national research project, code number KC01.19/16-20, granted by Ministry of Science and Technology of Viet- ham. 11 TABLE OF CONTENTS DECLARATION OF AUTHORSHIP ACKNOWLEDGEMENTS ii ABSTRACT iii TABLE OF CONTENTS vi LIST OF FIGURES vil LIST OF TABLES 1x ABBREVIATIONS INTRODUCTION Research Motivations.

Research Challenges Objectives of Dissertation. Research Scope Methodologies Research Contributions. 1 THEORETICAL BACKGROUND AND PRELIMINARIES 11 Fundamental Concepts .3 Webshell Evasion 1V TABLE OF CONTENTS V 1.2 Webshell Detection Approaches .3 Webshell Dataset Collecliion. va 44 131 7 Non-AI Approaches.000 eee ee eee 44 1.2 AJ-Powered Source Code Analysis Approaches .3 AI-Powered Network Analysis Approaches .4 Dissertation Research Direction .5 Summary of Chapter l.000 00 eee eee 56 2 DL-POWERED WEBSHELL DETECTION BY SOURCE CODE ANALYSIS 57 2.2 Proposed DL-Powered Source Code Analysis Framework .3 PHP Webshell Detection.

ST HQ so 71 2.2 Yara-Based Analysis .4 Dataset Collecting and Cleaning .5 Hyperparameter Tuning CNN Model.6 Experimental Results and Evaluation .2 Results and Evaluation .NET Webshell Detection .2 Yara-based Analy§SlSs.4 CNN Model Hyperparameter Tuning.5 Dataset Collecting and Cleaning. 82 TABLE OF CONTENTS vi 2.6 Experimental Results and Evaluatlons.2 Results and Evaluation .5 Summary of Chapter2 .0002 ee 86 3 DL-POWERED PROACTIVE WEBSHELL DETECTION AND PRE- VENTION BY HTTP TRAFFIC ANALYSIS 88 3.2 Proactive Webshell Detection and Prevention. Deep Learning Intrusion Detection Model.3 Webshell Detection and Prevention.4 Handling Imbalanced Datasets .3 Experiments and Evaluation. 20000000 2 eee eee ee 98 3.4 Results and Evaluation.5 Comparisons and Discussions.4 Summary of Chapter3.

000000 eee eee 106 CONCLUSION AND FUTURE WORKS 108 Contribution Highlights. 0000 eee 108 Dissertation Limitations. ee ee 109 Future Works. 112 BIBLIOGRAPHY 112 LIST OF FIGURES 1.1 The conversion process from programming languages to machine code.2 Example of Apache web server architecture .3 Interpreter DFOC@SS.5 China Chopper webshell attack stages .6 Four stages of webshell attack .7 Webshell classification based on communication.8 Behinder webshell sample .9 Decoding and decrypting the obfuscated string .10 Contents of the deobfuscated function .11 Decoded system command .12 Classification of webshell features.1 Correlational links between ASAF components .3 Opcode vectorization module .4 Dataset collecting and cleaning .5 CNN model architecture .1 Proactive webshell detection method based on signatures and DNN .2 DNN architecture for webshell detection .3 Architecture of testbed system .00 0000000 - 99 Vil LIST OF TABLES 1.1 Top 15 opcodes used exclusively used by malware .2 Some widely used Webshelldatasets.3 Summary of related works .1 Non-duplicate benign and webshell datasefs.2 PHP-ASAF hyperparameters tuning value .3 Confusion matrix of PHP webshell detection by using Yara .4 Key metrics of of PHP webshell detection by using Yara(%) .5 Confusion matrix of PHP webshell detection by using Yara .6 Key metrics of of PHP webshell detection by using CNN (%) .7 Confusion matrix of PHP webshell detection by using PHP-ASAF .8 Key metrics of of PHP webshell detection by using CNN (%) .9 Comparison of different webshell detection approaches on our dataset (A) oe ee 2.NET-ASAF hyperparameters tuning value .NET webshell and benign datasets.12 Confusion matrix of ASP.NET webshell detection by using Yara.13 Key metrics of ASP.NET webshell detection by using Yara (%) 2.14 Confusion matrix of ASP.NET webshell detection by using CNN.15 Key metrics of of ASP.NET webshell detection by using CNN (%) 2.16 Confusion matrix of webshell detection using ASP.17 Key metrics of webshell detection by using ASP.1 Total flows in cleaned datasets .2 Number of training and testing samples.3 Hyperparameter optimization value.

vill LIST OF TABLES ix 3.4 Result of hyperparameter optimization with 5-fold cross validation for DSI 2.5 DLWSD 5-fold cross-validation with DS1 .6 DLWSD 5-fold cross-validation with DS2.7 Weighted-DLWSD 5-fold cross-validation with DS1.8 Weighted-DLWSD 5-fold cross-validation with DS2.9 Experiment results with DS3 enhanced by balancing classes.10 Comparison of DLWSD with other methods with DS2. 105 ABBREVIATIONS APT Advanced Persistent Threat ANN Artificial Neural Network AES Advanced Encryption Standard CNN Convolutional Neural Network DNN Deep Neural Network DT Decision Tree DL Deep Learning HTTP HyperText Transfer Protocol IDS Intrusion Detection System IPS Intrusion Prevention System GBDT Gradient Boosted Decision Trees LSTM Long Short-Term Memory ML Machine Learning MLP Multilayer Perceptron NB Naive Bayes OpCode Operation Code RNN Recurrent Neural Network RSA Rivest-Shamir- Adleman SVM Support Vector Machine SSL Secure Sockets Layer TLS Transport Layer Security TF-IDF Term Frequency - Inverse Document Frequency RF Random Forest WAF Web Application Firewall INTRODUCTION Research Motivations Webshell Attack Nowadays, digital transformation is considered an important and inevitable trend for many countries around the world. In Vietnam, digital transforma- tion has become a topic of interest in recent years and is most clearly demonstrated through the National Digital Transformation Program that has been issued. The ad- vancement of web development [22, 11] technology has made web applications more and more popular, gradually replacing traditional native applications because they do not depend on the operating system.

Most applications serving e-government and digital transformation in Vietnam today are built on web platforms, typically the National Public Service Portal system !. Along with this, the issues of information security for the web system have become increasingly important. Malicious code injec- tion (webshell) attacks [33, 95, 68] are the most common and also the most hazardous sort of web application attack [28]. According to the recent Microsoft 365 Defender data ?, the use of webshell attacks not only continued but also accelerated every day.

Webshell attacks [103] pose a severe threat to organisations due to the extensive damage and vulnerabilities they introduce after compromising web-facing servers. As pieces of malicious code written in common web development programming languages (e., ASP, PHP, and JSP) that are installed on web servers, webshells allow attackers to remotely execute arbitrary system commands, exfiltrate sensitive files, install additional payloads, and pivot laterally into internal networks. Attackers can also use webshells to maintain stealthy persistence in order to prolong exploita- tion after the initial breach. Many advanced webshells feature extensive capabilities via graphical user interfaces, including brute-forcing credentials, uploading malware, thttps: //dichvucong.vn/p/home/dvc-trang-chu.htm] ?Web shell attacks continue to rise, https: //www.com/en-us/security/blog/2021/ 02/11/web-shell-attacks-continue-to-rise 2 and interacting with databases.

Once a webshell is uploaded, attackers have an unre- stricted foothold within the victim’s infrastructure. Webshells are especially danger- ous due to their ability to bypass conventional network perimeter defences by using allowed protocols like HTTP or HTTPS [96]. Their flexible and compact nature also allows webshells to evade detection through obfuscation and polymorphism [3, 65]. Overall, webshells represent a serious threat due to their role as a pivot point, enabling an unimpeded gateway for attackers.

Advances in detection techniques have struggled to keep pace as attackers con- tinually release new, heavily obfuscated webshell tools to evade defenses. Manual in- spection is time-consuming, given that a single webshell update could require hours of expert reverse engineering. Detecting obfuscated webshells poses significant challenges for security research. Attackers are continuously adapting exploitation techniques to evade detection, deploying webshells encoded by means such as base64 or hex encod- ing, and using custom encryption schemes.

According to analysis from Cloudflare, over two-thirds of webshells exhibit some form of obfuscation. Advanced polymor- phic webshells such as “Chameleon” can rapidly mutate appearances across attacks while maintaining core malicious functions. The ease of automating webshell obfus- cation and morphing has outpaced improvements in detection approaches tailored to discerning underlying patterns amid intentionally distorted malcode. Defenders also face challenges in obtaining robust datasets spanning various obfuscation schemas needed to train machine learning models.

Webshell Detection Two primary approaches exist across the spectrum of webshell detection: Source Code Analysis and Network-based Analysis. Source code analysis takes yet another approach by directly analysing web applica- tion source code for webshell using analysis tools. Code analysis works by inspecting repositories for suspicious functions, commands, file inclusions, or other constructs in- dicative of a webshell payload. This enables identifying inactive webshells injected into the code before production deployment.

Analysing source code rather than running software provides the ability to catch webshells compiled directly into applications. However, code analysis faces challenges in detecting highly obfuscated or customised webshells designed to mask their malicious intent. Without runtime context, benign code can also generate false positives. Network-based analysis webshell detection [98] operates by analysing web traffic 3 as it enters or exits the network perimeter.

This is commonly implemented through Web Application Firewalls (WAFs) [10, 36] or Intrusion Detection and Prevention Systems (IDPSs) [67, 8, 7, 15] examining packets and connections.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ