Tìm Hiểu Spark Trong Phân Tích Dữ Liệu Lớn Và Phát Hiện Xâm Nhập Mạng

Tài liệu nghiên cứu Tìm hểu spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạng, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về toán

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Khóa luận tốt nghiệp

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. GIỚI THIỆU BÀI TOÁN

1.2. MỤC TIÊU

1.3. BỐ CỤC CỦA BÁO CÁO

2. CHƯƠNG 2: TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG

2.1. KHÁI NIỆM XÂM NHẬP MẠNG

2.2. MỘT SỐ KIỂU TẤN CÔNG PHỔ BIẾN

2.2.1. Tấn công từ chối dịch vụ

2.2.2. Tấn công thăm dò

2.2.3. Tấn công chiếm quyền root

2.2.4. Tấn công điều khiển từ xa

2.3. MỘT SỐ KỸ THUẬT PHÒNG CHỐNG XÂM NHẬP TRUYỀN THỐNG

2.3.1. Tường lửa (firewall)

2.3.2. Mã hóa dữ liệu

2.3.3. VPN

2.4. HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG

2.4.1. Khái niệm

2.4.2. Chức năng

2.4.3. Phân loại

2.4.3.1. Hệ thống phát hiện xâm nhập ở mức mạng (Network-based IDS)

2.4.3.2. Hệ thống phát hiện xâm nhập ở mức máy trạm chủ (Host-based IDS)

3. CHƯƠNG 3: TỔNG QUAN VỀ SPARK TRONG PHÂN TÍCH DỮ LIỆU LỚN

3.1. TỔNG QUAN SPARK

3.2. KIẾN TRÚC CƠ BẢN CỦA SPARK

3.3. WORKFLOW CỦA SPARK ARCHITECTURE

3.4. Học không có giám sát

3.5. Phân tích đồ thị

4. CHƯƠNG 4: KẾT QUẢ ỨNG DỤNG MỘT SỐ THUẬT TOÁN VÀO PHÁT HIỆN XÂM NHẬP MẠNG

4.1. BỘ DỮ LIỆU NSL-KDD

4.2. Thông số đánh giá các thuật toán học máy

4.3. Một số phương pháp đánh giá

4.3.1. Hold-out Validation

4.3.2. Bootstrap và Jackknife

4.4. Tiến hành thực nghiệm

4.5. Tiền xử lý dữ liệu

4.6. Lựa chọn thuộc tính

4.7. Ước lượng độ chính xác và lực chọn tham số

4.8. Tiến hành kiểm tra model

4.9. KẾT QUẢ ĐẠT ĐƯỢC

4.10. KHÓ KHĂN GẶP PHẢI

4.11. VẤN ĐỀ TỒN ĐỌNG VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Spark Trong Phân Tích Dữ Liệu Lớn Mạng

Trong kỷ nguyên số, phân tích dữ liệu lớn và an ninh mạng trở thành yếu tố then chốt. Sự bùng nổ của internet và các thiết bị kết nối tạo ra lượng dữ liệu khổng lồ, đòi hỏi các công cụ xử lý mạnh mẽ. Spark, một framework mã nguồn mở, nổi lên như một giải pháp hiệu quả cho xử lý dữ liệu quy mô lớn. Luận văn này tập trung vào việc tìm hiểu Spark và ứng dụng nó vào bài toán phát hiện xâm nhập mạng, một vấn đề cấp thiết trong bối cảnh cybersecurity ngày càng phức tạp. Mục tiêu là xây dựng một hệ thống có khả năng phát hiện sớm và hiệu quả các cuộc tấn công mạng, từ đó đưa ra các cảnh báo và biện pháp xử lý kịp thời. Các hệ thống IDS hiện tại còn nhiều hạn chế về khả năng mở rộng và linh hoạt. Việc ứng dụng học máy và các công cụ như Apache Spark hứa hẹn mang lại một cách tiếp cận hiệu quả hơn.

1.1. Giới Thiệu Bài Toán Phát Hiện Xâm Nhập Mạng

Bài toán phát hiện xâm nhập mạng là một thách thức lớn trong lĩnh vực an ninh mạng. Các cuộc tấn công ngày càng tinh vi và đa dạng, đòi hỏi các hệ thống phòng thủ phải liên tục cải tiến. Mục tiêu chính là xây dựng một hệ thống có khả năng giám sát, phát hiện và ngăn chặn các hành vi xâm nhập trái phép. Theo tài liệu, các hệ thống hiện tại còn thiếu linh hoạt và khả năng mở rộng. Spark được kỳ vọng sẽ giải quyết vấn đề này bằng khả năng xử lý dữ liệu song song và hỗ trợ các thuật toán học máy.

1.2. Mục Tiêu Nghiên Cứu Sử Dụng Spark Cho An Ninh Mạng

Mục tiêu của nghiên cứu này là áp dụng các thuật toán học máy được Spark hỗ trợ vào phân tích dữ liệu liên quan đến xâm nhập mạng. Luận văn tập trung vào đánh giá hiệu quả của các thuật toán trong việc phát hiện xâm nhập. Các vấn đề cần tìm hiểu bao gồm: tổng quan về phát hiện xâm nhập mạng, Spark, các thuật toán học máy, và các tập dữ liệu mạng phổ biến. Cuối cùng, sẽ tiến hành đánh giá và so sánh các thuật toán để tìm ra phương pháp hiệu quả nhất.

II. Tổng Quan Về Phát Hiện Xâm Nhập Mạng Hiện Nay

Việc phát hiện xâm nhập mạng là một lĩnh vực quan trọng trong an ninh mạng. Mục tiêu là xác định và ngăn chặn các hành vi xâm nhập trái phép vào hệ thống. Các cuộc tấn công mạng ngày càng trở nên tinh vi và đa dạng, đòi hỏi các hệ thống IDS phải liên tục cải tiến. Theo định nghĩa của Kendall (1999), xâm nhập mạng là các hoạt động có chủ đích, lợi dụng các tổn thương của hệ thống thông tin nhằm phá vỡ tính sẵn sàng, tính toàn vẹn và tính bảo mật của hệ thống. Các kỹ thuật phòng chống xâm nhập truyền thống như tường lửa và mã hóa vẫn còn nhiều hạn chế.

2.1. Các Kiểu Tấn Công Mạng Phổ Biến Hiện Nay

Các kiểu tấn công mạng phổ biến bao gồm: tấn công từ chối dịch vụ (DoS), tấn công thăm dò (Probe), tấn công chiếm quyền root (U2R), và tấn công điều khiển từ xa (R2L). DoS làm cho hệ thống quá tải và không thể cung cấp dịch vụ. Probe quét mạng để tìm ra điểm yếu. U2R cố gắng đạt được quyền truy nhập cao nhất. R2L khai thác lỗ hổng để truy cập trái phép. Mỗi kiểu tấn công có đặc điểm và phương thức khác nhau, đòi hỏi các biện pháp phòng thủ khác nhau.

2.2. Kỹ Thuật Phòng Chống Xâm Nhập Mạng Truyền Thống

Các kỹ thuật phòng chống xâm nhập truyền thống bao gồm tường lửa (firewall), mã hóa dữ liệu, và mạng riêng ảo (VPN). Tường lửa ngăn chặn truy cập trái phép. Mã hóa bảo vệ dữ liệu bằng cách chuyển đổi nó sang dạng không thể đọc được. VPN tạo ra một đường ống bảo mật để truyền dữ liệu qua mạng công cộng. Tuy nhiên, các kỹ thuật này không đủ để đối phó với các cuộc tấn công tinh vi.

2.3. Hệ Thống Phát Hiện Xâm Nhập Mạng IDS Hiện Đại

Hệ thống phát hiện xâm nhập mạng (IDS) là một hệ thống giám sát lưu lượng mạng để phát hiện các hành vi xâm nhập. IDS có thể được phân loại dựa trên cách thu thập dữ liệu giám sát hoặc phương pháp phân tích. Có hai loại chính: hệ thống phát hiện xâm nhập ở mức mạng (NIDS) và hệ thống phát hiện xâm nhập ở mức máy trạm chủ (HIDS). NIDS sử dụng bộ dò và bộ cảm biến trên toàn mạng. HIDS chạy trên các máy trạm để giám sát hoạt động.

III. Kiến Trúc Và Workflow Của Spark Trong Big Data

Spark là một framework mạnh mẽ cho phân tích dữ liệu lớn. Kiến trúc của Spark bao gồm các thành phần chính như Driver, Cluster Manager, và Worker Nodes. Spark sử dụng RDDs (Resilient Distributed Datasets) để lưu trữ dữ liệu phân tán. Spark cung cấp nhiều API cho xử lý dữ liệu, bao gồm Spark SQL, Spark Streaming, và MLlib (Machine Learning Library). Spark có khả năng phân tích thời gian thực và hỗ trợ nhiều ngôn ngữ lập trình như Python, Scala, và Java.

3.1. Tổng Quan Về Kiến Trúc Cơ Bản Của Apache Spark

Kiến trúc của Apache Spark bao gồm Driver, Cluster Manager (ví dụ: Hadoop YARN, Mesos, hoặc Spark Standalone), và Worker Nodes. Driver là nơi ứng dụng Spark chạy và điều phối các tác vụ. Cluster Manager quản lý tài nguyên của cluster. Worker Nodes thực hiện các tác vụ được giao. Spark sử dụng RDDs để lưu trữ dữ liệu phân tán và thực hiện các phép biến đổi trên dữ liệu.

3.2. Workflow Của Spark Architecture Trong Xử Lý Dữ Liệu

Workflow của Spark bao gồm các bước: đọc dữ liệu, biến đổi dữ liệu, và thực hiện các hành động. Dữ liệu được đọc từ các nguồn khác nhau như Hadoop HDFS, Amazon S3, hoặc các hệ thống cơ sở dữ liệu. Các phép biến đổi được thực hiện trên RDDs để tạo ra các RDDs mới. Các hành động thực hiện các tính toán và trả về kết quả. Spark sử dụng DAG (Directed Acyclic Graph) để tối ưu hóa các tác vụ.

3.3. Các Thư Viện Hỗ Trợ Học Máy Của Spark MLlib

MLlib là thư viện học máy của Spark. Nó cung cấp nhiều thuật toán học máy như phân loại, hồi quy, clustering, và giảm chiều. MLlib cũng cung cấp các công cụ cho tiền xử lý dữ liệu, lựa chọn đặc trưng, và đánh giá mô hình. MLlib được thiết kế để xử lý dữ liệu quy mô lớn và tích hợp tốt với các thành phần khác của Spark.

IV. Ứng Dụng Thuật Toán Học Máy Spark Vào Phát Hiện Xâm Nhập

Luận văn này ứng dụng một số thuật toán học máy từ Spark MLlib vào bài toán phát hiện xâm nhập mạng. Các thuật toán được sử dụng bao gồm Random Forest, Neural Network, Logistic Regression, và Support Vector Machine (SVM). Dữ liệu được sử dụng là bộ dữ liệu NSL-KDD, một bộ dữ liệu phổ biến cho phát hiện xâm nhập. Các bước thực hiện bao gồm tiền xử lý dữ liệu, lựa chọn đặc trưng, huấn luyện mô hình, và đánh giá mô hình. Mục tiêu là so sánh hiệu quả của các thuật toán và tìm ra phương pháp tốt nhất.

4.1. Bộ Dữ Liệu NSL KDD Cho Phát Hiện Xâm Nhập Mạng

Bộ dữ liệu NSL-KDD là một phiên bản cải tiến của bộ dữ liệu KDD Cup 1999. Nó giải quyết một số vấn đề của bộ dữ liệu gốc, chẳng hạn như loại bỏ các bản ghi trùng lặp và giảm số lượng bản ghi. NSL-KDD chứa các bản ghi mạng với các thuộc tính khác nhau, được gán nhãn là bình thường hoặc tấn công. Bộ dữ liệu này được sử dụng rộng rãi trong nghiên cứu phát hiện xâm nhập.

4.2. Tiền Xử Lý Dữ Liệu Với Spark Để Tăng Độ Chính Xác

Tiền xử lý dữ liệu là một bước quan trọng trong học máy. Các bước tiền xử lý bao gồm làm sạch dữ liệu, chuyển đổi dữ liệu, và chuẩn hóa dữ liệu. Trong luận văn này, dữ liệu được làm sạch bằng cách loại bỏ các giá trị thiếu và các bản ghi không hợp lệ. Dữ liệu được chuyển đổi bằng cách sử dụng one-hot encoding cho các thuộc tính phân loại. Dữ liệu được chuẩn hóa bằng cách sử dụng min-max scaling để đưa các giá trị về khoảng [0, 1].

4.3. Lựa Chọn Thuộc Tính Quan Trọng Cho Mô Hình Học Máy

Lựa chọn thuộc tính là quá trình chọn ra các thuộc tính quan trọng nhất để sử dụng trong mô hình học máy. Mục tiêu là giảm số lượng thuộc tính và cải thiện hiệu suất của mô hình. Trong luận văn này, lựa chọn thuộc tính được thực hiện bằng cách sử dụng Attribute Ratio (AR). Các thuộc tính có AR cao được chọn để sử dụng trong mô hình.

V. Đánh Giá Và So Sánh Các Thuật Toán Học Máy Với Spark

Sau khi huấn luyện các mô hình, luận văn tiến hành đánh giá và so sánh hiệu quả của các thuật toán. Các chỉ số đánh giá được sử dụng bao gồm độ chính xác, độ thu hồi, độ chính xác, và F1-score. Các phương pháp đánh giá bao gồm hold-out validation và k-fold cross-validation. Kết quả cho thấy Random Forest và Neural Network đạt được hiệu suất tốt nhất trên bộ dữ liệu NSL-KDD. Tuy nhiên, hiệu suất của các thuật toán phụ thuộc vào các tham số và cấu hình.

5.1. Phương Pháp Đánh Giá Hiệu Năng Của Các Mô Hình

Các phương pháp đánh giá hiệu năng của các mô hình bao gồm hold-out validation và k-fold cross-validation. Hold-out validation chia dữ liệu thành hai tập: tập huấn luyện và tập kiểm tra. Mô hình được huấn luyện trên tập huấn luyện và đánh giá trên tập kiểm tra. K-fold cross-validation chia dữ liệu thành k phần. Mô hình được huấn luyện trên k-1 phần và đánh giá trên phần còn lại. Quá trình này được lặp lại k lần, mỗi lần sử dụng một phần khác nhau để đánh giá.

5.2. Kết Quả Thực Nghiệm Và So Sánh Các Thuật Toán

Kết quả thực nghiệm cho thấy Random Forest và Neural Network đạt được hiệu suất tốt nhất trên bộ dữ liệu NSL-KDD. Random Forest đạt được độ chính xác cao và thời gian huấn luyện nhanh. Neural Network đạt được độ chính xác cao hơn nhưng thời gian huấn luyện lâu hơn. Logistic Regression và SVM đạt được hiệu suất thấp hơn so với Random Forest và Neural Network.

VI. Kết Luận Và Hướng Phát Triển Trong Tương Lai

Luận văn đã trình bày việc tìm hiểu Spark và ứng dụng nó vào bài toán phát hiện xâm nhập mạng. Kết quả cho thấy Spark là một công cụ hiệu quả cho phân tích dữ liệu lớn và học máy. Các thuật toán học máy từ Spark MLlib có thể được sử dụng để xây dựng các hệ thống IDS hiệu quả. Tuy nhiên, vẫn còn nhiều vấn đề cần giải quyết, chẳng hạn như cải thiện hiệu suất của các thuật toán và phát triển các phương pháp mới để phát hiện xâm nhập.

6.1. Tóm Tắt Kết Quả Nghiên Cứu Về Spark Và An Ninh Mạng

Nghiên cứu đã chứng minh rằng Spark là một công cụ mạnh mẽ cho phân tích dữ liệu lớn và có thể được sử dụng để xây dựng các hệ thống IDS hiệu quả. Các thuật toán học máy từ Spark MLlib có thể được sử dụng để phát hiện xâm nhập mạng với độ chính xác cao. Tuy nhiên, việc lựa chọn thuật toán và cấu hình tham số phù hợp là rất quan trọng.

6.2. Hướng Phát Triển Trong Tương Lai Cho Nghiên Cứu Này

Hướng phát triển trong tương lai cho nghiên cứu này bao gồm: cải thiện hiệu suất của các thuật toán, phát triển các phương pháp mới để phát hiện xâm nhập, và ứng dụng Spark vào các bài toán an ninh mạng khác. Cần nghiên cứu các thuật toán học sâu và các kỹ thuật phân tích thời gian thực để cải thiện khả năng phát hiện xâm nhập.

06/06/2025

Bạn đang xem trước tài liệu:

Tìm hểu spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạng

Tải đầy đủ

Trích đoạn nội dung tài liệu

TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN -------------------- HỒ VĂN PHONG : 15110277 TRẦN QUANG MINH : 15110250 Đề tài: TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG KHÓA LUẬN TỐT NGHIỆP KỸ SƢ CNTT GIÁO VIÊN HƢỚNG DẪN THS. QUÁCH ĐÌNH HOÀNG KHOÁ 2015 - 2019 TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP. HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN BỘ MÔN HỆ THỐNG THÔNG TIN -------------------- HỒ VĂN PHONG : 15110277 TRẦN QUANG MINH : 15110250 Đề tài: TÌM HIỂU SPARK CHO PHÂN TÍCH DỮ LIỆU LỚN VÀ ÁP DỤNG CHO BÀI TOÁN PHÁT HIỆN XÂM NHẬP MẠNG KHÓA LUẬN TỐT NGHIỆP KỸ SƢ CNTT GIÁO VIÊN HƢỚNG DẪN THS.

QUÁCH ĐÌNH HOÀNG KHOÁ 2015 - 2019 LỜI CẢM ƠN Nhóm chúng tôi xin chân thành cảm ơn khoa Công Nghệ Thông Tin, Bộ Môn Hệ Thống Thông Tin, trường Đại học Sư Phạm Kỹ Thuật TP.Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng tôi thực hiện đề tài này. Chúng tôi cũng xin được gửi lời cảm ơn chân thành nhất đến thầy Quách Đình Hoàng, người đã tận tình chỉ bảo và hướng dẫn nhóm chúng tôi thực hiện đề tài này. Bên cạnh đó, chúng tôi xin gửi lời cảm ơn đến các thầy cô giảng viên của trường Đại Học Sư Phạm Kỹ Thuật TP.Hồ Chí Minh nói chung cũng như các thầy cô giảng viên khoa Công Nghệ Thông Tin nói riêng, những người đã giảng dạy, tạo điều kiện cho chúng tôi ích lũy được những kiến thức quý báu trong những năm học qua. Dù đã cố gắng hoàn thành đề tài khóa luận đúng yêu cầu, nhưng do thời gian hạn hẹp và khả năng còn hạn chế nên nhóm chúng tôi chắc chắn sẽ không tránh khỏi thiếu sót.

Chúng tôi mong nhận được sự thông cảm và tận tình chỉ bảo của các thầy cô và các bạn. Nhóm chúng tôi xin chân thành cảm ơn 5 TRƢỜNG ĐẠI HỌC SƢ PHẠM KỸ THUẬT TP. HCM KHOA CÔNG NGHỆ THÔNG TIN --o-- ĐỀ CƢƠNG LUẬN VĂN TỐT NGHIỆP Họ và tên SV thực hiện 1: Trần Quang Minh MSSV: 15110250 Họ và tên SV thực hiện 2: Hồ Văn Phong MSSV: 15110277 Thời gian làm luận văn: Từ: 03/2019 Đến: 07/2019 Chuyên ngành: Hệ thống thông tin Tên luận văn: Tìm hiểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán phát hiện xâm nhập mạng Giáo viên hướng dẫn: Ths. Quách Đình Hoàng NHIỆM VỤ CỦA LUẬN VĂN: Nhiệm vụ của luận văn là áp dụng một vài thuật toán học máy được Spark hỗ trợ vào tập dữ liệu phổ biến cho vấn đề xâm nhập mạng.

Sau đó, luận văn tập trung vào tiến hành đánh giá hiệu quả một số thuật toán trong phát hiện xâm nhập mạng. Để đạt được điều đó, chúng tôi tập trung tìm hiểu một số vấn đề sau: 1. Tìm hiểu tổng quan về phát hiện xâm nhập mạng. Tìm hiểu tổng quan về Spark cho phân tích dữ liệu lớn.

Tìm hiểu tổng quan các thuật toán học máy mà Spark hỗ trợ. Tìm hiểu về các tập dữ liệu mạng phổ biến được sử dụng cho bài toán phát hiện xâm nhập mạng. Đánh giá và so sánh một số thuật toán học máy cho bài toán phát hiện xâm nhập mạng. KẾ HOẠCH THỰC HIỆN: 6 STT Thời gian Công việc Ghi chú Từ 01/03/2019 Tìm hiểu tài liệu và tài liệu liên quan.

1 Đến 07/03/2019 Tìm hiểu tổng quan về phát hiện xâm nhập mạng. Từ 08/03/2019 2 Tìm hiểu tổng quan về Spark cho phân tích dữ liệu lớn. Đến 15/03/2019 Từ 16/03/2019 Tìm hiểu tổng quan các thuật toán học máy mà Spark hỗ 3 Đến 29/03/2019 trợ. Tìm hiểu về các tập dữ liệu mạng phổ biến được sử dụng Từ 30/03/2019 4 cho bài toán phát hiện xâm nhập mạng.

Đến 12/04/2019 Chọn tập dữ liệu cho thực nghiệm. Chọn một vài thuật toán phù hợp để thực nghiệm. Từ 13/04/2019 5 Tìm hiểu về cách tiền xử lý dữ liệu. Đến 26/04/2019 Tìm hiểu cách lựa chọn thuộc tính.

Từ 27/04/2019 Tìm hiểu về cách lựa chọn tham số và một số phương 6 Đến 10/05/2019 pháp đánh giá cho các thuật toán máy học. Từ 10/05/2019 Thực hiện tiền xử lý dữ liệu. 7 Đến 24/05/2019 Thực hiện lựa chọn thuộc tính. Từ 25/05/2019 8 Thực hiện lựa chọn tham số và validator cho model Đến 07/06/2019 Từ 08/06/2019 Tiến hành đánh giá và so sánh một số thuật toán học máy 9 Đến 21/06/2019 cho bài toán phát hiện xâm nhập mạng.

Từ 22/06/2019 Tổng hợp và viết báo cáo. 10 Đến 28/06/2019 Thiết kế slide báo cáo. Từ 29/06/2019 Chỉnh sửa lại một số nội dung trong báo cáo theo yêu cầu 11 Đến 05/07/2019 giáo viên hướng dẫn. Từ 06/07/2019 12 Hoàn chỉnh báo cáo và slide.

Đến 12/07/2019 7 Ý kiến giảng viên hướng dẫn TP. Hồ Chí Minh, ngày … tháng … năm 2019 (Ký và ghi rõ họ tên) Người viết đề cương 8 MỤC LỤC LỜI CẢM ƠN. 5 ĐỀ CƢƠNG LUẬN VĂN TỐT NGHIỆP. 9 DANH MỤC HÌNH VẼ.

12 DANH MỤC BIỂU MẪU. 13 DANH MỤC CÁC TỪ VIẾT TẮT. 14 CHƢƠNG 1: TỔNG QUAN ĐỀ TÀI. GIỚI THIỆU BÀI TOÁN.

BỐ CỤC CỦA BÁO CÁO. 16 CHƢƠNG 2: TỔNG QUAN VỀ PHÁT HIỆN XÂM NHẬP MẠNG. KHÁI NIỆM XÂM NHẬP MẠNG. MỘT SỐ KIỂU TẤN CÔNG PHỔ BIẾN.

Tấn công từ chối dịch vụ. Tấn công thăm dò. Tấn công chiếm quyền root. Tấn công điều khiển từ xa.

MỘT SỐ KỸ THUẬT PHÒNG CHỐNG XÂM NHẬP TRUYỀN THỐNG. HỆ THỐNG PHÁT HIỆN XÂM NHẬP MẠNG. Thu thập dữ liệu giám sát. Thu thập dữ liệu phân tích.

23 9 CHƢƠNG 3: TỔNG QUAN VỀ SPARK TRONG PHÂN TÍCH DỮ LIỆU LỚN. TỔNG QUAN SPARK. KIẾN TRÚC CƠ BẢN CỦA SPARK. WORKFLOW CỦA SPARK ARCHITECTURE.

Học không có giám sát. Phân tích đồ thị. 36 CHƢƠNG 4: KẾT QUẢ ỨNG DỤNG MỘT SỐ THUẬT TOÁN VÀO PHÁT HIỆN XÂM NHẬP MẠNG. BỘ DỮ LIỆU NSL-KDD.

Thông số đánh giá các thuật toán học máy. Một số phương pháp đánh giá. Hold-out Validation. Bootstrap và Jackknife.

Tiến hành thực nghiệm. Tiền xử lý dữ liệu. Lựa chọn thuộc tính. Ước lượng độ chính xác và lực chọn tham số.

Tiến hành kiểm tra model. KẾT QUẢ ĐẠT ĐƢỢC. KHÓ KHĂN GẶP PHẢI. VẤN ĐỀ TỒN ĐỌNG VÀ HƢỚNG PHÁT TRIỂN.

58 TÀI LIỆU THAM KHẢO. 59 11 DANH MỤC HÌNH VẼ Hình 2. Network – based IDS. Host – based IDS.

Kiến trúc của hệ thống Spark. Ví dụ cách phân phối partition trong Spark. Phép biến đổi narrow dependencies. Phép biến đổi wide dependencies.

Quá trình thao tác DataFrame theo logic và vật lý. Workflow của Spark Architecture. Apache Spark Ecosystem. Quy trình thực hiện học máy trong Spark.

Đồ thị mẫu có bảy nút và bảy cạnh. Hold-out Validation. Bootstrap and Jackknife. Minh họa phương pháp One hot encoding.

47 12 DANH MỤC BIỂU MẪU Bảng 4. Tập 41 thuộc tính của tập dữ liệu KDD99 .Thông tin tập dữ liệu NSL-KDD. Phương án biến đổi nhãn cho tiền xử lý dữ liệu. Loại dữ liệu của các thuộc tính trong tập KDD-NSL.

Kết quả tính mean cho thuộc tính count. Bảng thống kê tần số của các thuộc tính logged_in. Thống kê kết quả chỉ số AR cho 41 thuộc tính. 5 Hyperparameter cho mỗi tham số lên từng thuật toán.

Kết quả độ chính xác trung bình áp dụng 5 fold lên mỗi tham số cho thuật toán Randomforest. Kết quả độ chính xác trung bình áp dụng 5 fold lên mỗi tham số cho thuật toán Neural Network. Kết quả độ chính xác trung bình áp dụng 5 fold lên mỗi tham số cho thuật toán Logistic regression. Kết quả độ chính xác trung bình áp dụng 5 fold lên mỗi tham số cho thuật toán Support Vector Machine.

Hyperparameter tốt nhất cho mỗi tham số tương ứng với từng thuật toán. Kết quả thực nghiệm cho thuật toán Randomforest. Kết quả thực nghiệm cho thuật toán Neural Network. Kết quả thực nghiệm cho thuật toán Logistic regression.

Kết quả thực nghiệm cho thuật toán Support Vector Machine. 55 13 DANH MỤC CÁC TỪ VIẾT TẮT VPN: Virtual Private Network. IDS: Intrusion Detection System. DAG: Logically Directed Acyclic Graph.

AR: Attribute Ratio. CR: Class Ratio. U2R: User to Root. DoS: Denial of Service.

R2L: Remote to Local. FP: False Positive TP: True Positive. FN: False Negative. TN: True Negative.

14 CHƢƠNG 1: TỔNG QUAN ĐỀ TÀI 1. GIỚI THIỆU BÀI TOÁN Hiện nay, chúng ta đang bước vào cuộc cách mạng 4.0 với sự bùng nổ và phát triển mạnh mẽ của internet kèm theo nhu cầu trao đổi thông tin dữ liệu ngày càng lớn và đa dạng. Đi kèm theo sự phát triển mạnh mẽ đó là các yếu tố: tốc độ, chất lượng, bảo mật, sự đa dạng các dịch vụ,. Trong đó, bảo mật là một trong những vấn đề quan trọng nhất đối với cả nhà cung cấp dịch cũng như người sử dụng, không chỉ đối với các cá nhân mà còn đặc biệt quan trọng trong các ngành mang tính đặc thù yêu cầu về bảo mật cao như quân sự, ngân hàng tài chính… Nó cũng trở thành mục tiêu lợi dụng của những kẻ tấn công, xâm nhập trái phép nhằm thực hiện những mưu đồ xấu, đe dọa tới tính an toàn về bảo mật thông tin của các tổ chức hay những người dùng kết nối mạng.

Mặc dù, mỗi hệ thống máy tính đều có những cơ chế tự bảo vệ riêng nhưng có thể chưa đủ để phát hiện hay ngăn chặn những cuộc tấn công ngày một tinh vi hơn. Vấn đề đặt ra là làm sao xây dựng được một hệ thống có thể phát hiện sớm và có hiệu quả các cuộc tấn công hay xâm nhập trái phép từ đó đưa ra những cảnh báo và biện pháp xử lý kịp thời. Những hệ thống phát hiện xâm nhập mạng đã được xây dựng vẫn chưa đủ linh hoạt, khả năng mở rộng không cao, cũng như không đủ mạnh để đối phó với các cuộc tấn công nói trên. Một vài nghiên cứu gần đây đưa ra một hướng tiếp cận mới dựa vào học máy cho bài toán phát hiện xâm nhập mạng.

Bên cạnh đó là sự ra đời của nhiều hệ thống hỗ trợ học máy xử lý với lượng lớn dữ liệu như Apache Spark. Điều này hứa hẹn sẽ đem lại một cách tiếp cận hiệu quả cho bài toán phát hiện xâm nhập. Vì vậy, luận văn sẽ tiếp cận theo hướng tìm hiểu Spark cho phân tích dữ liệu lớn và áp dụng cho bài toán hiện xâm nhập mạng. MỤC TIÊU Nhiệm vụ của đề tài là áp dụng một vài thuật toán học máy được Spark hỗ trợ vào tập dữ liệu phổ biến cho vấn đề xâm nhập mạng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Tìm Hiểu Spark Trong Phân Tích Dữ Liệu Lớn Và Phát Hiện Xâm Nhập Mạng" cung cấp cái nhìn sâu sắc về cách mà Apache Spark có thể được áp dụng trong việc phân tích dữ liệu lớn và phát hiện các hành vi xâm nhập mạng. Bài viết nhấn mạnh những lợi ích của Spark, bao gồm khả năng xử lý dữ liệu nhanh chóng và hiệu quả, giúp các nhà phân tích và chuyên gia bảo mật phát hiện các mối đe dọa tiềm ẩn một cách kịp thời.

Để mở rộng kiến thức của bạn về các giải pháp bảo mật và phân tích dữ liệu, bạn có thể tham khảo tài liệu Hệ thống mạng thông minh và giải pháp phát triển lên osp, nơi cung cấp các giải pháp phát triển hệ thống mạng trong ngành hàng không. Ngoài ra, tài liệu Phát hiện tấn công mạng dựa trên nền tảng xử lý dữ liệu lớn sẽ giúp bạn hiểu rõ hơn về cách phát hiện các cuộc tấn công mạng thông qua phân tích dữ liệu lớn. Cuối cùng, tài liệu Hệ thống phát hiện bất thường trong mạng sử dụng khai phá dữ liệu sẽ cung cấp thêm thông tin về các hệ thống phát hiện bất thường, một phần quan trọng trong việc bảo vệ mạng.

Những tài liệu này không chỉ giúp bạn nắm bắt kiến thức cơ bản mà còn mở rộng hiểu biết về các ứng dụng thực tiễn của Spark trong lĩnh vực bảo mật mạng và phân tích dữ liệu lớn.

#phân tích dữ liệu lớn

#phát hiện xâm nhập mạng

#kỹ thuật phân tích dữ liệu

#xử lý dữ liệu thời gian thực

#Machine Learning với Spark

#Big Data và bảo mật

Chủ đề

An ninh mạng và bảo mật

xu hướng trong phân tích dữ liệu

Ứng dụng của Apache Spark

Công nghệ phân tích dữ liệu lớn