## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của hệ thống mạng và truyền thông với độ phức tạp và tính đa dạng ngày càng tăng, việc phát hiện và phân loại lỗi mạng trở thành một thách thức lớn. Theo ước tính, hệ thống Bug Tracking System (BTS) đã ghi nhận khoảng 483,000 báo cáo lỗi từ nhiều nguồn khác nhau như Gentoo, Redhat và Mozilla, với tổng dung lượng dữ liệu lên đến 0.77 GB. Vấn đề nghiên cứu tập trung vào việc xây dựng một mô hình tự động phân loại lỗi mạng dựa trên dữ liệu thu thập từ các BTS, nhằm hỗ trợ người vận hành hệ thống trong việc phát hiện và dự báo các sự cố nghiêm trọng một cách nhanh chóng và chính xác. Mục tiêu cụ thể của nghiên cứu là phát triển mô hình phân loại lỗi sử dụng thuật toán Rừng ngẫu nhiên (Random Forest) kết hợp với kỹ thuật trích xuất từ khóa tf-idf để đánh giá mức độ nghiêm trọng của lỗi. Phạm vi nghiên cứu tập trung vào dữ liệu lỗi thu thập trong khoảng thời gian gần đây từ các hệ thống BTS phổ biến, với ứng dụng thực tiễn trong quản lý và vận hành mạng truyền thông tại Việt Nam. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả quản lý lỗi, giảm thiểu thời gian xử lý sự cố và tăng độ tin cậy của hệ thống mạng, góp phần đảm bảo chất lượng dịch vụ và an toàn thông tin.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Phân lớp dữ liệu (Data Classification):** Là quá trình xây dựng mô hình để phân loại các mẫu dữ liệu vào các lớp đã biết dựa trên tập dữ liệu huấn luyện. Bài toán phân lớp dữ liệu được giải quyết qua hai giai đoạn: huấn luyện mô hình và kiểm tra đánh giá mô hình. Các độ đo hiệu quả như Precision, Recall, Accuracy và Specificity được sử dụng để đánh giá chất lượng mô hình.

- **Học máy (Machine Learning):** Lĩnh vực trí tuệ nhân tạo nghiên cứu các thuật toán cho phép máy tính học từ dữ liệu mà không cần lập trình rõ ràng. Trong nghiên cứu này, học có giám sát được áp dụng để xây dựng mô hình phân loại lỗi dựa trên dữ liệu đã gán nhãn.

- **Thuật toán Rừng ngẫu nhiên (Random Forest):** Thuật toán học có giám sát dựa trên tập hợp nhiều cây quyết định được xây dựng từ các mẫu dữ liệu bootstrap khác nhau. Rừng ngẫu nhiên giúp tăng độ chính xác và ổn định của mô hình phân loại thông qua kỹ thuật bỏ phiếu đa số.

- **Kỹ thuật tf-idf (Term Frequency - Inverse Document Frequency):** Phương pháp khai phá dữ liệu văn bản dùng để trích xuất các từ khóa quan trọng trong mô tả lỗi, giúp mô hình học máy tập trung vào các đặc trưng nổi bật của dữ liệu văn bản.

### Phương pháp nghiên cứu

Nguồn dữ liệu chính là các báo cáo lỗi thu thập từ 5 hệ thống Bug Tracking System khác nhau, bao gồm khoảng 483,000 báo cáo lỗi với dung lượng dữ liệu 0.77 GB. Dữ liệu thô được trích xuất từ giao diện HTML và chuyển đổi sang định dạng chuẩn hóa (.csv) để xử lý. Quá trình nghiên cứu gồm các bước:

- **Thu thập dữ liệu:** Tập hợp dữ liệu lỗi từ các BTS, bao gồm các trường thông tin như ID lỗi, mức độ nghiêm trọng, trạng thái, mô tả lỗi, thành phần và nền tảng xảy ra lỗi.

- **Tiền xử lý dữ liệu:** Loại bỏ các mẫu nhiễu, chuẩn hóa dữ liệu sang dạng số, đồng bộ các giá trị thuộc tính giữa các nguồn dữ liệu khác nhau.

- **Trích xuất đặc trưng:** Áp dụng kỹ thuật tf-idf để lọc ra từ khóa quan trọng từ phần mô tả lỗi, bổ sung vào tập dữ liệu làm đầu vào cho mô hình phân loại.

- **Xây dựng mô hình:** Sử dụng thuật toán Rừng ngẫu nhiên với các siêu tham số được điều chỉnh như số lượng cây (n_estimators), độ sâu tối đa (max_depth), và số lượng biến tại mỗi nút (max_features). Tập dữ liệu được chia thành 80% dùng để huấn luyện và 20% để kiểm tra đánh giá.

- **Đánh giá mô hình:** Sử dụng các chỉ số như F1 Score, Precision, Recall và ma trận hỗn loạn để đánh giá hiệu quả phân loại lỗi.

Thời gian nghiên cứu kéo dài trong khoảng một năm, với các giai đoạn thu thập, xử lý dữ liệu, xây dựng và đánh giá mô hình được thực hiện tuần tự.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình Rừng ngẫu nhiên đạt độ chính xác tổng thể trên 90% trong việc phân loại lỗi mạng thành ba nhóm: lỗi nhỏ, lỗi thông thường và lỗi nghiêm trọng. Cụ thể, F1 Score đạt trên 0.85 cho từng lớp lỗi.

- Việc sử dụng kỹ thuật tf-idf giúp trích xuất hiệu quả các từ khóa quan trọng từ mô tả lỗi, tăng khả năng phân biệt giữa các loại lỗi khác nhau, góp phần nâng cao độ chính xác của mô hình.

- Thuộc tính mức độ nghiêm trọng và trạng thái lỗi được xác định là hai yếu tố quan trọng nhất ảnh hưởng đến kết quả phân loại, chiếm tỷ trọng trên 60% trong tổng mức độ quan trọng các thuộc tính.

- So sánh với các phương pháp phân loại khác như Cây quyết định đơn lẻ và Máy hỗ trợ vectơ (SVM), mô hình Rừng ngẫu nhiên cho kết quả ổn định và chính xác hơn khoảng 5-7%.

### Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả cao là do sự kết hợp giữa kỹ thuật trích xuất đặc trưng văn bản tf-idf và thuật toán Rừng ngẫu nhiên mạnh mẽ trong việc xử lý dữ liệu phức tạp và đa chiều. Kết quả phù hợp với các nghiên cứu trong và ngoài nước về ứng dụng học máy trong phát hiện lỗi mạng, đồng thời khẳng định tính khả thi của việc tự động hóa quá trình phân loại lỗi trong môi trường mạng phức tạp. Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện độ quan trọng các thuộc tính và bảng ma trận hỗn loạn minh họa hiệu suất phân loại từng lớp lỗi. Kết quả này có ý nghĩa thực tiễn lớn trong việc giảm tải công việc thủ công cho người vận hành, nâng cao độ tin cậy và khả năng dự báo sự cố mạng.

## Đề xuất và khuyến nghị

- **Triển khai hệ thống tự động phân loại lỗi:** Áp dụng mô hình Rừng ngẫu nhiên tích hợp kỹ thuật tf-idf vào hệ thống quản lý mạng để tự động phân loại và cảnh báo lỗi nghiêm trọng, nhằm giảm thời gian phản ứng sự cố xuống dưới 30 phút.

- **Nâng cao chất lượng dữ liệu đầu vào:** Đề nghị các đơn vị vận hành mạng chuẩn hóa quy trình ghi nhận lỗi và cập nhật dữ liệu BTS đầy đủ, chính xác để đảm bảo hiệu quả mô hình phân loại.

- **Đào tạo nhân sự vận hành:** Tổ chức các khóa đào tạo về sử dụng công cụ phân loại lỗi tự động và hiểu biết về các thuật toán học máy cho đội ngũ kỹ thuật viên trong vòng 6 tháng.

- **Mở rộng nghiên cứu:** Khuyến khích nghiên cứu tiếp tục phát triển mô hình dự báo lỗi dựa trên dữ liệu thời gian thực và tích hợp thêm các thuật toán học sâu để nâng cao khả năng dự báo chính xác.

- **Theo dõi và đánh giá liên tục:** Thiết lập hệ thống giám sát hiệu suất mô hình định kỳ hàng quý để điều chỉnh tham số và cập nhật dữ liệu, đảm bảo mô hình luôn phù hợp với thực tế vận hành.

## Đối tượng nên tham khảo luận văn

- **Nhà quản lý mạng và vận hành hệ thống:** Giúp hiểu rõ về phương pháp tự động phân loại lỗi, từ đó tối ưu hóa quy trình xử lý sự cố và nâng cao hiệu quả quản lý.

- **Chuyên gia và nhà nghiên cứu học máy:** Cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng thuật toán Rừng ngẫu nhiên và kỹ thuật tf-idf trong lĩnh vực phát hiện lỗi mạng.

- **Sinh viên và học viên cao học ngành Công nghệ Thông tin:** Là tài liệu tham khảo quý giá cho các đề tài nghiên cứu liên quan đến khai phá dữ liệu, học máy và quản lý mạng.

- **Nhà phát triển phần mềm quản lý mạng:** Hỗ trợ trong việc thiết kế và tích hợp các module phân loại lỗi tự động vào hệ thống phần mềm quản lý mạng hiện có.

## Câu hỏi thường gặp

1. **Mô hình Rừng ngẫu nhiên có ưu điểm gì so với các thuật toán khác?**  
Rừng ngẫu nhiên kết hợp nhiều cây quyết định giúp giảm thiểu hiện tượng overfitting, tăng độ chính xác và ổn định trong phân loại dữ liệu phức tạp.

2. **Kỹ thuật tf-idf được sử dụng như thế nào trong nghiên cứu?**  
Tf-idf giúp trích xuất các từ khóa quan trọng từ mô tả lỗi, làm nổi bật đặc trưng văn bản để mô hình học máy dễ dàng phân biệt các loại lỗi.

3. **Dữ liệu lỗi được thu thập từ đâu và có đảm bảo chất lượng không?**  
Dữ liệu được thu thập từ 5 hệ thống Bug Tracking System phổ biến với tổng số gần nửa triệu báo cáo lỗi, đã được tiền xử lý và chuẩn hóa để đảm bảo tính nhất quán.

4. **Mô hình có thể áp dụng cho các hệ thống mạng khác không?**  
Mô hình có tính tổng quát cao và có thể được điều chỉnh tham số để áp dụng cho nhiều hệ thống mạng khác nhau với dữ liệu tương tự.

5. **Làm thế nào để đánh giá hiệu quả mô hình phân loại lỗi?**  
Hiệu quả được đánh giá qua các chỉ số Precision, Recall, F1 Score và ma trận hỗn loạn, đảm bảo mô hình phân loại chính xác và đáng tin cậy.

## Kết luận

- Đã xây dựng thành công mô hình phân loại lỗi mạng tự động sử dụng thuật toán Rừng ngẫu nhiên kết hợp kỹ thuật tf-idf, đạt độ chính xác trên 90%.  
- Mô hình giúp tự động đánh giá mức độ nghiêm trọng của lỗi, giảm thiểu công sức thủ công và tăng hiệu quả quản lý mạng.  
- Thuộc tính mức độ nghiêm trọng và trạng thái lỗi là yếu tố quan trọng nhất trong phân loại.  
- Kết quả nghiên cứu có ý nghĩa thực tiễn cao, hỗ trợ vận hành mạng ổn định và dự báo sự cố kịp thời.  
- Đề xuất triển khai hệ thống tự động, nâng cao chất lượng dữ liệu và đào tạo nhân sự để phát huy tối đa hiệu quả mô hình.

Hành động tiếp theo là triển khai thử nghiệm mô hình trên môi trường thực tế trong vòng 6 tháng và đánh giá hiệu quả để mở rộng ứng dụng. Các nhà quản lý và kỹ thuật viên được khuyến khích áp dụng và phản hồi để hoàn thiện hệ thống.