## Tổng quan nghiên cứu

Trong bối cảnh chuyển đổi số mạnh mẽ, các dịch vụ công nghệ thông tin (CNTT) đóng vai trò sống còn đối với hoạt động kinh doanh của các tổ chức, đặc biệt là trong lĩnh vực tài chính, bảo hiểm và ngân hàng. Tại Tập đoàn Bảo Việt, với hơn 300 máy chủ vật lý và ảo hóa cùng hàng trăm dịch vụ CNTT phục vụ các đơn vị thành viên, việc đảm bảo hệ thống hoạt động liên tục 24/7 là yêu cầu bắt buộc. Tuy nhiên, công tác giám sát và phát hiện sự cố hiện nay còn mang tính thủ công, phân tán và thiếu chính xác, dẫn đến nguy cơ gián đoạn dịch vụ và ảnh hưởng đến uy tín doanh nghiệp.

Mục tiêu nghiên cứu tập trung vào việc xây dựng giải pháp tự động phát hiện sự cố hệ thống dựa trên công nghệ ELK (ElasticSearch, Logstash và Kibana), nhằm nâng cao hiệu quả quản lý log tập trung, tự động cảnh báo lỗi và giảm thiểu thời gian gián đoạn dịch vụ. Phạm vi nghiên cứu được thực hiện tại Tập đoàn Bảo Việt trong giai đoạn 2018-2019, với trọng tâm là các hệ thống CNTT phục vụ nghiệp vụ kinh doanh.

Giải pháp này không chỉ giúp tăng cường khả năng giám sát, phân tích dữ liệu log mà còn góp phần nâng cao chất lượng dịch vụ CNTT, từ đó cải thiện trải nghiệm khách hàng và tăng sức cạnh tranh trên thị trường. Các chỉ số hiệu quả được kỳ vọng bao gồm giảm thời gian phát hiện sự cố xuống dưới 5 phút, tăng tỷ lệ phát hiện lỗi tự động lên trên 90%, và giảm thiểu tối đa các sự cố gián đoạn dịch vụ.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Công nghệ ELK**: Bao gồm ElasticSearch (hệ thống truy hồi thông tin phân tán mạnh mẽ), Logstash (công cụ thu thập, xử lý và chuyển đổi dữ liệu log theo mô hình ETL), và Kibana (công cụ trực quan hóa dữ liệu). ELK được lựa chọn vì tính mở, khả năng mở rộng và hỗ trợ phân tích dữ liệu phức tạp.
- **Mô hình ETL (Extract, Transform, Load)**: Áp dụng trong Logstash để thu thập, làm sạch và chuyển đổi dữ liệu log từ nhiều nguồn khác nhau về hệ thống lưu trữ tập trung.
- **Mô hình truy hồi thông tin BM25**: Thuật toán đánh giá độ liên quan của tài liệu với truy vấn, được ElasticSearch sử dụng để tối ưu tìm kiếm dữ liệu log.
- **Khái niệm sự kiện (Event), dữ liệu log, sự cố (Incident)**: Là nền tảng để phân loại và xử lý dữ liệu log nhằm phát hiện các lỗi và sự cố hệ thống.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Thu thập dữ liệu log từ hơn 1000 máy chủ vật lý và ảo hóa tại Tập đoàn Bảo Việt, bao gồm các loại log hệ thống, ứng dụng, và mạng.
- **Phương pháp phân tích**: Sử dụng Logstash để xử lý dữ liệu log theo mô hình ETL, ElasticSearch để lưu trữ và tìm kiếm dữ liệu, Kibana để trực quan hóa và phân tích. Kết hợp cơ sở dữ liệu mã lỗi để tự động phát hiện và cảnh báo sự cố.
- **Timeline nghiên cứu**: 
  - Quý 1-2/2018: Khảo sát hiện trạng, lựa chọn công nghệ.
  - Quý 3-4/2018: Thiết kế và xây dựng hệ thống quản lý log tập trung.
  - Quý 1-2/2019: Triển khai thử nghiệm và đánh giá kết quả.
  - Quý 3/2019: Hoàn thiện luận văn và đề xuất hướng phát triển.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Hiệu quả thu thập và xử lý log**: Hệ thống ELK đã thu thập và xử lý thành công hơn 95% dữ liệu log từ các máy chủ trong thời gian thực, giảm 70% thời gian so với phương pháp thủ công.
- **Tỷ lệ phát hiện lỗi tự động**: Tự động phát hiện các mã lỗi trong log đạt tỷ lệ trên 90%, trong khi phương pháp thủ công chỉ đạt khoảng 60%.
- **Thời gian phản hồi sự cố**: Thời gian trung bình từ khi phát hiện lỗi đến khi cảnh báo giảm từ 30 phút xuống còn dưới 5 phút.
- **Tăng cường phân tích và trực quan hóa**: Sử dụng Kibana, các báo cáo và dashboard giúp đội ngũ kỹ thuật dễ dàng theo dõi tình trạng hệ thống, với hơn 80% người dùng đánh giá cải thiện đáng kể khả năng giám sát.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do ELK cung cấp nền tảng tìm kiếm và phân tích dữ liệu mạnh mẽ, kết hợp với khả năng tùy biến cao của Logstash trong việc xử lý dữ liệu log phức tạp. So với các giải pháp thương mại như Splunk, ELK mang lại chi phí thấp hơn nhiều nhưng vẫn đáp ứng đầy đủ yêu cầu kỹ thuật. Kết quả này phù hợp với các nghiên cứu trong ngành về hiệu quả của các giải pháp mã nguồn mở trong quản lý log tập trung.

Dữ liệu có thể được trình bày qua biểu đồ so sánh thời gian phát hiện lỗi và tỷ lệ phát hiện lỗi giữa phương pháp thủ công và tự động, cũng như bảng thống kê số lượng log được xử lý theo từng loại dịch vụ.

## Đề xuất và khuyến nghị

- **Triển khai mở rộng hệ thống ELK**: Mở rộng cụm ElasticSearch để đáp ứng tăng trưởng dữ liệu log, mục tiêu tăng 30% công suất trong 12 tháng tới, do phòng CNTT chủ trì.
- **Tự động hóa cảnh báo nâng cao**: Phát triển thêm các rule cảnh báo dựa trên phân tích hành vi log để giảm thiểu sự cố, hoàn thành trong 6 tháng, phối hợp giữa đội phát triển và vận hành.
- **Đào tạo nhân sự**: Tổ chức các khóa đào tạo chuyên sâu về ELK và phân tích log cho đội ngũ kỹ thuật, nhằm nâng cao năng lực vận hành, dự kiến thực hiện hàng quý.
- **Tích hợp với hệ thống BI và Big Data**: Kết nối dữ liệu log với các hệ thống phân tích lớn để khai thác sâu hơn về hành vi người dùng và xu hướng sự cố, kế hoạch triển khai trong 18 tháng tới.
- **Xây dựng cơ sở dữ liệu mã lỗi chuẩn hóa**: Cập nhật và duy trì cơ sở dữ liệu mã lỗi để nâng cao độ chính xác trong phát hiện sự cố, do bộ phận quản lý dữ liệu đảm nhiệm.

## Đối tượng nên tham khảo luận văn

- **Chuyên gia CNTT và quản trị hệ thống**: Nắm bắt công nghệ quản lý log tập trung, áp dụng vào giám sát và phát hiện sự cố hệ thống.
- **Nhà quản lý doanh nghiệp trong lĩnh vực tài chính, bảo hiểm**: Hiểu rõ tầm quan trọng của chất lượng dịch vụ CNTT và các giải pháp nâng cao hiệu quả vận hành.
- **Nhà nghiên cứu và sinh viên ngành Hệ thống thông tin, Công nghệ thông tin**: Tham khảo mô hình nghiên cứu, phương pháp triển khai và đánh giá giải pháp ELK trong thực tế.
- **Đơn vị phát triển phần mềm và tích hợp hệ thống**: Áp dụng kiến thức về ETL, xử lý dữ liệu log và tích hợp công nghệ mã nguồn mở vào sản phẩm và dịch vụ.

## Câu hỏi thường gặp

1. **ELK là gì và tại sao được chọn cho quản lý log?**  
ELK là bộ công cụ mã nguồn mở gồm ElasticSearch, Logstash và Kibana, cung cấp giải pháp thu thập, lưu trữ, phân tích và trực quan hóa dữ liệu log hiệu quả với chi phí thấp và khả năng mở rộng cao.

2. **Giải pháp này có thể áp dụng cho những loại hệ thống nào?**  
Phù hợp với các hệ thống CNTT đa dạng nền tảng như Windows Server, Linux, Oracle Solaris, HP-UX, và các phần mềm như Database, Web Server, Application Server.

3. **Làm thế nào để tự động phát hiện lỗi trong log?**  
Sử dụng Logstash với bộ lọc Grok và cơ sở dữ liệu mã lỗi để phân tích và nhận diện các mẫu lỗi trong dữ liệu log, sau đó tự động gửi cảnh báo qua email.

4. **Khó khăn khi triển khai ELK là gì?**  
Cần kiến thức chuyên sâu về cấu hình và vận hành hệ thống, cũng như thiết kế các bộ lọc dữ liệu phù hợp với đặc thù log của từng hệ thống.

5. **Lợi ích chính khi sử dụng ELK trong doanh nghiệp?**  
Giảm thiểu thời gian phát hiện và xử lý sự cố, nâng cao chất lượng dịch vụ CNTT, tiết kiệm chi phí so với các giải pháp thương mại, và hỗ trợ phân tích dữ liệu lớn phục vụ quyết định kinh doanh.

## Kết luận

- Giải pháp ELK đã chứng minh hiệu quả trong việc tự động phát hiện sự cố và quản lý log tập trung tại Tập đoàn Bảo Việt.  
- Tỷ lệ phát hiện lỗi tự động đạt trên 90%, giảm thời gian cảnh báo xuống dưới 5 phút.  
- Hệ thống hỗ trợ phân tích và trực quan hóa dữ liệu log đa dạng, nâng cao khả năng giám sát và ra quyết định.  
- Đề xuất mở rộng và tích hợp sâu hơn với các hệ thống BI và Big Data để khai thác tối đa giá trị dữ liệu.  
- Khuyến khích các doanh nghiệp có hệ thống CNTT lớn áp dụng giải pháp ELK để nâng cao chất lượng dịch vụ và giảm thiểu rủi ro sự cố.

Hành động tiếp theo là triển khai mở rộng hệ thống, đào tạo nhân sự và phát triển các tính năng cảnh báo nâng cao nhằm đảm bảo hệ thống vận hành ổn định và hiệu quả hơn trong tương lai.