Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, công nghệ thông tin (CNTT) trở thành yếu tố then chốt thúc đẩy phát triển kinh tế xã hội. Theo ước tính, hạ tầng CNTT của các doanh nghiệp hiện nay bao gồm nhiều thiết bị mạng, máy chủ và dịch vụ phục vụ hoạt động kinh doanh trực tuyến, đòi hỏi sự ổn định và an toàn cao. Tuy nhiên, việc giám sát thủ công các thiết bị này không chỉ tốn thời gian mà còn thiếu tính toàn diện, dẫn đến nguy cơ phát hiện chậm các sự cố, ảnh hưởng đến hiệu suất và an toàn hệ thống. Mục tiêu của luận văn là nghiên cứu và xây dựng hệ thống giám sát hạ tầng CNTT sử dụng giải pháp mã nguồn mở nhằm cung cấp cái nhìn toàn cảnh, giám sát tài nguyên máy chủ và cảnh báo kịp thời các sự cố. Phạm vi nghiên cứu tập trung vào việc triển khai thử nghiệm hệ thống giám sát cho Công ty cổ phần Thương mại và Dịch vụ Lotteshop Việt Nam trong năm 2020, với hạ tầng gồm 1 máy chủ vật lý và 9 máy chủ ảo hóa chạy các dịch vụ web, cơ sở dữ liệu, email, firewall và backup. Việc áp dụng hệ thống giám sát tự động không chỉ giúp tiết kiệm chi phí quản trị mà còn nâng cao độ sẵn sàng và an toàn của hạ tầng CNTT, góp phần đảm bảo hoạt động kinh doanh trực tuyến liên tục và hiệu quả.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Hệ thống giám sát mạng (Network Monitoring System): Là hệ thống thu thập, phân tích và cảnh báo các thông tin về trạng thái hoạt động của các thiết bị mạng, máy chủ và dịch vụ. Các bước chính gồm thu thập dữ liệu (qua các phương pháp push và pull), phân tích dữ liệu và cảnh báo dựa trên ngưỡng cấu hình.

  • Giao thức SNMP (Simple Network Management Protocol): Là giao thức chuẩn để quản lý và giám sát các thiết bị mạng từ xa. SNMP có 3 phiên bản chính (v1, v2c, v3), trong đó SNMPv1 phổ biến nhất nhưng có hạn chế về bảo mật, còn SNMPv3 cung cấp các cơ chế bảo mật nâng cao. SNMP sử dụng các thành phần như SNMP manager, SNMP agent và MIB (Management Information Base) để trao đổi thông tin.

  • Mô hình kiến trúc Zabbix: Zabbix là phần mềm giám sát mã nguồn mở với kiến trúc gồm Zabbix server (trung tâm xử lý), Zabbix agent (thu thập dữ liệu trên thiết bị), Zabbix proxy (giảm tải và giám sát phân tán) và Zabbix web frontend (giao diện quản trị). Zabbix hỗ trợ nhiều phương thức thu thập dữ liệu như agent, SNMP, IPMI và agentless, đồng thời cung cấp cơ chế cảnh báo đa dạng.

Các khái niệm chính bao gồm: item (thuộc tính giám sát), trigger (điều kiện cảnh báo), template (bộ cấu hình giám sát), và auto discovery (tự động phát hiện thiết bị).

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu kết hợp giữa lý thuyết và thực nghiệm:

  • Nguồn dữ liệu: Thu thập thông tin từ tài liệu chuyên ngành, các tiêu chuẩn SNMP, tài liệu hướng dẫn Zabbix, và dữ liệu thực tế từ hạ tầng CNTT của Công ty Lotteshop.

  • Phương pháp phân tích: Phân tích hiện trạng hạ tầng CNTT, đánh giá các công cụ giám sát thương mại và mã nguồn mở, lựa chọn giải pháp phù hợp. Thực hiện cài đặt, cấu hình và triển khai thử nghiệm hệ thống giám sát Zabbix trên môi trường thực tế.

  • Timeline nghiên cứu: Nghiên cứu lý thuyết và khảo sát hiện trạng trong quý 1-2 năm 2020; triển khai cài đặt và thử nghiệm trong quý 3; đánh giá kết quả và hoàn thiện luận văn trong quý 4 năm 2020.

Cỡ mẫu nghiên cứu là toàn bộ hệ thống máy chủ và thiết bị mạng của công ty (tổng cộng 10 máy chủ vật lý và ảo). Phương pháp chọn mẫu là toàn bộ đối tượng hạ tầng CNTT hiện có để đảm bảo tính toàn diện. Phân tích dữ liệu dựa trên các chỉ số hiệu năng CPU, RAM, dung lượng ổ cứng, lưu lượng mạng và các cảnh báo sự cố.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiện trạng giám sát thủ công gây nhiều hạn chế: Công ty Lotteshop chưa có hệ thống giám sát tự động, việc quản trị chủ yếu dựa trên kiểm tra thủ công từng máy chủ, dẫn đến thiếu cái nhìn toàn cảnh và phản ứng chậm với sự cố. Việc này làm tăng nguy cơ downtime và giảm hiệu quả quản lý.

  2. Zabbix là giải pháp mã nguồn mở phù hợp: So sánh với các công cụ thương mại như SolarWinds, Datadog, PRTG, Zabbix cung cấp đầy đủ tính năng giám sát, cảnh báo, auto discovery với chi phí thấp. Zabbix hỗ trợ giám sát qua agent, SNMP, IPMI và agentless, đáp ứng đa dạng nhu cầu. Cộng đồng hỗ trợ mạnh và khả năng tùy biến cao là điểm cộng lớn.

  3. Triển khai mô hình tập trung trên một server đáp ứng nhu cầu: Với quy mô hạ tầng nhỏ (1 máy chủ vật lý, 9 máy chủ ảo), mô hình tập trung cài đặt Zabbix server, web frontend và database trên cùng một máy chủ là khả thi. Cấu hình tối thiểu CPU 2 cores, RAM 2GB, MySQL InnoDB đáp ứng giám sát khoảng 100 host.

  4. Cơ chế cảnh báo qua Telegram hiệu quả và tiết kiệm: Việc tích hợp cảnh báo qua ứng dụng Telegram giúp người quản trị nhận thông báo nhanh chóng, tiết kiệm chi phí so với SMS. Các mức cảnh báo từ thông tin đến thảm họa được phân loại rõ ràng, giúp ưu tiên xử lý sự cố.

Thảo luận kết quả

Nguyên nhân của việc chưa có hệ thống giám sát tự động chủ yếu do chi phí và thiếu nhân lực chuyên môn. Việc lựa chọn Zabbix dựa trên ưu điểm mã nguồn mở, dễ triển khai và hỗ trợ đa dạng giao thức giám sát. Kết quả thử nghiệm cho thấy Zabbix có thể thu thập dữ liệu CPU, RAM, dung lượng ổ cứng, lưu lượng mạng và cảnh báo kịp thời các sự cố như quá tải CPU, dung lượng ổ cứng thấp, dịch vụ ngừng hoạt động.

So sánh với các nghiên cứu trong ngành, việc sử dụng Zabbix đã được chứng minh hiệu quả trong nhiều doanh nghiệp vừa và nhỏ, đặc biệt trong môi trường ảo hóa. Việc tích hợp cảnh báo qua Telegram là xu hướng mới, tận dụng ứng dụng OTT phổ biến để nâng cao khả năng phản ứng.

Dữ liệu thu thập có thể được trình bày qua các biểu đồ thời gian thực trên dashboard Zabbix, bao gồm biểu đồ tải CPU, biểu đồ sử dụng RAM, biểu đồ dung lượng ổ cứng và biểu đồ lưu lượng mạng. Bảng tổng hợp các cảnh báo theo mức độ giúp người quản trị dễ dàng theo dõi và ưu tiên xử lý.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống giám sát Zabbix toàn diện: Mở rộng giám sát thêm các thiết bị mạng, ứng dụng và dịch vụ quan trọng trong công ty. Đặt mục tiêu hoàn thành trong 6 tháng, do phòng CNTT chủ trì thực hiện.

  2. Đào tạo nhân sự quản trị Zabbix: Tổ chức các khóa đào tạo chuyên sâu về cấu hình, quản lý và xử lý cảnh báo trên Zabbix cho đội ngũ kỹ thuật. Thời gian đào tạo dự kiến 3 tháng, nhằm nâng cao năng lực vận hành hệ thống.

  3. Tích hợp cảnh báo đa kênh: Bên cạnh Telegram, nên bổ sung cảnh báo qua email và SMS để đảm bảo thông tin đến người quản trị trong mọi tình huống. Thực hiện trong vòng 2 tháng, phối hợp với nhà cung cấp dịch vụ viễn thông.

  4. Xây dựng quy trình phản ứng sự cố: Thiết lập quy trình xử lý cảnh báo, phân loại mức độ ưu tiên và phân công nhiệm vụ cụ thể cho từng nhóm kỹ thuật. Mục tiêu hoàn thiện trong 1 tháng, giúp giảm thiểu thời gian khắc phục sự cố.

  5. Nâng cấp hạ tầng phục vụ giám sát: Đánh giá và nâng cấp phần cứng máy chủ Zabbix khi số lượng thiết bị giám sát tăng lên, đảm bảo hiệu năng và độ ổn định. Lập kế hoạch nâng cấp hàng năm dựa trên báo cáo sử dụng tài nguyên.

Đối tượng nên tham khảo luận văn

  1. Quản trị viên hệ thống CNTT: Nhóm này sẽ được cung cấp kiến thức về triển khai và vận hành hệ thống giám sát tự động, giúp nâng cao hiệu quả quản lý hạ tầng và giảm thiểu rủi ro sự cố.

  2. Chuyên gia an toàn thông tin: Luận văn cung cấp các giải pháp giám sát an ninh mạng qua SNMP và Zabbix, hỗ trợ phát hiện sớm các hành vi bất thường và tấn công mạng.

  3. Doanh nghiệp vừa và nhỏ: Các công ty có hạ tầng CNTT tương tự có thể áp dụng mô hình và giải pháp mã nguồn mở để tiết kiệm chi phí mà vẫn đảm bảo giám sát toàn diện.

  4. Nhà nghiên cứu và sinh viên ngành Mạng máy tính và An toàn thông tin: Tài liệu cung cấp cơ sở lý thuyết, phương pháp nghiên cứu và thực nghiệm thực tế, làm tài liệu tham khảo cho các đề tài liên quan.

Câu hỏi thường gặp

  1. Zabbix có phù hợp với doanh nghiệp nhỏ không?
    Zabbix rất phù hợp với doanh nghiệp vừa và nhỏ nhờ khả năng triển khai trên một server duy nhất, chi phí thấp và hỗ trợ đa dạng thiết bị. Ví dụ, công ty Lotteshop đã triển khai thành công trên hạ tầng 10 máy chủ.

  2. Làm thế nào để Zabbix cảnh báo kịp thời sự cố?
    Zabbix sử dụng các trigger dựa trên ngưỡng cấu hình để phát hiện sự cố và gửi cảnh báo qua email, SMS hoặc ứng dụng Telegram. Cảnh báo được phân loại theo mức độ từ thông tin đến thảm họa, giúp ưu tiên xử lý.

  3. SNMP có những hạn chế gì khi giám sát?
    SNMP dễ bị nghe lén do community string truyền dưới dạng văn bản thuần, và không thể giám sát chi tiết log file hay phần cứng vật lý. Phiên bản SNMPv3 cải thiện bảo mật nhưng chưa phổ biến rộng rãi.

  4. Có thể giám sát thiết bị không cài đặt agent không?
    Zabbix hỗ trợ giám sát agentless qua các phương thức như kiểm tra trạng thái dịch vụ qua TCP port, ICMP ping, SSH hoặc Telnet, phù hợp với thiết bị không thể cài đặt agent.

  5. Làm sao để mở rộng hệ thống giám sát khi số lượng thiết bị tăng?
    Có thể triển khai mô hình phân tán với Zabbix proxy để giảm tải cho server chính, hoặc nâng cấp phần cứng server. Mô hình này phù hợp với hệ thống có hàng nghìn thiết bị và nhiều vị trí địa lý khác nhau.

Kết luận

  • Luận văn đã nghiên cứu và triển khai thành công hệ thống giám sát hạ tầng CNTT sử dụng phần mềm mã nguồn mở Zabbix cho Công ty Lotteshop, đáp ứng nhu cầu giám sát toàn diện và cảnh báo kịp thời.
  • Giải pháp Zabbix với kiến trúc linh hoạt, hỗ trợ đa dạng giao thức và cơ chế cảnh báo qua Telegram giúp tiết kiệm chi phí và nâng cao hiệu quả quản trị.
  • Mô hình triển khai tập trung trên một server phù hợp với quy mô hạ tầng nhỏ và vừa, dễ dàng mở rộng khi cần thiết.
  • Đề xuất các giải pháp đào tạo, tích hợp cảnh báo đa kênh và xây dựng quy trình xử lý sự cố nhằm nâng cao năng lực vận hành hệ thống.
  • Các bước tiếp theo bao gồm mở rộng giám sát thiết bị, nâng cấp hạ tầng và hoàn thiện quy trình quản lý sự cố, đồng thời khuyến khích áp dụng rộng rãi trong các doanh nghiệp tương tự.

Quý độc giả và các tổ chức quan tâm được khuyến khích áp dụng và phát triển thêm các giải pháp giám sát hạ tầng CNTT dựa trên mã nguồn mở để nâng cao hiệu quả quản lý và bảo mật hệ thống.