Tổng quan nghiên cứu
Trong bối cảnh chuyển đổi số quốc gia giai đoạn 2020-2025, việc ứng dụng công nghệ thông tin (CNTT) trong hoạt động hành chính công ngày càng trở nên thiết yếu. Tỉnh Đồng Nai đã đầu tư xây dựng hạ tầng CNTT và các hệ thống phần mềm phục vụ công tác quản lý, điều hành và cung cấp dịch vụ công trực tuyến. Tuy nhiên, với hơn 5300 mẫu dữ liệu sự cố kỹ thuật được thu thập từ Trung tâm CNTT tỉnh Đồng Nai, việc xử lý và phân loại các sự cố kỹ thuật phát sinh trong quá trình vận hành hệ thống hành chính công vẫn còn nhiều khó khăn. Các sự cố như lỗi đăng nhập, quên mật khẩu, không xuất báo cáo, không truy cập được phần mềm gây ảnh hưởng nghiêm trọng đến hiệu quả công việc và sự hài lòng của người dùng cuối.
Mục tiêu nghiên cứu là xây dựng phần mềm dự đoán và phân loại sự cố kỹ thuật trên hệ thống hành chính công, giúp tổng đài viên chuyển xử lý đúng bộ phận chuyên trách, từ đó nâng cao tốc độ và chất lượng xử lý sự cố. Phạm vi nghiên cứu tập trung vào dữ liệu sự cố kỹ thuật thu thập tại tỉnh Đồng Nai trong giai đoạn trước năm 2022, áp dụng các kỹ thuật máy học và xử lý ngôn ngữ tự nhiên (NLP) để phân loại văn bản tiếng Việt. Ý nghĩa của nghiên cứu được thể hiện qua việc giảm thiểu thời gian xử lý sự cố, tăng độ chính xác trong phân loại và nâng cao hiệu quả vận hành hệ thống hành chính công, góp phần thúc đẩy chính quyền số và cải thiện dịch vụ công.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai lý thuyết chính: phân lớp (classification) trong máy học và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Phân lớp là quá trình dự đoán nhãn của dữ liệu mới dựa trên mô hình học từ dữ liệu đã gán nhãn, bao gồm phân lớp nhị phân và đa lớp. Text Classification là một dạng phân lớp đặc biệt, áp dụng cho dữ liệu văn bản, yêu cầu xử lý đặc thù như tách từ, loại bỏ stop word, và vector hóa văn bản.
Ba khái niệm trọng tâm được sử dụng gồm:
- TF-IDF (Term Frequency - Inverse Document Frequency): phương pháp biểu diễn văn bản dưới dạng vector trọng số, giúp xác định tầm quan trọng của từ trong văn bản và toàn bộ tập dữ liệu.
- Thuật toán Support Vector Machine (SVM): thuật toán phân lớp hiệu quả, tìm siêu phẳng tối ưu phân chia dữ liệu trong không gian đặc trưng nhiều chiều.
- Xử lý ngôn ngữ tự nhiên tiếng Việt: bao gồm tách từ, loại bỏ stop word, xử lý nhập nhằng trong tách từ, sử dụng thư viện pyvi để chuẩn hóa dữ liệu đầu vào.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là 5300 mẫu sự cố kỹ thuật được thu thập từ tổng đài nội bộ Trung tâm CNTT tỉnh Đồng Nai, phản ánh các lỗi và yêu cầu hỗ trợ của người dùng cuối trong quá trình sử dụng hệ thống hành chính công. Dữ liệu được gán nhãn theo các loại sự cố kỹ thuật để làm tập huấn luyện.
Phương pháp phân tích gồm các bước:
- Tiền xử lý dữ liệu: tách từ, loại bỏ stop word, chuẩn hóa văn bản tiếng Việt.
- Vector hóa dữ liệu: sử dụng TF-IDF để chuyển đổi văn bản thành vector đặc trưng.
- Huấn luyện mô hình: áp dụng thuật toán SVM với kỹ thuật học có giám sát trên tập dữ liệu huấn luyện.
- Đánh giá mô hình: sử dụng phần mềm WEKA và thư viện Python sklearn để kiểm thử, đánh giá độ chính xác, ma trận nhầm lẫn (Confusion Matrix) và báo cáo phân lớp (Class report).
Timeline nghiên cứu kéo dài trong năm 2022, bao gồm thu thập dữ liệu, xây dựng mô hình, thử nghiệm và đánh giá kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
- Độ chính xác mô hình SVM đạt khoảng 85% trên tập dữ liệu 5300 mẫu, vượt trội so với các thuật toán KNN và Naïve Bayes được thử nghiệm trước đó với độ chính xác lần lượt khoảng 78% và 80%.
- Tỷ lệ phân loại chính xác các sự cố phổ biến như lỗi đăng nhập, quên mật khẩu đạt trên 90%, trong khi các sự cố phức tạp liên quan đến nhiều lớp có tỷ lệ phân loại chính xác thấp hơn, khoảng 65-70%.
- Thời gian xử lý và phân loại sự cố giảm trung bình 30% so với phương pháp thủ công trước đây, giúp tổng đài viên chuyển thông tin nhanh chóng đến bộ phận chuyên trách.
- Mô hình phân loại có khả năng mở rộng và áp dụng cho các hệ thống hành chính công khác, nhờ sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên phù hợp với tiếng Việt và thuật toán máy học phổ biến.
Thảo luận kết quả
Nguyên nhân độ chính xác cao của mô hình SVM là do khả năng xử lý dữ liệu đa chiều và tìm siêu phẳng tối ưu phân tách các lớp sự cố kỹ thuật. Việc sử dụng TF-IDF giúp giảm chiều dữ liệu và tăng tính phân biệt giữa các loại sự cố. Tuy nhiên, hạn chế về kích thước bộ dữ liệu (khoảng 5300 mẫu) và sự phức tạp của một số sự cố kết hợp nhiều lớp làm giảm hiệu quả phân loại ở một số trường hợp.
So sánh với các nghiên cứu trong nước và quốc tế, kết quả này tương đồng với các công trình ứng dụng SVM trong phân loại văn bản tiếng Việt, đồng thời vượt trội hơn các thuật toán đơn giản như KNN và Naïve Bayes trong bài toán phân loại đa lớp phức tạp. Việc áp dụng thành công mô hình này tại Trung tâm CNTT tỉnh Đồng Nai có ý nghĩa thực tiễn lớn, góp phần nâng cao hiệu quả vận hành hệ thống hành chính công, giảm thiểu thời gian xử lý sự cố và tăng sự hài lòng của người dùng.
Dữ liệu kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác các thuật toán, bảng ma trận nhầm lẫn thể hiện tỷ lệ phân loại đúng/sai theo từng loại sự cố, và biểu đồ thời gian xử lý sự cố trước và sau khi áp dụng phần mềm.
Đề xuất và khuyến nghị
- Triển khai phần mềm phân loại sự cố kỹ thuật trên toàn tỉnh Đồng Nai nhằm chuẩn hóa quy trình tiếp nhận và xử lý sự cố, dự kiến hoàn thành trong vòng 12 tháng, do Trung tâm CNTT tỉnh chủ trì.
- Mở rộng bộ dữ liệu huấn luyện bằng cách thu thập thêm các mẫu sự cố mới hàng năm, nhằm nâng cao độ chính xác và khả năng phân loại các sự cố phức tạp, do các đơn vị hành chính phối hợp thực hiện.
- Đào tạo và nâng cao năng lực cho đội ngũ tổng đài viên và cán bộ kỹ thuật về sử dụng phần mềm và kỹ thuật xử lý sự cố, đảm bảo vận hành hiệu quả, trong vòng 6 tháng đầu sau khi phần mềm được triển khai.
- Nghiên cứu tích hợp thêm các thuật toán máy học nâng cao và kỹ thuật xử lý ngôn ngữ tự nhiên mới để cải thiện khả năng phân loại đa lớp và xử lý các sự cố kết hợp, thực hiện trong giai đoạn tiếp theo của dự án.
- Xây dựng hệ thống báo cáo và giám sát tự động để theo dõi hiệu quả xử lý sự cố, giúp lãnh đạo các cấp có cơ sở ra quyết định kịp thời, dự kiến hoàn thiện trong 9 tháng.
Đối tượng nên tham khảo luận văn
- Các nhà quản lý CNTT tại các cơ quan hành chính công: giúp hiểu rõ về ứng dụng máy học trong quản lý sự cố kỹ thuật, từ đó nâng cao hiệu quả vận hành hệ thống.
- Chuyên viên kỹ thuật và tổng đài viên Trung tâm CNTT: cung cấp kiến thức về xử lý ngôn ngữ tự nhiên và phân loại văn bản, hỗ trợ công tác tiếp nhận và xử lý sự cố nhanh chóng, chính xác.
- Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: tham khảo phương pháp xây dựng mô hình phân loại văn bản tiếng Việt, ứng dụng thuật toán SVM và kỹ thuật tiền xử lý dữ liệu.
- Các đơn vị phát triển phần mềm và giải pháp chính phủ điện tử: áp dụng mô hình và thuật toán nghiên cứu để phát triển các hệ thống hỗ trợ tự động phân loại và xử lý sự cố kỹ thuật trong môi trường hành chính công.
Câu hỏi thường gặp
1. Phần mềm dự đoán sự cố kỹ thuật hoạt động như thế nào?
Phần mềm sử dụng mô hình máy học SVM được huấn luyện trên dữ liệu sự cố đã gán nhãn, kết hợp với kỹ thuật xử lý ngôn ngữ tự nhiên để phân loại các yêu cầu sự cố mới, từ đó đề xuất bộ phận xử lý phù hợp.
2. Bộ dữ liệu huấn luyện có đủ lớn để đảm bảo độ chính xác không?
Hiện tại bộ dữ liệu gồm khoảng 5300 mẫu, đủ để xây dựng mô hình ban đầu với độ chính xác khoảng 85%. Tuy nhiên, mở rộng dữ liệu sẽ giúp cải thiện hiệu quả phân loại, đặc biệt với các sự cố phức tạp.
3. Tại sao chọn thuật toán SVM thay vì các thuật toán khác?
SVM có khả năng xử lý dữ liệu đa chiều hiệu quả, tìm siêu phẳng tối ưu phân tách các lớp, phù hợp với bài toán phân loại văn bản tiếng Việt đa lớp và cho kết quả chính xác cao hơn so với KNN hay Naïve Bayes trong nghiên cứu này.
4. Phần mềm có thể áp dụng cho các hệ thống hành chính công khác không?
Có, mô hình và phương pháp xử lý ngôn ngữ tự nhiên được thiết kế phù hợp với tiếng Việt và có thể tùy chỉnh để áp dụng cho các hệ thống hành chính công tại các địa phương khác.
5. Làm thế nào để nâng cao hiệu quả phân loại trong tương lai?
Cần thu thập thêm dữ liệu sự cố mới, áp dụng các thuật toán máy học nâng cao, cải tiến kỹ thuật tiền xử lý dữ liệu và đào tạo nhân sự vận hành phần mềm để đảm bảo hiệu quả lâu dài.
Kết luận
- Đã xây dựng thành công phần mềm dự đoán và phân loại sự cố kỹ thuật trên hệ thống hành chính công tỉnh Đồng Nai với độ chính xác khoảng 85%.
- Áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên tiếng Việt và thuật toán SVM giúp phân loại hiệu quả các sự cố kỹ thuật đa dạng.
- Giảm thời gian xử lý sự cố trung bình 30%, nâng cao hiệu quả vận hành và sự hài lòng của người dùng cuối.
- Hạn chế hiện tại là kích thước bộ dữ liệu còn nhỏ và một số sự cố phức tạp chưa được phân loại chính xác hoàn toàn.
- Đề xuất mở rộng dữ liệu, đào tạo nhân sự và nghiên cứu thuật toán nâng cao để phát triển phần mềm trong giai đoạn tiếp theo.
Hành động tiếp theo: Các đơn vị liên quan cần phối hợp triển khai phần mềm, thu thập dữ liệu bổ sung và tổ chức đào tạo để phát huy tối đa hiệu quả ứng dụng trong thực tế.