Tổng quan nghiên cứu

Xử lý ngôn ngữ tự nhiên (NLP) là một lĩnh vực quan trọng của trí tuệ nhân tạo, tập trung vào việc tương tác giữa máy tính và ngôn ngữ con người dưới dạng văn bản hoặc lời nói. Trong bối cảnh số lượng bài báo khoa học ngày càng tăng, việc phân loại và gom cụm các bài báo theo chủ đề trở thành một thách thức lớn đối với các ban tổ chức hội nghị khoa học. Mục tiêu của luận văn là xây dựng một ứng dụng sử dụng mô hình học sâu PhoBERT để tự động gom cụm các bài báo khoa học theo chủ đề dựa trên phần tóm tắt và từ khóa của bài báo. Nghiên cứu tập trung trên bộ dữ liệu gồm 214 bài báo thuộc lĩnh vực Công nghệ Thông tin, thu thập từ Hội nghị Khoa học Quốc gia về Nghiên cứu Cơ bản và Ứng dụng Công nghệ Thông tin (FAIR) trong giai đoạn 2020-2021. Việc phân loại chính xác các bài báo giúp Ban quản trị chương trình sắp xếp các phiên làm việc một cách hiệu quả, tiết kiệm thời gian và nâng cao chất lượng tổ chức hội nghị. Ngoài ra, ứng dụng còn góp phần thúc đẩy nghiên cứu về xử lý ngôn ngữ tiếng Việt, đặc biệt trong lĩnh vực phân loại văn bản ngắn và đa chủ đề.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Xử lý ngôn ngữ tự nhiên (NLP): Nghiên cứu các phương pháp để máy tính hiểu và xử lý ngôn ngữ con người, bao gồm tiền xử lý văn bản, tách từ, và biểu diễn ngữ nghĩa.
  • Kiến trúc Transformer: Mô hình mạng nơ-ron dựa trên cơ chế chú ý (Attention) đa đầu, giúp xử lý ngữ cảnh hai chiều hiệu quả hơn so với các mô hình truyền thống như RNN hay LSTM.
  • Mô hình BERT và PhoBERT: BERT là mô hình học trước (pre-trained) dựa trên Transformer, cho phép biểu diễn từ theo ngữ cảnh hai chiều. PhoBERT là phiên bản BERT được huấn luyện riêng cho tiếng Việt, sử dụng kỹ thuật tách từ RDRSegmenter và mã hóa Byte Pair Encoding (BPE), tối ưu cho các nhiệm vụ NLP tiếng Việt.
  • Học có giám sát (Supervised Learning): Phương pháp học máy sử dụng dữ liệu đã gán nhãn để huấn luyện mô hình phân loại đa lớp.
  • Thuật toán tối ưu AdamW: Thuật toán tối ưu hóa được sử dụng để huấn luyện mô hình, kết hợp ưu điểm của Adam và SGD, giúp tăng tốc độ hội tụ và giảm lỗi.

Các khái niệm chính bao gồm: Tokenize, mã hóa BPE, hàm Softmax, độ chính xác (Precision), độ bao phủ (Recall), và điểm F1 (F1-Score).

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Bộ dữ liệu gồm 214 bài báo khoa học từ hội nghị FAIR năm 2020-2021, thuộc 6 chủ đề chính: Xử lý ngôn ngữ tự nhiên (NLP), Thị giác máy tính (CV), Mạng máy tính (NS), Trí tuệ nhân tạo (AI), Hệ thống thông tin (IS), và Khoa học máy tính (DS).
  • Tiền xử lý dữ liệu: Chuyển đổi định dạng từ DOCX/PDF sang TXT, trích xuất phần tóm tắt và từ khóa, dịch sang tiếng Việt nếu cần, và tách từ bằng thư viện VnCoreNLP. Áp dụng kỹ thuật tăng cường dữ liệu (Data Augmentation) bằng chèn từ và hoán đổi từ để tăng kích thước dữ liệu lên gấp 4 lần, giảm thiểu hiện tượng overfitting.
  • Phương pháp phân tích: Sử dụng mô hình PhoBERTbase để huấn luyện và phân loại bài báo theo chủ đề. Dữ liệu được chia thành ba phần: huấn luyện, kiểm tra và kiểm thử. Mô hình được tinh chỉnh (fine-tuning) với các siêu tham số tối ưu, sử dụng thuật toán AdamW để tối ưu hóa.
  • Timeline nghiên cứu: Quá trình thu thập và tiền xử lý dữ liệu, huấn luyện mô hình, xây dựng ứng dụng web và đánh giá kết quả được thực hiện trong năm 2022-2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phân loại của mô hình PhoBERT: Mô hình đạt độ chính xác trung bình (Precision) và độ bao phủ (Recall) cao, với điểm F1 macro-average khoảng 85-90% trên bộ dữ liệu kiểm thử. So với mô hình BERT đa ngôn ngữ, PhoBERT cho kết quả tốt hơn khoảng 5-7% do được huấn luyện chuyên biệt cho tiếng Việt.

  2. Tác động của tăng cường dữ liệu: Việc áp dụng kỹ thuật chèn từ và hoán đổi từ giúp tăng kích thước dữ liệu lên gấp 4 lần, giảm hiện tượng overfitting và cải thiện điểm F1 lên khoảng 3-4% so với mô hình không tăng cường.

  3. Phân bố chủ đề trong bộ dữ liệu: Trong 214 bài báo, chủ đề Hệ thống thông tin (IS) chiếm 22%, tiếp theo là các chủ đề Khoa học máy tính (DS), Trí tuệ nhân tạo (AI), và Thị giác máy tính (CV) đều chiếm khoảng 18%, còn lại là NLP và Mạng máy tính (NS). Mô hình phân loại chính xác nhất với các chủ đề có số lượng dữ liệu lớn như IS và DS, trong khi các chủ đề ít dữ liệu hơn như NS có độ chính xác thấp hơn khoảng 5%.

  4. Ứng dụng trên website: Ứng dụng web xây dựng trên nền tảng Flask và Google Colab cho phép người dùng tải lên bài báo dưới dạng PDF/DOCX, tự động trích xuất tóm tắt và từ khóa, phân loại và trả về chủ đề tương ứng. Thời gian xử lý trung bình mỗi bài báo khoảng 5 giây, phù hợp với nhu cầu thực tế của Ban tổ chức hội nghị.

Thảo luận kết quả

Kết quả cho thấy mô hình PhoBERTbase phù hợp và hiệu quả trong việc phân loại bài báo khoa học tiếng Việt theo chủ đề, nhờ khả năng biểu diễn ngữ cảnh hai chiều và được huấn luyện chuyên biệt cho tiếng Việt. Việc tăng cường dữ liệu giúp khắc phục hạn chế về kích thước bộ dữ liệu, nâng cao độ chính xác và độ ổn định của mô hình. So sánh với các nghiên cứu trước đây sử dụng mô hình đa ngôn ngữ hoặc các thuật toán truyền thống như SVM, PhoBERT thể hiện ưu thế vượt trội về khả năng xử lý ngôn ngữ tự nhiên tiếng Việt. Kết quả cũng cho thấy sự phân bố không đồng đều của dữ liệu ảnh hưởng đến hiệu quả phân loại, gợi ý cần mở rộng bộ dữ liệu cho các chủ đề ít bài báo hơn trong tương lai. Dữ liệu có thể được trình bày qua biểu đồ cột thể hiện tỷ lệ chính xác theo từng chủ đề và bảng so sánh điểm F1 giữa các mô hình.

Đề xuất và khuyến nghị

  1. Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm bài báo khoa học từ các hội nghị và tạp chí khác để tăng tính đa dạng và cân bằng dữ liệu, đặc biệt cho các chủ đề ít dữ liệu như Mạng máy tính (NS). Mục tiêu nâng điểm F1 lên trên 90% trong vòng 12 tháng, do nhóm nghiên cứu và Ban tổ chức hội nghị thực hiện.

  2. Cải tiến mô hình phân loại: Thử nghiệm các biến thể của PhoBERT như PhoBERT large hoặc kết hợp với các mô hình Transformer khác để nâng cao độ chính xác và khả năng xử lý đa chủ đề. Thời gian thực hiện dự kiến 6-9 tháng, do nhóm nghiên cứu AI và phát triển phần mềm đảm nhiệm.

  3. Phát triển giao diện người dùng: Nâng cấp ứng dụng web với tính năng phân loại đa nhãn, hỗ trợ tải lên nhiều bài báo cùng lúc và báo cáo trực quan kết quả phân loại. Mục tiêu hoàn thành trong 6 tháng, do nhóm phát triển phần mềm và UX/UI thực hiện.

  4. Tích hợp hệ thống vào quy trình tổ chức hội nghị: Đề xuất Ban quản trị hội nghị áp dụng ứng dụng vào quy trình xét duyệt bài báo, giúp tự động phân loại và sắp xếp phiên làm việc, giảm thiểu sai sót và tăng hiệu quả công tác tổ chức. Thời gian triển khai thử nghiệm 3-6 tháng.

Đối tượng nên tham khảo luận văn

  1. Ban tổ chức hội nghị khoa học: Giúp tự động hóa quá trình phân loại bài báo, tiết kiệm thời gian và nâng cao chất lượng sắp xếp phiên làm việc.

  2. Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Cung cấp kiến thức về ứng dụng mô hình học sâu PhoBERT trong xử lý ngôn ngữ tiếng Việt và phân loại văn bản.

  3. Phát triển phần mềm và AI: Tham khảo quy trình xây dựng, huấn luyện và triển khai mô hình NLP chuyên biệt cho tiếng Việt, cũng như kỹ thuật tăng cường dữ liệu.

  4. Các tổ chức nghiên cứu về ngôn ngữ tiếng Việt: Hỗ trợ phát triển các ứng dụng xử lý ngôn ngữ tự nhiên, đặc biệt trong lĩnh vực phân loại văn bản và khai thác thông tin.

Câu hỏi thường gặp

  1. PhoBERT khác gì so với BERT đa ngôn ngữ?
    PhoBERT được huấn luyện riêng cho tiếng Việt với bộ dữ liệu lớn và kỹ thuật tách từ phù hợp, giúp biểu diễn ngữ cảnh chính xác hơn so với BERT đa ngôn ngữ, từ đó nâng cao hiệu quả các nhiệm vụ NLP tiếng Việt.

  2. Tại sao cần tăng cường dữ liệu trong nghiên cứu này?
    Bộ dữ liệu gốc chỉ có 214 bài báo, khá nhỏ và không cân bằng giữa các chủ đề. Tăng cường dữ liệu giúp mở rộng kích thước và đa dạng hóa dữ liệu, giảm hiện tượng overfitting và cải thiện độ chính xác mô hình.

  3. Ứng dụng web có thể xử lý bao nhiêu bài báo cùng lúc?
    Hiện tại ứng dụng xử lý từng bài báo một với thời gian khoảng 5 giây mỗi bài. Việc xử lý đồng thời nhiều bài báo sẽ được cải tiến trong các phiên bản tiếp theo.

  4. Mô hình có thể áp dụng cho các lĩnh vực khác ngoài Công nghệ Thông tin không?
    Về lý thuyết, mô hình có thể được tinh chỉnh lại với dữ liệu phù hợp cho các lĩnh vực khác, tuy nhiên cần thu thập và tiền xử lý dữ liệu đặc thù cho từng lĩnh vực để đảm bảo hiệu quả.

  5. Làm thế nào để cải thiện độ chính xác cho các chủ đề ít dữ liệu?
    Có thể áp dụng kỹ thuật học chuyển giao (transfer learning), tăng cường dữ liệu chuyên biệt hoặc thu thập thêm dữ liệu thực tế để cân bằng bộ dữ liệu, từ đó nâng cao độ chính xác phân loại.

Kết luận

  • Luận văn đã xây dựng thành công ứng dụng gom cụm bài báo khoa học theo chủ đề sử dụng mô hình PhoBERTbase, đạt điểm F1 macro-average khoảng 85-90%.
  • Áp dụng kỹ thuật tăng cường dữ liệu giúp cải thiện hiệu quả phân loại và giảm hiện tượng overfitting.
  • Ứng dụng web được triển khai trên nền tảng Flask và Google Colab, hỗ trợ trích xuất tóm tắt, từ khóa và phân loại tự động.
  • Kết quả nghiên cứu góp phần nâng cao hiệu quả tổ chức hội nghị khoa học và thúc đẩy nghiên cứu NLP tiếng Việt.
  • Hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, cải tiến mô hình và nâng cấp ứng dụng để đáp ứng nhu cầu thực tế.

Để tiếp tục phát triển, các nhà nghiên cứu và Ban tổ chức hội nghị nên phối hợp mở rộng bộ dữ liệu và thử nghiệm các mô hình mới nhằm nâng cao độ chính xác và tính ứng dụng của hệ thống. Hãy áp dụng ngay giải pháp này để tối ưu hóa công tác phân loại bài báo khoa học trong các sự kiện nghiên cứu sắp tới!