## Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên, các hệ thống hỏi đáp (Question Answering System - QAS) ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là giáo dục. Theo ước tính, việc áp dụng mô hình ngôn ngữ lớn (Large Language Models - LLMs) như GPT-4, Llama-3 đã tạo ra bước đột phá trong khả năng trả lời tự nhiên và chính xác các câu hỏi phức tạp. Tuy nhiên, các mô hình này thường gặp khó khăn khi chỉ dựa vào tham số huấn luyện trước, dẫn đến câu trả lời thiếu cập nhật và không chính xác, đặc biệt trong các lĩnh vực có dữ liệu chuyên biệt như quy định học vụ tại các trường đại học.

Luận văn tập trung xây dựng hệ thống hỏi đáp hỗ trợ học vụ sử dụng mô hình ngôn ngữ lớn, dựa trên mô hình Retrieval Augmented Generation (RAG) để truy xuất thông tin từ các văn bản quy định của Trường Đại học Bách Khoa – ĐHQG TP.HCM. Mục tiêu chính là cải thiện độ chính xác và hiệu quả truy xuất thông tin, đồng thời phát triển một chatbot tương tác linh hoạt phục vụ sinh viên, học viên và nghiên cứu sinh trong việc giải đáp các thắc mắc liên quan đến học vụ.

Phạm vi nghiên cứu tập trung vào dữ liệu quy định học vụ từ năm 2020 đến 2024 tại Trường Đại học Bách Khoa – ĐHQG TP.HCM, với trọng tâm là ngôn ngữ tiếng Việt. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao trải nghiệm người dùng, giảm tải công việc cho các phòng ban hỗ trợ học vụ, đồng thời góp phần thúc đẩy ứng dụng AI trong giáo dục đại học tại Việt Nam.

---

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mô hình Retrieval Augmented Generation (RAG):** Kết hợp giữa truy xuất thông tin từ cơ sở dữ liệu bên ngoài và sinh câu trả lời dựa trên mô hình ngôn ngữ lớn, giúp cập nhật kiến thức mới và giảm hiện tượng ảo giác (hallucination).
- **Kỹ thuật Word Embedding:** Sử dụng mô hình Word2Vec với hai phương pháp Skip-Gram và CBOW để biểu diễn từ ngữ dưới dạng vector, giúp mô hình hiểu ngữ cảnh và mối quan hệ ngữ nghĩa giữa các từ.
- **Mô hình Transformer:** Áp dụng kiến trúc Transformer với các kỹ thuật như Scaled Dot-Product Attention, Multi-Head Attention và Positional Encoding để xử lý ngôn ngữ tự nhiên hiệu quả, đặc biệt trong việc mã hóa và sinh văn bản.
- **Mô hình GPT (Generative Pre-training Transformer):** Sử dụng mô hình Decoder-only để sinh câu trả lời tự nhiên dựa trên ngữ cảnh truy xuất được.
- **Kỹ thuật Parent Child Document:** Phân đoạn dữ liệu thành các đoạn nhỏ có cấu trúc cha-con nhằm tăng độ chính xác trong truy xuất thông tin.
- **Hybrid Search và Multiquery:** Kết hợp các phương pháp tìm kiếm để nâng cao hiệu suất truy vấn và mở rộng phạm vi tìm kiếm thông tin liên quan.
- **Mô hình xếp hạng Cross-encoder:** Huấn luyện mô hình để xếp hạng các tài liệu truy xuất theo mức độ liên quan, đảm bảo chọn lọc thông tin chính xác nhất.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu:** Thu thập từ các văn bản quy định học vụ của Trường Đại học Bách Khoa – ĐHQG TP.HCM, bao gồm quy định chung, đào tạo thạc sĩ và tiến sĩ.
- **Phương pháp phân tích:** 
  - Tiền xử lý dữ liệu bằng kỹ thuật Parent Child Document để chia nhỏ và cấu trúc lại văn bản.
  - Áp dụng Hybrid Search và Multiquery để tăng hiệu quả truy xuất.
  - Huấn luyện mô hình Cross-encoder để xếp hạng tài liệu.
  - Đánh giá mô hình dựa trên các chỉ số Recall, F1 score và độ tương đồng ngữ nghĩa (semantic similarity).
- **Cỡ mẫu:** Dữ liệu gồm hàng trăm văn bản quy định, được chia thành hàng nghìn đoạn nhỏ phục vụ huấn luyện và kiểm thử.
- **Timeline nghiên cứu:** Từ tháng 01/2024 đến tháng 06/2024, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá.

---

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- **Tăng hiệu suất truy xuất thông tin:** Áp dụng kỹ thuật Hybrid Search và phân loại câu hỏi giúp tăng Recall lên khoảng 15% so với mô hình cơ sở.
- **Cải thiện độ chính xác câu trả lời:** Mô hình Chatbot-PĐT đạt điểm F1 trung bình 0.78 trên tập kiểm tra, cao hơn 12% so với các mô hình RAG truyền thống.
- **Giảm hiện tượng ảo giác:** Việc sử dụng Multiquery và mô hình xếp hạng Cross-encoder giúp giảm ảo giác trong câu trả lời xuống dưới 5% theo đánh giá thủ công.
- **Tăng tính linh hoạt trong tương tác:** Giao diện chatbot được thiết kế thân thiện, hỗ trợ trả lời đa dạng câu hỏi học vụ với thời gian phản hồi trung bình dưới 2 giây.

### Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc kết hợp nhiều kỹ thuật truy xuất và xử lý dữ liệu giúp mô hình có ngữ cảnh đầy đủ và chính xác hơn khi sinh câu trả lời. So với các nghiên cứu trước đây chỉ sử dụng mô hình RAG đơn thuần, việc bổ sung Parent Child Document và Multiquery đã nâng cao đáng kể hiệu quả truy xuất. Kết quả này phù hợp với xu hướng phát triển các hệ thống hỏi đáp chuyên biệt trong lĩnh vực giáo dục, đồng thời giảm thiểu chi phí huấn luyện lại mô hình khi có dữ liệu mới.

Dữ liệu có thể được trình bày qua biểu đồ so sánh Recall và F1 score giữa các mô hình, cũng như bảng phân tích tỷ lệ ảo giác và thời gian phản hồi. Điều này giúp minh họa rõ ràng hiệu quả của các cải tiến đề xuất.

---

## Đề xuất và khuyến nghị

- **Triển khai hệ thống Chatbot-PĐT rộng rãi:** Áp dụng trong các trường đại học khác nhằm nâng cao hiệu quả hỗ trợ học vụ, mục tiêu tăng tỷ lệ hài lòng người dùng lên trên 85% trong vòng 12 tháng.
- **Cập nhật dữ liệu thường xuyên:** Thiết lập quy trình cập nhật văn bản quy định mới hàng năm để đảm bảo thông tin luôn chính xác và kịp thời.
- **Đào tạo nhân sự vận hành:** Tổ chức các khóa đào tạo cho cán bộ hỗ trợ học vụ về cách sử dụng và quản lý hệ thống chatbot, nhằm tối ưu hóa hiệu quả vận hành.
- **Nâng cấp mô hình liên tục:** Nghiên cứu và áp dụng các kỹ thuật fine-tuning mới như LoRA để cải thiện khả năng thích ứng của mô hình với dữ liệu mới, dự kiến thực hiện trong 6 tháng tới.
- **Phát triển giao diện đa nền tảng:** Mở rộng hỗ trợ chatbot trên các nền tảng di động và mạng xã hội để tăng khả năng tiếp cận người dùng.

---

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính:** Học hỏi về ứng dụng mô hình ngôn ngữ lớn và kỹ thuật truy xuất thông tin trong hệ thống hỏi đáp.
- **Cán bộ quản lý giáo dục đại học:** Áp dụng giải pháp chatbot hỗ trợ học vụ để nâng cao hiệu quả quản lý và phục vụ sinh viên.
- **Phát triển sản phẩm AI trong giáo dục:** Tham khảo mô hình và phương pháp để phát triển các sản phẩm tương tác thông minh trong lĩnh vực giáo dục.
- **Chuyên gia NLP và AI:** Nghiên cứu các kỹ thuật cải tiến mô hình RAG, xử lý dữ liệu và đánh giá mô hình trong môi trường thực tế.

---

## Câu hỏi thường gặp

1. **Hệ thống hỏi đáp sử dụng mô hình ngôn ngữ lớn có ưu điểm gì?**  
   Hệ thống có khả năng trả lời tự nhiên, chính xác và cập nhật kiến thức mới thông qua việc truy xuất dữ liệu bên ngoài, giảm hiện tượng ảo giác.

2. **Phương pháp Retrieval Augmented Generation (RAG) hoạt động như thế nào?**  
   RAG kết hợp truy xuất thông tin từ cơ sở dữ liệu bên ngoài và sinh câu trả lời dựa trên mô hình ngôn ngữ lớn, giúp bổ sung kiến thức mới cho mô hình.

3. **Làm thế nào để cải thiện hiệu suất truy xuất thông tin?**  
   Áp dụng kỹ thuật Hybrid Search, phân loại câu hỏi và Multiquery giúp tăng khả năng tìm kiếm và chọn lọc thông tin liên quan.

4. **Mô hình xếp hạng Cross-encoder có vai trò gì?**  
   Giúp xếp hạng các tài liệu truy xuất theo mức độ liên quan, đảm bảo câu trả lời dựa trên thông tin chính xác và phù hợp nhất.

5. **Hệ thống có thể áp dụng cho các lĩnh vực khác ngoài giáo dục không?**  
   Có thể, với việc điều chỉnh dữ liệu đầu vào và huấn luyện mô hình phù hợp, hệ thống có thể phục vụ trong y tế, luật pháp, và các lĩnh vực chuyên biệt khác.

---

## Kết luận

- Đã xây dựng thành công hệ thống hỏi đáp hỗ trợ học vụ sử dụng mô hình ngôn ngữ lớn, cải thiện đáng kể độ chính xác và hiệu quả truy xuất thông tin.  
- Áp dụng kỹ thuật Parent Child Document, Hybrid Search, Multiquery và Cross-encoder giúp nâng cao chất lượng câu trả lời và giảm hiện tượng ảo giác.  
- Hệ thống có khả năng tương tác linh hoạt, đáp ứng nhanh các câu hỏi học vụ của sinh viên và cán bộ quản lý.  
- Đề xuất triển khai rộng rãi, cập nhật dữ liệu thường xuyên và nâng cấp mô hình để duy trì hiệu quả lâu dài.  
- Khuyến khích các nhà nghiên cứu và tổ chức giáo dục áp dụng mô hình để nâng cao chất lượng dịch vụ hỗ trợ học vụ.

**Hành động tiếp theo:** Triển khai thử nghiệm hệ thống tại các khoa, phòng ban trong trường, thu thập phản hồi và tiếp tục cải tiến mô hình trong 6-12 tháng tới.