I. Giới thiệu và mục tiêu nghiên cứu
Luận văn thạc sĩ này tập trung vào việc xây dựng chatbot tiếng Việt sử dụng mô hình ngôn ngữ lớn (LLM). Mục tiêu chính là nâng cao khả năng hiểu và phản hồi của chatbot trong các tác vụ đa dạng, từ lĩnh vực rộng đến lĩnh vực hẹp như y tế. Nghiên cứu này áp dụng các kỹ thuật huấn luyện theo chỉ dẫn (instruction fine-tuning) và tối ưu hóa tham số như LoRA để tăng hiệu quả của mô hình trong điều kiện tài nguyên hạn chế.
1.1. Đặt vấn đề
Sự phát triển của AI và chatbot đã mang lại nhiều ứng dụng thực tiễn, đặc biệt là trong giao tiếp tự động. Tuy nhiên, việc phát triển chatbot tiếng Việt gặp nhiều thách thức do thiếu dữ liệu và tài nguyên. Nghiên cứu này nhằm giải quyết các vấn đề này bằng cách áp dụng LLM và các kỹ thuật tiên tiến như Self-Instruct để tăng cường dữ liệu huấn luyện.
1.2. Mục tiêu và phạm vi
Nghiên cứu hướng đến việc phát triển chatbot tiếng Việt có khả năng xử lý đa tác vụ và hỏi đáp trong lĩnh vực y tế. Phạm vi bao gồm việc thu thập dữ liệu, huấn luyện mô hình, và đánh giá hiệu quả thông qua các phương pháp như RAG (Retrieval Augment Generation).
II. Các công trình nghiên cứu liên quan
Chương này trình bày các công trình nghiên cứu liên quan đến LLM và chatbot tiếng Việt. Các mô hình như PhoBERT, BARTpho, và VITS được đề cập như nền tảng cho sự phát triển của LLM trong tiếng Việt. Nghiên cứu cũng phân tích các kỹ thuật huấn luyện theo chỉ dẫn và Self-Instruct để tăng cường khả năng của mô hình.
2.1. Mô hình ngôn ngữ lớn
LLM được xây dựng dựa trên kiến trúc Transformer, cho phép mô hình hiểu và tạo văn bản tự nhiên. Các ứng dụng của LLM bao gồm xử lý ngôn ngữ tự nhiên (NLP), dịch máy, và hỏi đáp tự động. Tuy nhiên, việc huấn luyện và triển khai LLM đòi hỏi nhiều tài nguyên và năng lượng.
2.2. Huấn luyện theo chỉ dẫn
Huấn luyện theo chỉ dẫn giúp mô hình hiểu và thực hiện các yêu cầu mà không cần ví dụ mẫu (zero-shot). Kỹ thuật này tăng hiệu năng của mô hình trên các tác vụ cụ thể và giảm lượng dữ liệu huấn luyện cần thiết. Tuy nhiên, việc tạo dữ liệu chỉ dẫn tốn nhiều thời gian và công sức.
III. Phương pháp nghiên cứu
Nghiên cứu áp dụng các phương pháp huấn luyện theo chỉ dẫn và tối ưu hóa tham số như LoRA để tăng hiệu quả của mô hình. Quá trình huấn luyện bao gồm việc thu thập dữ liệu, token hóa, và cấu hình tham số. Nghiên cứu cũng sử dụng Self-Instruct để tăng cường dữ liệu huấn luyện và RAG để cải thiện khả năng truy xuất thông tin.
3.1. Thu thập và xử lý dữ liệu
Dữ liệu được thu thập từ các nguồn đa dạng và được xử lý thông qua các bước token hóa và chuẩn hóa. Self-Instruct được sử dụng để tạo thêm dữ liệu huấn luyện từ một lượng nhỏ dữ liệu ban đầu.
3.2. Huấn luyện mô hình
Mô hình được huấn luyện sử dụng LoRA để tối ưu hóa tham số và giảm thiểu chi phí tính toán. Quá trình huấn luyện bao gồm việc cấu hình tham số và khởi tạo bộ huấn luyện (trainer).
IV. Thực nghiệm và đánh giá
Nghiên cứu tiến hành thực nghiệm trên các bộ dữ liệu đa tác vụ và y tế. Kết quả được đánh giá thông qua các tiêu chí như độ chính xác và khả năng phản hồi tự nhiên. Nghiên cứu cũng so sánh hiệu quả của mô hình với ChatGPT và các mô hình gốc.
4.1. Thiết lập môi trường
Môi trường thực nghiệm được thiết lập với các thông số cụ thể để đảm bảo tính nhất quán trong quá trình huấn luyện và đánh giá.
4.2. Kết quả thực nghiệm
Kết quả cho thấy mô hình được huấn luyện bằng LoRA và Self-Instruct có hiệu suất cao hơn so với mô hình gốc. RAG cũng giúp cải thiện khả năng truy xuất thông tin của chatbot.
V. Kết luận và hướng phát triển
Nghiên cứu đã thành công trong việc xây dựng chatbot tiếng Việt sử dụng LLM và các kỹ thuật tiên tiến. Các kết quả cho thấy tiềm năng ứng dụng của mô hình trong các lĩnh vực như giáo dục và y tế. Hướng phát triển tương lai bao gồm việc mở rộng dữ liệu huấn luyện và tối ưu hóa hiệu suất mô hình.
5.1. Đóng góp của nghiên cứu
Nghiên cứu đóng góp hai bộ dữ liệu chỉ dẫn với hơn 300.000 mẫu và đề xuất phương pháp đánh giá hiệu quả của mô hình. Ứng dụng thực tế của chatbot cũng được thử nghiệm và đánh giá.
5.2. Hướng phát triển
Hướng phát triển tương lai bao gồm việc tích hợp thêm các kỹ thuật AI tiên tiến và mở rộng ứng dụng của chatbot trong các lĩnh vực khác như giáo dục và doanh nghiệp.