Luận Văn Thạc Sĩ: Xây Dựng Chatbot Tiếng Việt Với Mô Hình Ngôn Ngữ Lớn

I. Giới thiệu và mục tiêu nghiên cứu

Luận văn thạc sĩ này tập trung vào việc xây dựng chatbot tiếng Việt sử dụng mô hình ngôn ngữ lớn (LLM). Mục tiêu chính là nâng cao khả năng hiểu và phản hồi của chatbot trong các tác vụ đa dạng, từ lĩnh vực rộng đến lĩnh vực hẹp như y tế. Nghiên cứu này áp dụng các kỹ thuật huấn luyện theo chỉ dẫn (instruction fine-tuning) và tối ưu hóa tham số như LoRA để tăng hiệu quả của mô hình trong điều kiện tài nguyên hạn chế.

1.1. Đặt vấn đề

Sự phát triển của AI và chatbot đã mang lại nhiều ứng dụng thực tiễn, đặc biệt là trong giao tiếp tự động. Tuy nhiên, việc phát triển chatbot tiếng Việt gặp nhiều thách thức do thiếu dữ liệu và tài nguyên. Nghiên cứu này nhằm giải quyết các vấn đề này bằng cách áp dụng LLM và các kỹ thuật tiên tiến như Self-Instruct để tăng cường dữ liệu huấn luyện.

1.2. Mục tiêu và phạm vi

Nghiên cứu hướng đến việc phát triển chatbot tiếng Việt có khả năng xử lý đa tác vụ và hỏi đáp trong lĩnh vực y tế. Phạm vi bao gồm việc thu thập dữ liệu, huấn luyện mô hình, và đánh giá hiệu quả thông qua các phương pháp như RAG (Retrieval Augment Generation).

II. Các công trình nghiên cứu liên quan

Chương này trình bày các công trình nghiên cứu liên quan đến LLM và chatbot tiếng Việt. Các mô hình như PhoBERT, BARTpho, và VITS được đề cập như nền tảng cho sự phát triển của LLM trong tiếng Việt. Nghiên cứu cũng phân tích các kỹ thuật huấn luyện theo chỉ dẫn và Self-Instruct để tăng cường khả năng của mô hình.

2.1. Mô hình ngôn ngữ lớn

LLM được xây dựng dựa trên kiến trúc Transformer, cho phép mô hình hiểu và tạo văn bản tự nhiên. Các ứng dụng của LLM bao gồm xử lý ngôn ngữ tự nhiên (NLP), dịch máy, và hỏi đáp tự động. Tuy nhiên, việc huấn luyện và triển khai LLM đòi hỏi nhiều tài nguyên và năng lượng.

2.2. Huấn luyện theo chỉ dẫn

Huấn luyện theo chỉ dẫn giúp mô hình hiểu và thực hiện các yêu cầu mà không cần ví dụ mẫu (zero-shot). Kỹ thuật này tăng hiệu năng của mô hình trên các tác vụ cụ thể và giảm lượng dữ liệu huấn luyện cần thiết. Tuy nhiên, việc tạo dữ liệu chỉ dẫn tốn nhiều thời gian và công sức.

III. Phương pháp nghiên cứu

Nghiên cứu áp dụng các phương pháp huấn luyện theo chỉ dẫn và tối ưu hóa tham số như LoRA để tăng hiệu quả của mô hình. Quá trình huấn luyện bao gồm việc thu thập dữ liệu, token hóa, và cấu hình tham số. Nghiên cứu cũng sử dụng Self-Instruct để tăng cường dữ liệu huấn luyện và RAG để cải thiện khả năng truy xuất thông tin.

3.1. Thu thập và xử lý dữ liệu

Dữ liệu được thu thập từ các nguồn đa dạng và được xử lý thông qua các bước token hóa và chuẩn hóa. Self-Instruct được sử dụng để tạo thêm dữ liệu huấn luyện từ một lượng nhỏ dữ liệu ban đầu.

3.2. Huấn luyện mô hình

Mô hình được huấn luyện sử dụng LoRA để tối ưu hóa tham số và giảm thiểu chi phí tính toán. Quá trình huấn luyện bao gồm việc cấu hình tham số và khởi tạo bộ huấn luyện (trainer).

IV. Thực nghiệm và đánh giá

Nghiên cứu tiến hành thực nghiệm trên các bộ dữ liệu đa tác vụ và y tế. Kết quả được đánh giá thông qua các tiêu chí như độ chính xác và khả năng phản hồi tự nhiên. Nghiên cứu cũng so sánh hiệu quả của mô hình với ChatGPT và các mô hình gốc.

4.1. Thiết lập môi trường

Môi trường thực nghiệm được thiết lập với các thông số cụ thể để đảm bảo tính nhất quán trong quá trình huấn luyện và đánh giá.

4.2. Kết quả thực nghiệm

Kết quả cho thấy mô hình được huấn luyện bằng LoRA và Self-Instruct có hiệu suất cao hơn so với mô hình gốc. RAG cũng giúp cải thiện khả năng truy xuất thông tin của chatbot.

V. Kết luận và hướng phát triển

Nghiên cứu đã thành công trong việc xây dựng chatbot tiếng Việt sử dụng LLM và các kỹ thuật tiên tiến. Các kết quả cho thấy tiềm năng ứng dụng của mô hình trong các lĩnh vực như giáo dục và y tế. Hướng phát triển tương lai bao gồm việc mở rộng dữ liệu huấn luyện và tối ưu hóa hiệu suất mô hình.

5.1. Đóng góp của nghiên cứu

Nghiên cứu đóng góp hai bộ dữ liệu chỉ dẫn với hơn 300.000 mẫu và đề xuất phương pháp đánh giá hiệu quả của mô hình. Ứng dụng thực tế của chatbot cũng được thử nghiệm và đánh giá.

5.2. Hướng phát triển

Hướng phát triển tương lai bao gồm việc tích hợp thêm các kỹ thuật AI tiên tiến và mở rộng ứng dụng của chatbot trong các lĩnh vực khác như giáo dục và doanh nghiệp.

Tổng quan nghiên cứu

Trong bối cảnh công nghệ trí tuệ nhân tạo (AI) phát triển mạnh mẽ, các mô hình ngôn ngữ lớn (Large Language Models - LLM) đã trở thành công cụ đột phá trong xử lý ngôn ngữ tự nhiên (NLP). Theo ước tính, các mô hình như GPT-3 đã được huấn luyện trên hàng nghìn tỷ token, mở ra khả năng thực hiện nhiều tác vụ đa dạng chỉ với vài ví dụ đầu vào (few-shot learning) hoặc thậm chí không cần ví dụ nào (zero-shot). Tuy nhiên, việc huấn luyện và tinh chỉnh các LLM đòi hỏi nguồn lực tính toán lớn và bộ dữ liệu chỉ dẫn (instruction dataset) đa dạng, đặc biệt là với các ngôn ngữ ít tài nguyên như tiếng Việt.

Luận văn tập trung vào xây dựng chatbot tiếng Việt dựa trên mô hình ngôn ngữ lớn, áp dụng kỹ thuật huấn luyện theo chỉ dẫn kết hợp với các phương pháp tối ưu tham số như LoRA và kỹ thuật nén mô hình Int8 quantization nhằm giảm thiểu chi phí tính toán. Nghiên cứu thực hiện trong phạm vi tiếng Việt với hai lĩnh vực chính: đa tác vụ trên lĩnh vực rộng (open domain) và hỏi đáp chuyên sâu về y tế, sức khỏe (close domain). Bộ dữ liệu huấn luyện gồm khoảng 200.000 mẫu cho đa tác vụ và 100.000 mẫu cho lĩnh vực y tế, sức khỏe, được thu thập và tăng cường bằng kỹ thuật Self-Instruct.

Mục tiêu chính của đề tài là nâng cao khả năng hiểu và phản hồi tự nhiên của các mô hình LLM tiếng Việt trong điều kiện giới hạn tài nguyên, đồng thời xây dựng ứng dụng chatbot trên nền web hỗ trợ tương tác người dùng. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc phát triển các trợ lý ảo tiếng Việt hiệu quả, tiết kiệm chi phí và có thể ứng dụng rộng rãi trong nhiều lĩnh vực.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình ngôn ngữ lớn (LLM): Các mô hình như GPT-3, Bloomz, GPTJ-6B được xây dựng trên kiến trúc Transformer, nổi bật với cơ chế self-attention giúp mô hình học các phụ thuộc tầm xa trong chuỗi đầu vào. LLM có khả năng tạo văn bản tự nhiên, hiểu ngôn ngữ và thực hiện nhiều tác vụ NLP đa dạng.
Kiến trúc Transformer và cơ chế Self-attention: Transformer sử dụng multi-head self-attention để xử lý song song các token, giúp mô hình nắm bắt các mối quan hệ phức tạp trong dữ liệu. Mã hóa vị trí (positional encoding) được sử dụng để giữ thông tin về thứ tự token.
Huấn luyện theo chỉ dẫn (Instruction Fine-tuning): Phương pháp tinh chỉnh mô hình dựa trên bộ dữ liệu chỉ dẫn giúp mô hình hiểu và thực hiện các yêu cầu đa dạng từ người dùng, nâng cao khả năng zero-shot và few-shot learning.
Kỹ thuật tối ưu tham số (Parameter-Efficient Fine-Tuning - PEFT) với LoRA: LoRA là phương pháp thêm các ma trận phân tích bậc thấp để tinh chỉnh mô hình mà không cần huấn luyện lại toàn bộ, giúp giảm đáng kể chi phí tính toán và bộ nhớ.
Kỹ thuật nén mô hình Int8 quantization: Giảm độ chính xác của dữ liệu số để tiết kiệm bộ nhớ GPU khi nạp mô hình, tăng tốc quá trình huấn luyện và triển khai.
Tăng cường dữ liệu với Self-Instruct: Kỹ thuật tự tạo dữ liệu chỉ dẫn mới từ một tập dữ liệu nhỏ ban đầu, giúp mở rộng bộ dữ liệu huấn luyện hiệu quả mà không cần nhiều công sức thủ công.
Retrieval Augment Generation (RAG): Kỹ thuật cho phép mô hình truy xuất thông tin từ nguồn kiến thức bên ngoài để cải thiện độ chính xác và giảm hiện tượng tạo thông tin sai lệch (hallucination).

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu đa tác vụ gồm khoảng 200.000 mẫu chỉ dẫn và trả lời, bộ dữ liệu y tế, sức khỏe gồm khoảng 100.000 mẫu được thu thập từ các nguồn như ChatDoctor, Healthcaremagic, bài báo y khoa và được dịch sang tiếng Việt bằng OpenAI. Dữ liệu được định dạng JSON với hai trường chính: prompt (chỉ dẫn) và response (phản hồi).
Mô hình cơ sở (baseline models): Chọn hai mô hình LLM phù hợp với tiếng Việt là Bloomz-mt-7B và GPTJ-6B, dựa trên tiêu chí về kiến trúc autoregressive và lượng dữ liệu tiếng Việt trong quá trình huấn luyện.
Phương pháp phân tích: Áp dụng kỹ thuật huấn luyện theo chỉ dẫn kết hợp LoRA và Int8 quantization để tinh chỉnh mô hình trên bộ dữ liệu đã chuẩn bị. Sử dụng Fully Sharded Data Parallel (FSDP) để huấn luyện song song trên nhiều GPU, tăng tốc quá trình.
Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong khoảng 6 tháng, huấn luyện mô hình trong 2 epochs với batch size 128, learning rate 3e-4, tổng thời gian huấn luyện mỗi mô hình khoảng 5-6 giờ trên hệ thống 4 GPU RTX 4090.
Đánh giá kết quả: Sử dụng bộ dữ liệu đánh giá riêng biệt và phương pháp đánh giá tự động dựa trên GPT-4 để so sánh hiệu năng mô hình sau tinh chỉnh với mô hình gốc và ChatGPT.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của kỹ thuật LoRA và Int8 quantization: Việc áp dụng LoRA giúp giảm số lượng tham số cần huấn luyện từ hàng tỷ xuống còn khoảng 3.6 - 6.5 triệu tham số, tiết kiệm tài nguyên tính toán hàng nghìn lần. Int8 quantization giảm bộ nhớ GPU cần thiết khi nạp mô hình, cho phép huấn luyện trên các máy tính cá nhân có GPU phổ biến.
Chất lượng mô hình sau tinh chỉnh: Mô hình Bloomz-Chat và GPTJ-Chat được huấn luyện trên bộ dữ liệu đa tác vụ đạt thời gian huấn luyện khoảng 5 giờ, trong khi Bloomz-Doctor và GPTJ-Doctor trên bộ dữ liệu y tế mất khoảng 5.5 giờ. Kết quả đánh giá cho thấy mô hình tinh chỉnh có khả năng trả lời chính xác và tự nhiên hơn, với điểm đánh giá tăng khoảng 15-20% so với mô hình gốc.
So sánh với ChatGPT: Mô hình tinh chỉnh tiếng Việt đạt hiệu năng gần tương đương ChatGPT trong các tác vụ đa dạng và chuyên sâu về y tế, với một số trường hợp mô hình tự phát triển có phản hồi phù hợp hơn với ngữ cảnh tiếng Việt.
Ứng dụng Retrieval Augment Generation (RAG): Việc tích hợp RAG giúp mô hình truy xuất thông tin từ dữ liệu người dùng mà không cần huấn luyện lại, tăng tính linh hoạt và độ chính xác trong các câu trả lời, đặc biệt trong lĩnh vực y tế.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc áp dụng kỹ thuật huấn luyện theo chỉ dẫn kết hợp LoRA và Int8 quantization là giải pháp khả thi và hiệu quả để phát triển các mô hình ngôn ngữ lớn cho tiếng Việt trong điều kiện giới hạn tài nguyên. So với các nghiên cứu trước đây, đề tài đã xây dựng thành công hai bộ dữ liệu chỉ dẫn lớn với hơn 300.000 mẫu, góp phần giải quyết vấn đề thiếu hụt dữ liệu huấn luyện cho tiếng Việt.

Việc sử dụng Self-Instruct giúp mở rộng bộ dữ liệu một cách tự động, giảm thiểu công sức thủ công và tăng tính đa dạng của dữ liệu. Kết quả đánh giá dựa trên GPT-4 cung cấp một phương pháp đánh giá khách quan và hiện đại, phù hợp với xu hướng nghiên cứu hiện nay.

Ứng dụng RAG trong chatbot là bước tiến quan trọng, giúp mô hình thích ứng nhanh với các thay đổi thông tin và nâng cao trải nghiệm người dùng. Các biểu đồ so sánh điểm đánh giá giữa mô hình gốc, mô hình tinh chỉnh và ChatGPT có thể minh họa rõ ràng sự cải thiện về chất lượng phản hồi.

Tuy nhiên, nghiên cứu cũng nhận thấy một số hạn chế như hiện tượng quá khớp khi dữ liệu huấn luyện còn hạn chế, và một số câu trả lời chưa hoàn toàn chính xác trong các trường hợp phức tạp. Đây là hướng phát triển tiếp theo cần được cải thiện.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu huấn luyện: Tiếp tục thu thập và tăng cường dữ liệu chỉ dẫn cho các lĩnh vực chuyên sâu khác ngoài y tế, như giáo dục, pháp luật, nhằm nâng cao khả năng đa nhiệm của mô hình. Thời gian dự kiến 6-12 tháng, chủ thể thực hiện là các nhóm nghiên cứu và doanh nghiệp AI.
Tối ưu hóa mô hình và thuật toán: Nghiên cứu áp dụng các kỹ thuật PEFT mới hơn và các phương pháp nén mô hình tiên tiến để giảm chi phí tính toán và tăng tốc độ phản hồi. Thời gian 3-6 tháng, do nhóm kỹ thuật AI đảm nhiệm.
Phát triển ứng dụng chatbot đa nền tảng: Triển khai chatbot trên các nền tảng di động và mạng xã hội, tích hợp RAG để nâng cao trải nghiệm người dùng và khả năng truy xuất thông tin thực tế. Thời gian 6 tháng, phối hợp giữa nhóm phát triển phần mềm và nghiên cứu.
Xây dựng hệ thống đánh giá tự động và giám sát chất lượng: Áp dụng các công cụ đánh giá dựa trên AI như GPT-4 để liên tục kiểm tra và cải thiện chất lượng phản hồi của chatbot, giảm thiểu sai sót và thông tin sai lệch. Thời gian 3 tháng, do nhóm nghiên cứu và phát triển AI thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành trí tuệ nhân tạo, xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức sâu rộng về kỹ thuật huấn luyện mô hình ngôn ngữ lớn, phương pháp tăng cường dữ liệu và tối ưu tham số, phù hợp cho nghiên cứu và phát triển các dự án AI.
Doanh nghiệp phát triển sản phẩm AI và chatbot tiếng Việt: Các giải pháp tiết kiệm tài nguyên và bộ dữ liệu chỉ dẫn lớn giúp doanh nghiệp xây dựng chatbot hiệu quả, giảm chi phí triển khai và nâng cao trải nghiệm người dùng.
Chuyên gia y tế và tổ chức chăm sóc sức khỏe: Ứng dụng chatbot y tế hỗ trợ tư vấn, trả lời câu hỏi chuyên sâu giúp cải thiện dịch vụ chăm sóc bệnh nhân, giảm tải cho nhân viên y tế.
Nhà quản lý và hoạch định chính sách công nghệ thông tin: Tham khảo để xây dựng các chiến lược phát triển AI phù hợp với ngôn ngữ và văn hóa Việt Nam, thúc đẩy chuyển đổi số và ứng dụng AI trong các lĩnh vực xã hội.

Câu hỏi thường gặp

Mô hình ngôn ngữ lớn (LLM) là gì và tại sao lại quan trọng?
LLM là các mô hình AI được huấn luyện trên lượng lớn dữ liệu văn bản để hiểu và tạo ra ngôn ngữ tự nhiên. Chúng quan trọng vì khả năng thực hiện nhiều tác vụ NLP đa dạng như trả lời câu hỏi, dịch thuật, tạo nội dung, giúp tự động hóa và nâng cao hiệu quả công việc.
Tại sao cần huấn luyện theo chỉ dẫn (instruction fine-tuning)?
Huấn luyện theo chỉ dẫn giúp mô hình hiểu rõ hơn các yêu cầu cụ thể từ người dùng, cải thiện khả năng trả lời chính xác và tự nhiên trong nhiều tác vụ khác nhau, đặc biệt khi không có nhiều dữ liệu huấn luyện cho từng tác vụ riêng biệt.
LoRA hoạt động như thế nào và lợi ích của nó?
LoRA thêm các ma trận phân tích bậc thấp vào mô hình để tinh chỉnh mà không cần huấn luyện lại toàn bộ tham số, giúp giảm đáng kể chi phí tính toán và bộ nhớ, cho phép huấn luyện LLM trên phần cứng phổ biến như GPU cá nhân.
Self-Instruct giúp gì trong việc tạo dữ liệu huấn luyện?
Self-Instruct là kỹ thuật tự tạo dữ liệu chỉ dẫn mới từ một tập dữ liệu nhỏ ban đầu, giúp mở rộng bộ dữ liệu huấn luyện một cách tự động, giảm công sức thủ công và tăng tính đa dạng của dữ liệu.
Retrieval Augment Generation (RAG) có vai trò gì trong chatbot?
RAG cho phép mô hình truy xuất thông tin từ các nguồn kiến thức bên ngoài khi trả lời, giúp tăng độ chính xác, giảm sai lệch thông tin và nâng cao khả năng thích ứng với các thay đổi dữ liệu mà không cần huấn luyện lại mô hình.

Kết luận

Đề tài đã thành công trong việc xây dựng và tinh chỉnh các mô hình ngôn ngữ lớn tiếng Việt với kỹ thuật huấn luyện theo chỉ dẫn, LoRA và Int8 quantization, tiết kiệm tài nguyên tính toán đáng kể.
Hai bộ dữ liệu chỉ dẫn đa tác vụ và y tế, sức khỏe với hơn 300.000 mẫu được phát triển, góp phần giải quyết hạn chế về dữ liệu huấn luyện cho tiếng Việt.
Mô hình tinh chỉnh đạt hiệu năng cao, gần tương đương ChatGPT trong nhiều tác vụ, đặc biệt trong lĩnh vực y tế.
Ứng dụng kỹ thuật RAG giúp chatbot linh hoạt, chính xác hơn trong việc truy xuất và sử dụng thông tin thực tế.
Hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình, phát triển ứng dụng đa nền tảng và xây dựng hệ thống đánh giá tự động.

Để tiếp tục phát triển, các nhà nghiên cứu và doanh nghiệp nên áp dụng các giải pháp tối ưu tham số và tăng cường dữ liệu, đồng thời triển khai các ứng dụng thực tế nhằm nâng cao trải nghiệm người dùng. Hãy bắt đầu khám phá và ứng dụng các mô hình ngôn ngữ lớn tiếng Việt để tạo ra các sản phẩm AI hữu ích và hiệu quả!

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Xây Dựng Chatbot Tiếng Việt Sử Dụng Mô Hình Ngôn Ngữ Lớn

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MỞ ĐẦU

1.1. Đặt vấn đề

1.2. Mục tiêu và phạm vi nghiên cứu

1.3. Đóng góp của đề tài

2. CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Mô hình ngôn ngữ lớn (LLM)

2.2. Kiến trúc LLM

2.3. Ứng dụng LLM

2.4. Thách thức

2.5. LLM cho Tiếng Việt

2.6. Instruction Fine-tuning (Huấn luyện theo chỉ dẫn)

2.7. Self-Instruct

2.8. Parameter-Efficient Tuning với LoRA

3. CHƯƠNG 3: PHƯƠNG PHÁP

3.1. Giới thiệu về phương pháp

3.2. Mô hình gốc (baseline models)

3.3. Phương pháp huấn luyện

3.4. Fully Sharded Data Parallel (FSDP)

4. CHƯƠNG 4: THỰC NGHIỆM

4.1. Thiết lập môi trường

4.2. Thực hiện huấn luyện

4.2.1. Nạp mô hình và Tokenizer

4.2.2. Nạp dữ liệu

4.2.3. Tokenize dữ liệu

4.2.4. Cấu hình tham số LoRA

4.2.5. Khởi tạo bộ huấn luyện (trainer)

4.2.6. Chạy mô hình kết quả

4.3. Xây dựng ứng dụng chatbot

4.3.1. Áp dụng RAG vào chatbot

4.3.2. Mô hình RAG

4.3.3. Giao diện nhập liệu

5. CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ

5.1. Phương pháp đánh giá

5.2. Tiêu chí đánh giá

5.3. Tập dữ liệu đánh giá

5.4. Một số kết quả từ mô hình

5.5. Kết quả đánh giá

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Hướng phát triển

TÀI LIỆU THAM KHẢO

I. Giới thiệu và mục tiêu nghiên cứu

1.1. Đặt vấn đề

1.2. Mục tiêu và phạm vi

II. Các công trình nghiên cứu liên quan

2.1. Mô hình ngôn ngữ lớn

2.2. Huấn luyện theo chỉ dẫn

III. Phương pháp nghiên cứu

3.1. Thu thập và xử lý dữ liệu

3.2. Huấn luyện mô hình

IV. Thực nghiệm và đánh giá

4.1. Thiết lập môi trường

4.2. Kết quả thực nghiệm

V. Kết luận và hướng phát triển

5.1. Đóng góp của nghiên cứu

5.2. Hướng phát triển

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Đoàn Vũ Thuận

Người hướng dẫn: PGS. Nguyễn Lưu Thùy Ngân

Trường học: Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Xây dựng chatbot tiếng Việt với mô hình ngôn ngữ lớn

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: Thành phố Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận