I. Giới thiệu đề tài
Bài toán xây dựng hệ thống hội thoại hay hệ thống trả lời tự động là một thách thức lớn trong lĩnh vực xử lý ngôn ngữ tự nhiên. Tính phức tạp của ngôn ngữ tự nhiên, với sự đa nghĩa và ngữ cảnh phong phú, tạo ra nhiều khó khăn trong việc phát hiện câu trả lời phù hợp nhất. Hệ thống đối thoại, còn gọi là chatbot, được ứng dụng rộng rãi trong nhiều lĩnh vực như hỗ trợ kỹ thuật và giáo dục. Các nền tảng như Xenioo, Aivo, và Microsoft Bot Framework cho phép phát triển các chatbot trên nền tảng web và mạng xã hội. Tại Việt Nam, Ki-Ki, trợ lý ảo đầu tiên do Zalo phát triển, đã cho thấy tiềm năng của ngành AI trong việc tương tác với người dùng qua giọng nói tiếng Việt. Việc phát triển các trợ lý ảo có khả năng hiểu và tương tác tự nhiên với con người là một mục tiêu quan trọng.
II. Mục tiêu của đề tài
Mục tiêu của luận văn là nghiên cứu và phát triển một mô hình hội thoại cho tiếng Việt dựa trên phương pháp Sequence-to-sequence (seq2seq) và Attention. Mô hình này sẽ sử dụng các mạng học sâu để tạo ra các câu trả lời từ các câu hỏi đầu vào. Việc áp dụng attention mechanism giúp mô hình chú ý đến các thành phần quan trọng trong câu, từ đó cải thiện chất lượng đầu ra. Dữ liệu huấn luyện sẽ được lấy từ kho dữ liệu mở OpenSubtitles 2018, nhằm tạo ra một mô hình hội thoại đơn giản nhưng hiệu quả cho tiếng Việt. Mục tiêu cuối cùng là phát triển một hệ thống có thể áp dụng vào các bài toán thực tế như hỗ trợ y tế và tư vấn mua sắm.
III. Ý nghĩa khoa học của đề tài
Nghiên cứu về hệ thống hội thoại cho tiếng Việt có ý nghĩa quan trọng trong việc phát triển công nghệ xử lý ngôn ngữ tự nhiên tại Việt Nam. Mặc dù đã có một số nghiên cứu trước đây, nhưng vẫn còn nhiều hạn chế như thời gian huấn luyện lâu và khả năng trả lời chưa cao. Việc kết hợp seq2seq và attention trong nghiên cứu này không chỉ giúp cải thiện hiệu suất của mô hình mà còn mở ra hướng đi mới cho các nghiên cứu tiếp theo. Hệ thống hội thoại hiệu quả có thể được áp dụng trong nhiều lĩnh vực như giáo dục, thương mại điện tử và dịch vụ khách hàng, từ đó nâng cao trải nghiệm người dùng và hiệu quả công việc.
IV. Phạm vi của đề tài
Luận văn này tập trung vào việc nghiên cứu hội thoại tiếng Việt thông qua các phương pháp học sâu, đặc biệt là mô hình seq2seq kết hợp với attention mechanism. Dữ liệu huấn luyện sẽ được thu thập từ OpenSubtitles 2018, với đầu vào là các câu hỏi hoặc câu tường thuật bằng tiếng Việt. Đầu ra sẽ là các câu trả lời tương ứng. Phạm vi nghiên cứu sẽ giới hạn trong việc phát triển mô hình hội thoại cho tiếng Việt, nhằm đảm bảo tính khả thi và hiệu quả trong việc áp dụng vào thực tế.
V. Những công trình nghiên cứu liên quan
Nghiên cứu về hệ thống trả lời tự động đã được thực hiện từ lâu, với nhiều công trình nổi bật trên thế giới. Một số nghiên cứu gần đây đã áp dụng mô hình Transformer và BERT để phát triển hệ thống hội thoại cho các ngôn ngữ khác nhau. Tuy nhiên, nghiên cứu cho tiếng Việt vẫn còn hạn chế. Các công trình như của Nhữ Bảo Vũ đã chỉ ra những khó khăn trong việc huấn luyện mô hình và khả năng trả lời câu hỏi. Việc áp dụng seq2seq và attention trong nghiên cứu này sẽ giúp khắc phục những hạn chế đó và mở ra hướng đi mới cho các nghiên cứu tiếp theo.