Ứng Dụng Máy Học Trong Tạo Sinh Câu Trả Lời Cho Hệ Thống Hỏi - Đáp

Tìm hiểu ứng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi đáp. Luận văn thạc sĩ về Q&A System, chatbot và xử lý ngôn ngữ tự nhiên.

Trường đại học

Học Viện Công Nghệ Bưu Chính Viễn Thông

Chuyên ngành

Hệ Thống Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC HÌNH VẼ

DANH MỤC TỪ VIẾT TẮT

1. CHƯƠNG 1: TỔNG QUAN

1.1. Giải thích chương 1

1.2. Hệ thống trả lời tả đáng

1.3. Phân loại các mô hình trả lời tả đáng

1.4. Kiến trúc mạng nơ-ron nhân tạo

1.5. Hoạt động của mạng nơ-ron nhân tạo

1.6. Mạng nơ-ron RNN (Recurrent Neural Network) và ứng dụng

1.7. Mô hình trả lời tả đáng

1.8. Embedding và Keras Embedding Layer

2. CHƯƠNG 2: CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Giải thích chương 2

2.2. Tình hình nghiên cứu trong và ngoài nước

3. CHƯƠNG 3: ĐỀ XUẤT PHƯƠNG PHÁP XÂY DỰNG BÀI DỮ LIỆU VÀ MÔ HÌNH CHO BÀI TOÁN

3.1. Giải thích chương 3

3.2. Đề xuất phương pháp và thuật toán xử lý

4. CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM

4.1. Giải thích chương 4

4.2. Bộ dữ liệu của bài toán

4.3. Xây dựng mô hình

4.4. Đánh giá mô hình và áp dụng vào chatbot

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết quả nghiên cứu của đề tài

5.2. Hạn chế của đề tài

5.3. Hướng phát triển của đề tài

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Luận Văn Ứng Dụng Máy Học Tạo Sinh Câu Trả Lời 55

Luận văn thạc sĩ này tập trung vào ứng dụng máy học trong việc tạo sinh câu trả lời cho hệ thống hỏi đáp. Các hệ thống này ngày càng trở nên quan trọng trong nhiều lĩnh vực, từ hỗ trợ khách hàng đến giáo dục trực tuyến. Bài toán hệ thống hỏi đáp (Q&A) là một bài toán khó trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Ngôn ngữ tự nhiên phức tạp và đa nghĩa, do đó việc xác định chính xác ngữ nghĩa của câu hỏi và tìm ra câu trả lời phù hợp là một thách thức lớn. Ngoài ra, giữa câu hỏi và câu trả lời thường tồn tại các mối quan hệ ngầm, phụ thuộc vào ngữ cảnh, đòi hỏi các mô hình phải có khả năng hiểu và suy luận.

1.1. Tầm Quan Trọng của Hệ Thống Hỏi Đáp Tự Động

Các hệ thống hỏi đáp tự động (QAS) có thể phân tích câu hỏi và tự động đưa ra câu trả lời. Chúng được ứng dụng rộng rãi trong kinh doanh và thương mại điện tử. Theo tài liệu nghiên cứu, chatbot giúp cải thiện doanh thu bán hàng đáng kể và là thành phần không thể thiếu trên các trang web bán hàng hiện nay. Ví dụ, khi mua sắm trực tuyến, người dùng có thể đặt câu hỏi để hiểu rõ hơn về sản phẩm.

1.2. Framework Sequence to Sequence trong Q A

Sự ra đời của framework sequence-to-sequence đã mở ra một hướng tiếp cận mới cho bài toán tạo sinh câu trả lời. Thay vì chỉ trích xuất câu trả lời từ một kho dữ liệu sẵn có, các mô hình này có khả năng tự tạo ra các câu trả lời mới. Luận văn này nghiên cứu các mô hình máy học để xây dựng một hệ thống hỏi đáp tự động có khả năng tạo sinh câu trả lời bằng tiếng Việt cho người dùng.

II. Thách Thức Tạo Sinh Câu Trả Lời Tiếng Việt 59

Việc tạo sinh câu trả lời tự động bằng tiếng Việt đặt ra nhiều thách thức đáng kể. Tiếng Việt có cấu trúc ngữ pháp phức tạp và sự đa dạng trong cách diễn đạt. Các mô hình máy học cần được huấn luyện trên một lượng lớn dữ liệu tiếng Việt để có thể hiểu và tạo ra các câu trả lời tự nhiên, chính xác. Ngoài ra, việc xử lý các câu hỏi mơ hồ hoặc không rõ ràng cũng là một vấn đề cần giải quyết. Phân luồng câu hỏi (phân tích câu hỏi) là pha đầu tiên trong kiến trúc chung của một hệ thống hỏi đáp. Vì vậy việc phân tích câu hỏi rất quan trọng, nó ảnh hưởng trực tiếp đến hoạt động của toàn bộ hệ thống.

2.1. Xử Lý Ngữ Nghĩa và Ngữ Cảnh Tiếng Việt

Các mô hình NLP cần phải có khả năng hiểu được ngữ nghĩa của câu hỏi, cũng như ngữ cảnh mà câu hỏi được đặt ra. Việc này đòi hỏi các mô hình phải được trang bị kiến thức về tiếng Việt, cũng như khả năng suy luận và hiểu biết về thế giới thực. Theo nghiên cứu, giữa câu hỏi và câu trả lời còn tồn tại các quan hệ 'ngầm' hay phụ thuộc vào ngữ cảnh.

2.2. Thu Thập và Chuẩn Hóa Dữ Liệu Tiếng Việt

Để huấn luyện các mô hình máy học hiệu quả, cần có một lượng lớn dữ liệu tiếng Việt đã được gán nhãn và chuẩn hóa. Việc thu thập và chuẩn hóa dữ liệu này là một quá trình tốn kém và mất thời gian. Tài liệu tham khảo đề cập đến các bộ dữ liệu như SQuAD và CoQA, nhưng cần có các bộ dữ liệu tương tự cho tiếng Việt.

2.3. Đánh Giá Hiệu Suất Hệ Thống Q A Tiếng Việt

Việc đánh giá hiệu suất của một hệ thống Q&A tiếng Việt đòi hỏi các phương pháp đánh giá phù hợp với đặc thù của ngôn ngữ này. Các độ đo như BLEU, ROUGE, và METEOR có thể được sử dụng, nhưng cần được điều chỉnh để phù hợp với tiếng Việt. Cần đảm bảo độ chính xác (accuracy) và độ tin cậy (reliability).

III. Phương Pháp BERT Tạo Sinh Câu Trả Lời Hiệu Quả 58

Một trong những phương pháp hiệu quả nhất hiện nay trong việc tạo sinh câu trả lời là sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers). BERT là một mô hình ngôn ngữ tiền huấn luyện (Pre-trained Language Models - PLMs) có khả năng hiểu ngữ nghĩa của câu một cách sâu sắc. Mô hình này có thể được fine-tuning (Fine-tuning) để phù hợp với bài toán hệ thống hỏi đáp, giúp cải thiện đáng kể độ chính xác của câu trả lời. Việc fine-tuning BERT cho một tác vụ cụ thể là một bước quan trọng để đạt được hiệu suất tối ưu.

3.1. Kiến Trúc và Ưu Điểm của Mô Hình BERT

Mô hình BERT dựa trên kiến trúc Transformer, cho phép nó xử lý thông tin một cách song song và hiệu quả. BERT được huấn luyện trên một lượng lớn dữ liệu văn bản, giúp nó nắm bắt được các mối quan hệ phức tạp giữa các từ và cụm từ. Nó cho phép mô hình học các biểu diễn ngữ cảnh của các từ, giúp nó hiểu rõ hơn ý nghĩa của câu.

3.2. Fine tuning BERT cho Bài Toán Hệ Thống Hỏi Đáp

Việc fine-tuning BERT cho bài toán hệ thống hỏi đáp bao gồm việc huấn luyện mô hình trên một tập dữ liệu các câu hỏi và câu trả lời tương ứng. Trong quá trình fine-tuning, các tham số của mô hình được điều chỉnh để tối ưu hóa hiệu suất trên tập dữ liệu này. Điều này cho phép mô hình học cách tạo ra các câu trả lời phù hợp với các câu hỏi đầu vào.

IV. Phương Pháp RAG Tối Ưu Tạo Sinh Câu Trả Lời 57

Retrieval-Augmented Generation (RAG) là một phương pháp kết hợp giữa truy xuất thông tin (Information Retrieval) và tạo sinh câu trả lời. Trong phương pháp này, hệ thống trước tiên truy xuất các đoạn văn bản liên quan đến câu hỏi từ một cơ sở dữ liệu tri thức (Knowledge Base), sau đó sử dụng một mô hình tạo sinh câu trả lời để tạo ra câu trả lời dựa trên các đoạn văn bản này. RAG tận dụng kiến thức từ bên ngoài để tạo ra các câu trả lời chính xác và có thông tin đầy đủ.

4.1. Truy Xuất Thông Tin từ Cơ Sở Dữ Liệu Tri Thức

Bước đầu tiên trong phương pháp RAG là truy xuất các đoạn văn bản liên quan đến câu hỏi từ một cơ sở dữ liệu tri thức. Quá trình này có thể được thực hiện bằng cách sử dụng các kỹ thuật tìm kiếm thông tin (Information Retrieval) như tìm kiếm theo từ khóa, tìm kiếm theo ngữ nghĩa, hoặc tìm kiếm theo vectơ. Cần có khả năng truy vấn thông tin (information retrieval) nhanh chóng và chính xác.

4.2. Tạo Sinh Câu Trả Lời Dựa Trên Đoạn Văn Bản

Sau khi đã truy xuất được các đoạn văn bản liên quan, hệ thống sử dụng một mô hình tạo sinh câu trả lời để tạo ra câu trả lời dựa trên các đoạn văn bản này. Mô hình tạo sinh câu trả lời có thể là một mô hình Transformer, một mô hình RNN, hoặc bất kỳ mô hình NLP nào khác có khả năng tạo ra văn bản. Mô hình cần có khả năng biến đổi ngôn ngữ (text transformation) hiệu quả.

4.3. Ưu Điểm của RAG so với Các Phương Pháp Khác

Phương pháp RAG có một số ưu điểm so với các phương pháp tạo sinh câu trả lời khác. Thứ nhất, nó cho phép hệ thống tận dụng kiến thức từ bên ngoài để tạo ra các câu trả lời chính xác và có thông tin đầy đủ. Thứ hai, nó giúp giảm thiểu tình trạng hệ thống tạo ra các câu trả lời sai lệch hoặc vô nghĩa. Thứ ba, nó cho phép hệ thống dễ dàng cập nhật kiến thức mới.

V. Ứng Dụng Thực Tế Chatbot Tư Vấn Sức Khỏe 55

Một ứng dụng thực tế của ứng dụng máy học trong tạo sinh câu trả lời là xây dựng chatbot tư vấn sức khỏe sinh sản. Chatbot này có thể cung cấp thông tin và giải đáp các thắc mắc của người dùng về các vấn đề liên quan đến sức khỏe sinh sản. Chatbot có thể được tích hợp vào các trang web hoặc ứng dụng di động, giúp người dùng dễ dàng tiếp cận thông tin. Ứng dụng thực tế này có tiềm năng mang lại lợi ích lớn cho cộng đồng.

5.1. Xây Dựng Cơ Sở Dữ Liệu Kiến Thức Y Tế

Để chatbot có thể cung cấp thông tin chính xác và đáng tin cậy, cần xây dựng một cơ sở dữ liệu kiến thức y tế đầy đủ và cập nhật. Cơ sở dữ liệu này có thể bao gồm các bài viết về sức khỏe, các câu hỏi thường gặp, và các hướng dẫn chăm sóc sức khỏe. Kiến thức cần đảm bảo độ tin cậy (reliability) và chính xác (accuracy).

5.2. Phát Triển Mô Hình NLP cho Chatbot

Chatbot cần được trang bị một mô hình NLP mạnh mẽ để có thể hiểu được các câu hỏi của người dùng và tạo ra các câu trả lời phù hợp. Mô hình NLP này có thể sử dụng các kỹ thuật như nhận dạng thực thể có tên (Named Entity Recognition), phân loại văn bản (Text Classification), và tóm tắt văn bản (Text Summarization) để xử lý các câu hỏi. Mô hình cần có khả năng học sâu (deep learning).

VI. Tương Lai Máy Học và Hệ Thống Hỏi Đáp Thông Minh 56

Tương lai của ứng dụng máy học trong hệ thống hỏi đáp hứa hẹn nhiều tiềm năng phát triển. Các mô hình máy học ngày càng trở nên mạnh mẽ hơn, giúp hệ thống có thể hiểu và tạo ra các câu trả lời chính xác hơn. Sự kết hợp giữa máy học, cơ sở dữ liệu tri thức, và các kỹ thuật NLP tiên tiến sẽ tạo ra các hệ thống hỏi đáp thông minh, có khả năng đáp ứng nhu cầu thông tin của người dùng một cách hiệu quả. Cần liên tục cải thiện hiệu suất (performance improvement).

6.1. Tự Động Học và Cập Nhật Kiến Thức

Hệ thống hỏi đáp trong tương lai có thể tự động học và cập nhật kiến thức từ các nguồn thông tin khác nhau, giúp hệ thống luôn có thông tin mới nhất và chính xác nhất. Quá trình này có thể được thực hiện bằng cách sử dụng các kỹ thuật khai phá dữ liệu (data mining) và học máy không giám sát (unsupervised machine learning).

6.2. Cá Nhân Hóa Trải Nghiệm Người Dùng

Hệ thống hỏi đáp có thể cá nhân hóa trải nghiệm người dùng bằng cách ghi nhớ các câu hỏi và câu trả lời trước đó, cũng như sở thích và nhu cầu của người dùng. Điều này giúp hệ thống có thể cung cấp các câu trả lời phù hợp hơn với từng người dùng cụ thể. Cần đảm bảo khả năng mở rộng (scalability) của hệ thống.

6.3. Giải Thích Khả Năng Quyết Định của Hệ Thống

Các kỹ thuật Explainable AI (XAI) sẽ đóng vai trò quan trọng trong việc giúp người dùng hiểu tại sao hệ thống lại đưa ra một câu trả lời cụ thể. Điều này tăng cường sự tin tưởng của người dùng vào hệ thống. Việc phân tích lỗi (error analysis) cũng quan trọng để liên tục cải thiện hệ thống.

01/05/2025

Bạn đang xem trước tài liệu:

Ứng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi đáp

Tải đầy đủ

Nội dung chính

## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và xử lý ngôn ngữ tự nhiên (NLP), hệ thống hỏi đáp tự động (Question Answering System - QAS) ngày càng trở nên quan trọng trong nhiều lĩnh vực như y tế, giáo dục, thương mại điện tử và dịch vụ khách hàng. Theo ước tính, các chatbot và hệ thống hỏi đáp có thể giúp doanh nghiệp giảm tới 80% chi phí tư vấn trực tiếp, đồng thời nâng cao trải nghiệm người dùng với tỷ lệ hài lòng lên đến gần 99%. Tuy nhiên, việc xây dựng hệ thống hỏi đáp tiếng Việt với khả năng tạo sinh câu trả lời chính xác và tự nhiên vẫn còn nhiều thách thức do đặc thù ngôn ngữ và thiếu hụt dữ liệu chất lượng.

Luận văn tập trung nghiên cứu ứng dụng các mô hình máy học và học sâu, đặc biệt là mạng nơ-ron tái hồi (RNN), LSTM, và các kiến trúc mở rộng như BRNN, nhằm phát triển chatbot tư vấn sinh sản cho Bệnh viện Hồng Hưng, Tây Ninh. Phạm vi nghiên cứu bao gồm dữ liệu tư vấn sinh sản trong khoảng thời gian gần đây, với mục tiêu xây dựng mô hình có độ chính xác cao, khả năng tạo sinh câu trả lời tự nhiên, hỗ trợ tư vấn trực tuyến hiệu quả. Các chỉ số đánh giá bao gồm độ chính xác mô hình (đạt 100% trong huấn luyện), tỷ lệ hài lòng người dùng (gần 99%), và khả năng giảm tải nhân lực tư vấn.

Nghiên cứu có ý nghĩa thiết thực trong việc ứng dụng AI vào chăm sóc sức khỏe sinh sản, góp phần nâng cao chất lượng dịch vụ y tế, đồng thời mở rộng ứng dụng công nghệ AI trong lĩnh vực ngôn ngữ tiếng Việt.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng nơ-ron nhân tạo (ANN)**: Là mô hình học máy dựa trên cấu trúc mạng nơ-ron sinh học, gồm các lớp input, hidden và output, sử dụng hàm kích hoạt phi tuyến như sigmoid, ReLU để học các đặc trưng phức tạp từ dữ liệu.

- **Mạng nơ-ron tái hồi (RNN)**: Mạng có khả năng xử lý dữ liệu chuỗi, ghi nhớ thông tin ngữ cảnh qua các bước thời gian, phù hợp với xử lý ngôn ngữ tự nhiên. Tuy nhiên, RNN truyền thống gặp vấn đề biến mất gradient khi chuỗi dài.

- **LSTM (Long Short-Term Memory)**: Phiên bản cải tiến của RNN, sử dụng các cổng (input, forget, output) để kiểm soát luồng thông tin, giải quyết vấn đề biến mất gradient, giúp ghi nhớ thông tin dài hạn hiệu quả.

- **BRNN (Bidirectional RNN)**: Mạng RNN hai chiều, xử lý dữ liệu theo cả hai hướng thời gian, cải thiện khả năng hiểu ngữ cảnh toàn diện.

- **Embedding**: Kỹ thuật biểu diễn từ ngữ dưới dạng vector có chiều thấp, giữ được mối quan hệ ngữ nghĩa giữa các từ, giúp mô hình học sâu hiểu sâu sắc hơn về ngôn ngữ.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Bộ dữ liệu được xây dựng từ các câu hỏi và câu trả lời tư vấn sinh sản tại Bệnh viện Hồng Hưng, Tây Ninh, gồm 103 chủ đề, 232 câu hỏi người dùng và 103 câu trả lời tương ứng.

- **Tiền xử lý dữ liệu**: Loại bỏ dấu câu, ký tự đặc biệt, chuyển về chữ thường, sử dụng Tokenizer để phân tách và vector hóa từ ngữ, giới hạn từ vựng phổ biến nhất là 5000 từ, chuẩn hóa độ dài chuỗi bằng hàm pad_sequences.

- **Mô hình nghiên cứu**: Xây dựng mô hình học sâu dựa trên kiến trúc LSTM kết hợp Embedding layer và Flatten layer, sử dụng hàm mất mát sparse_categorical_crossentropy và thuật toán tối ưu Adam. Mô hình được huấn luyện với 300 epochs trên nền tảng Tensorflow và Keras.

- **Phân tích và đánh giá**: Đánh giá mô hình dựa trên độ chính xác (accuracy) trong huấn luyện và kiểm thử, đồng thời áp dụng mô hình vào chatbot tư vấn trực tuyến cho các vấn đề về bị dọa sảy thai, khám thai và trầm cảm sau sinh. Thu thập phản hồi người dùng và chuyên gia để đánh giá hiệu quả thực tế.

- **Timeline nghiên cứu**: Quá trình thu thập và xử lý dữ liệu diễn ra trong năm 2021, huấn luyện mô hình và thử nghiệm chatbot trong năm 2022 tại Bệnh viện Hồng Hưng, Tây Ninh.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình LSTM kết hợp Embedding đạt độ chính xác huấn luyện lên đến 100% và độ mất mát giảm xuống còn 1.8%, cho thấy khả năng học và dự đoán chính xác các câu hỏi tư vấn sinh sản.

- Chatbot ứng dụng mô hình này trả lời chính xác trên 95% các câu hỏi liên quan đến các chủ đề như dọa sảy thai, khám thai và trầm cảm sau sinh, với tỷ lệ hài lòng người dùng đạt gần 99%.

- So sánh với các mô hình truyền thống như RNN đơn thuần và các mô hình dựa trên quy tắc, mô hình học sâu cho kết quả vượt trội về độ chính xác và khả năng tạo sinh câu trả lời tự nhiên.

- Mô hình có khả năng xử lý các câu hỏi chưa có trong tập dữ liệu huấn luyện nhờ vào kiến trúc LSTM và kỹ thuật embedding, giúp chatbot linh hoạt hơn trong thực tế.

### Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình là việc áp dụng các kiến trúc mạng nơ-ron sâu tiên tiến như LSTM và BRNN, giúp ghi nhớ và xử lý ngữ cảnh dài hạn trong câu hỏi. Việc sử dụng embedding giúp mô hình hiểu được mối quan hệ ngữ nghĩa giữa các từ tiếng Việt, vốn có cấu trúc phức tạp và đa nghĩa.

So với các nghiên cứu trước đây trong nước và quốc tế, mô hình này có sự cải tiến rõ rệt về độ chính xác và khả năng tạo sinh câu trả lời tự nhiên, phù hợp với đặc thù ngôn ngữ tiếng Việt và lĩnh vực tư vấn sinh sản. Kết quả này cũng phù hợp với xu hướng phát triển chatbot dựa trên học sâu trong các lĩnh vực y tế và dịch vụ khách hàng.

Dữ liệu có thể được trình bày qua biểu đồ độ chính xác và độ mất mát theo epochs, cũng như bảng so sánh tỷ lệ trả lời chính xác giữa các mô hình khác nhau, giúp minh họa rõ ràng hiệu quả của mô hình đề xuất.

## Đề xuất và khuyến nghị

- **Mở rộng và làm giàu dữ liệu**: Thu thập thêm dữ liệu câu hỏi và câu trả lời từ nhiều nguồn khác nhau, đặc biệt là các trường hợp phức tạp và đa dạng hơn, nhằm nâng cao khả năng tổng quát của mô hình. Thời gian: 6-12 tháng; Chủ thể: nhóm nghiên cứu và Bệnh viện Hồng Hưng.

- **Cải tiến kỹ thuật xử lý ngôn ngữ**: Áp dụng các kỹ thuật tiền xử lý nâng cao như xử lý ngôn ngữ tự nhiên chuyên sâu, tăng cường embedding đa chiều và mô hình BERT tinh chỉnh cho tiếng Việt để cải thiện độ chính xác và tự nhiên của câu trả lời. Thời gian: 6 tháng; Chủ thể: nhóm nghiên cứu AI.

- **Phát triển giao diện chatbot thân thiện**: Thiết kế giao diện người dùng trực quan, hỗ trợ đa nền tảng (web, mobile), tích hợp phản hồi người dùng để liên tục cải thiện trải nghiệm. Thời gian: 3-6 tháng; Chủ thể: đội ngũ phát triển phần mềm.

- **Đào tạo và nâng cao nhận thức người dùng**: Tổ chức các buổi đào tạo, hướng dẫn sử dụng chatbot cho nhân viên y tế và bệnh nhân, nhằm tăng tỷ lệ sử dụng và hiệu quả tư vấn. Thời gian: liên tục; Chủ thể: Bệnh viện và các tổ chức y tế.

- **Theo dõi và đánh giá liên tục**: Thiết lập hệ thống giám sát hiệu suất chatbot, thu thập dữ liệu phản hồi và phân tích để điều chỉnh mô hình kịp thời, đảm bảo độ chính xác và phù hợp với nhu cầu thực tế. Thời gian: liên tục; Chủ thể: nhóm nghiên cứu và Bệnh viện.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo**: Nghiên cứu các mô hình học sâu ứng dụng trong xử lý ngôn ngữ tự nhiên và phát triển chatbot, áp dụng vào các lĩnh vực chuyên ngành.

- **Chuyên gia y tế và quản lý bệnh viện**: Áp dụng công nghệ AI để nâng cao chất lượng tư vấn, giảm tải công việc cho nhân viên y tế, cải thiện dịch vụ chăm sóc sức khỏe sinh sản.

- **Doanh nghiệp phát triển phần mềm và công nghệ AI**: Tham khảo phương pháp xây dựng và triển khai chatbot tiếng Việt, phát triển sản phẩm phù hợp với thị trường trong nước.

- **Cơ quan quản lý và hoạch định chính sách y tế**: Đánh giá tiềm năng ứng dụng AI trong chăm sóc sức khỏe cộng đồng, xây dựng các chính sách hỗ trợ phát triển công nghệ y tế số.

## Câu hỏi thường gặp

1. **Mô hình LSTM có ưu điểm gì so với RNN truyền thống?**  
LSTM giải quyết vấn đề biến mất gradient trong RNN, cho phép ghi nhớ thông tin dài hạn hiệu quả hơn, giúp mô hình hiểu ngữ cảnh phức tạp trong câu hỏi.

2. **Chatbot có thể trả lời các câu hỏi chưa có trong dữ liệu huấn luyện không?**  
Có, nhờ kiến trúc LSTM và kỹ thuật embedding, chatbot có khả năng tổng quát hóa và tạo sinh câu trả lời cho các câu hỏi mới dựa trên ngữ cảnh học được.

3. **Độ chính xác của mô hình được đánh giá như thế nào?**  
Mô hình đạt độ chính xác huấn luyện 100% và tỷ lệ trả lời chính xác trên 95% trong thử nghiệm thực tế, đồng thời nhận được phản hồi hài lòng gần 99% từ người dùng.

4. **Dữ liệu huấn luyện được thu thập từ đâu?**  
Dữ liệu được xây dựng từ các câu hỏi và câu trả lời tư vấn sinh sản tại Bệnh viện Hồng Hưng, Tây Ninh, bao gồm 103 chủ đề và hơn 200 câu hỏi thực tế.

5. **Làm thế nào để cải thiện mô hình trong tương lai?**  
Cần mở rộng dữ liệu, áp dụng kỹ thuật xử lý ngôn ngữ tiên tiến hơn như BERT, cải tiến giao diện người dùng và liên tục thu thập phản hồi để điều chỉnh mô hình.

## Kết luận

- Đã xây dựng thành công mô hình học sâu LSTM kết hợp embedding cho chatbot tư vấn sinh sản tiếng Việt với độ chính xác huấn luyện đạt 100%.  
- Mô hình cho phép tạo sinh câu trả lời tự nhiên, chính xác, phù hợp với đặc thù ngôn ngữ và lĩnh vực tư vấn sinh sản.  
- Chatbot ứng dụng mô hình này đạt tỷ lệ hài lòng người dùng gần 99%, hỗ trợ hiệu quả công tác tư vấn tại Bệnh viện Hồng Hưng.  
- Cần tiếp tục mở rộng dữ liệu và cải tiến kỹ thuật để nâng cao khả năng tổng quát và độ chính xác của mô hình.  
- Khuyến nghị triển khai rộng rãi chatbot trong các cơ sở y tế, đồng thời phát triển các ứng dụng AI tương tự trong lĩnh vực chăm sóc sức khỏe.

Triển khai mô hình chatbot trên nền tảng thực tế, thu thập dữ liệu phản hồi, và nghiên cứu áp dụng các mô hình ngôn ngữ tiên tiến hơn để nâng cao hiệu quả tư vấn.

**Kêu gọi:** Các nhà nghiên cứu, chuyên gia y tế và doanh nghiệp công nghệ hãy hợp tác phát triển và ứng dụng các giải pháp AI nhằm cải thiện chất lượng dịch vụ chăm sóc sức khỏe cộng đồng.

Trích đoạn nội dung tài liệu

HàC VIÆN CÔNG NGHÆ B¯U CHÍNH VIÄN THÔNG ----------------------------------- NguyÅn Minh Trí ĀNG DĀNG MÁY HàC TRONG T¾O SINH CÂU TRÀ LâI CHO HÆ THÞNG HâI - ĐÁP LU¾N VN TH¾C SĨ KỸ THU¾T (Theo đßnh h°áng āng dāng) TP. Hà CHÍ MINH - 2022 TP. Hà CHÍ MINH HàC VIÆN CÔNG NGHÆ B¯U CHÍNH VIÄN THÔNG -------------------------------------- NguyÅn Minh Trí ĀNG DĀNG MÁY HàC TRONG T¾O SINH CÂU TRÀ LâI CHO HÆ THÞNG HâI - ĐÁP Chuyên ngành: HÇ thßng thông tin Mã sß: 8.04 LU¾N VN TH¾C SĨ KỸ THU¾T (Theo đßnh h°áng āng dāng) NG¯âI H¯àNG DÀN KHOA HàC: PGS.TS NGUYÄN TUÂN ĐNG TP. Hà CHÍ MINH - 2022 i LâI CAM ĐOAN Tôi cam đoan rằng luÁn văn: <Āng dụng máy học trong tạo sinh câu trả lời cho hệ thống hỏi đáp= là công trình nghiên cāu cÿa chính tôi.

Nhāng kÃt quÁ nghiên cāu đ°ÿc trình bày trong luÁn văn là công trình cÿa riêng cÿa tôi d°ãi să h°ãng d¿n cÿa PGS.TS NguyÅn TuÃn Đng. Tôi cam đoan các sá liáu, kÃt quÁ nêu trong luÁn văn là trung thăc và ch°a tăng đ°ÿc công bá trong công trình nghiên cāu nào khác. Không có bÃt cā thông tin nào cÿa ng°åi khác đ°ÿc sÿ dāng trong luÁn văn này mà không đ°ÿc trích d¿n theo đúng quy định. Tây Ninh, ngày 25 tháng 01 năm 2022 Hác viên thăc hiÇn lu¿n vn NguyÅn Minh Trí ii LâI CÀM ¡N Trong suát quá trình học tÁp và nghiên cāu thăc hián luÁn văn, ngoài nß lăc cÿa bÁn thân, tôi đã nhÁn đ°ÿc să h°ãng d¿n nhiát tình quý báu cÿa quý ThÅy Cô, cùng vãi să đáng viên và ÿng há cÿa gia đình, b¿n bè và đồng nghiáp.

Vãi lòng kính trọng và biÃt ¢n sâu sÃc, tôi xin gÿi låi cÁm ¢n chân thành tãi: Tôi xin chân thành cÁm ¢n Ban Giám hiáu, quý thÅy cô Khoa Đào t¿o sau đ¿i học cÿa Học vián Công nghá B°u chính Vißn thông đã t¿o điÅu kián thuÁn lÿi giúp tôi hoàn thành luÁn văn này. Tôi xin chân thành cÁm ¢n ThÅy PGS.TS NguyÅn TuÃn Đng, đã hÃt lòng giúp đỡ, h°ãng d¿n, đáng viên, t¿o điÅu kián cho tôi trong suát quá trình thăc hián và hoàn thành luÁn văn. Tôi xin chân thành cÁm ¢n gia đình, b¿n bè, đồng nghiáp trong c¢ quan đã đáng viên, hß trÿ tôi trong lúc khó khăn đÇ tôi có thÇ học tÁp và hoàn thành luÁn văn. MÁc dù tôi đã rÃt cá gÃng và hÃt sāc nß lăc nh°ng không thÇ tránh khßi nhāng thiÃu sót do thåi gian và kinh nghiám nghiên cāu khoa học còn h¿n chÃ, Tôi rÃt mong nhÁn đ°ÿc să góp ý cÿa quý ThÅy Cô cùng b¿n bè đồng nghiáp đÇ có thÇ hoàn thiát h¢n vÅ kiÃn thāc cÿa bÁn thân.

Xin chân thành cÁm ¢n! Tây Ninh, ngày 25 tháng 01 năm 2022 Hác viên thăc hiÇn lu¿n vn NguyÅn Minh Trí iii DANH MĀC HÌNH VẼ Hình 1. M¿ng n¢-ron nhân t¿o. KiÃn trúc cÿa m¿ng RNN. Āng dāng RNN trong phát sinh mô tÁ cho Ánh.

CÃu trúc chung cÿa RNN mát chiÅu thông th°ång đ°ÿc hiÇn thị (a) vãi mát đ°ång trß và (b) mç ra theo thåi gian trong hai b°ãc thåi gian. CÃu trúc chung cÿa m¿ng n¢-ron lÁp l¿i hai chiÅu (BRNN) đ°ÿc hiÇn thị theo thåi gian trong ba b°ãc thåi gian. Mô-đun lÁp l¿i trong m¿ng RNN tiêu chuẩn chāa mát lãp duy nhÃt. Mô-đun lÁp l¿i trong mát LSTM chāa bán lãp t°¢ng tác.

Cổng trong mô hình LSTM. LSTM và GRU. Quy trình bài toán. KÃt quÁ xÿ lý dā liáu.

HuÃn luyán cho mô hình. BiÇu đồ miêu tÁ đá chính xác cÿa mô hình. Chatbot t° vÃn vÅ vÃn đÅ đáng thai. Chatbot t° vÃn vÅ vÃn đÅ khám thai.

Chatbot t° vÃn vÅ bánh trÅm cÁm sau sinh .36 iv DANH MĀC TĂ VI¾T TÀT AI Artificial Intelligence ANN Artificial Neural Network RNN Recurrent Neural Network BRNN Bidirectional recurrent neural networks LSTM Long Short Term Memory GPUs Gated recurrent units v MĀC LĀC LäI CAM ĐOAN. ii DANH MĀC HÌNH VÀ. iii DANH MĀC TĂ VIÂT TÂT. Lý do chọn đÅ tài.

Tổng quan vÅ vÃn đÅ nghiên cāu. Đái t°ÿng và ph¿m vi nghiên cāu. Ph°¢ng pháp nghiên cāu. PHÄN NàI DUNG.1 Giãi thiáu ch°¢ng 1.2 Há tháng trÁ låi tă đáng .3 Phân lo¿i các mô hình trÁ låi tă đáng .4 KiÃn trúc m¿ng n¢-ron nhân t¿o .5 Ho¿t đáng cÿa m¿ng n¢-ron nhân t¿o [13] .6 M¿ng n¢-ron RNN (Recurrent Neural Network) và āng dāng .7 Mô hình trÁ låi tă đáng .8 Embedding và Keras Embedding Layer [18], [19].

CÁC CÔNG TRÌNH LIÊN QUAN .1 Giãi thiáu ch°¢ng 2.2 Tình hình nghiên cāu trong và ngoài n°ãc. ĐÄ XUÂT PH¯¡NG PHÁP XÂY DĂNG Bà DĀ LIàU VÀ MÔ HÌNH CHO BÀI TOÁN .1 Giãi thiáu ch°¢ng 3.2 ĐÅ xuÃt ph°¢ng pháp và thuÁt toán xÿ lý. CÀI ĐÀT VÀ THĂC NGHIàM .1 Giãi thiáu ch°¢ng 4.2 Bá dā liáu cÿa bài toán .3 Xây dăng mô hình .4 Đánh giá mô hình và áp dāng vào chatbot. KÂT LUÀN VÀ H¯âNG PHÁT TRIÆN.1 KÃt quÁ nghiên cāu cÿa đÅ tài .2 H¿n chÃ cÿa đÅ tài .3 H°ãng phát triÇn cÿa đÅ tài .39 TÀI LIàU THAM KHÀO.

Lý do chán đÁ tài Các há tháng trÁ låi câu hßi (Question-Answering System - QAS) là nhāng há tháng có thÇ tă phân tích câu hßi và tă đ°a ra câu trÁ låi. Các há tháng QAS đ°ÿc āng dāng trong kinh doanh và th°¢ng m¿i đián tÿ có thÇ hß trÿ khách hàng mua sÁn phẩm và giúp doanh nghiáp tăng doanh thu. Ví dā, khi mua sÃm trên m¿ng, ng°åi dùng có thÇ truy cÁp vào trang web cÿa các doanh nghiáp và đÁt câu hßi đÇ hiÇu rõ h¢n vÅ sÁn phẩm. Yêu cÅu cÿa ng°åi mua hàng sÁ đ°ÿc các chatbot trên các website phân tích và đ°a ra nhāng câu trÁ låi vãi thông tin có ích cho ng°åi mua hàng.

Các chatbot là nhāng há tháng trÁ låi tă đáng, có thÇ giúp cÁi thián doanh thu bán hàng đáng kÇ và là thành phÅn không thÇ thiÃu trong các website bán hàng ngày nay. Tổng quan vÁ vÃn đÁ nghiên cāu Trong nhāng năm gÅn đây, khái niám vÅ trÿ lý Áo, hay chatbot, hay há tháng trÁ låi tă đáng đ°ÿc các công ty lãn nh° Microsoft (Cortana), Google (Google Assistant), Facebook (M), Apple (Siri), Samsung (Viv) đã giãi thiáu và đ°a vào khai thác. GÅn đây nhÃt Microsoft đã t¿o ra Microsoft Chat Framework cho phép các nhà phát triÇn t¿o ra các chatbot trên nÅn tÁng Web và Skype, hay Facebook cũng phát hành F8 SDK cho phép nhà phát triÇn tích hÿp vào Messenger. Há tháng trÁ låi tă đáng có thÇ trÿ giúp cho con ng°åi trong rÃt nhiÅu lĩnh văc: y tÃ, giáo dāc, th°¢ng m¿i đián tÿ & Vãi să ra đåi cÿa framework sequence-to- sequence gÅn đây, nhiÅu há tháng huÃn luyán đã sÿ dāng các m¿ng n¢ron đÇ sinh ra các câu trÁ låi mãi khi đ°a vào m¿ng mát câu hßi hoÁc mát thông điáp.

Đây là mát h°ãng tiÃp cÁn mãi rÃt có triÇn vọng trong viác xây dăng mát há tháng trÁ låi tă đáng. Trong đÅ tài này, luÁn văn sÁ nghiên cāu các mô hình máy học đÇ xây dăng mô hình há tháng trÁ låi tă đáng có chāc năng t¿o sinh câu trÁ låi bằng tiÃng Viát cho ng°åi dùng. Māc đích nghiên cāu ĐÅ tài luÁn văn nhằm māc tiêu nghiên cāu sÿ dāng các mô hình máy học và học sâu đÇ xây dăng mát há tháng trÁ låi tă đáng (chatbot) có chāc năng t¿o sinh câu trÁ låi tiÃng Viát trong mát lĩnh văc āng dāng cā thÇ. Phân luồng câu hßi (phân tích câu hßi) là pha đÅu tiên trong kiÃn trúc chung cÿa mát há tháng hßi đáp, có nhiám vā tìm ra các thông tin cÅn thiÃt làm đÅu vào cho quá trình xÿ lý cÿa các pha sau (trích chọn tài liáu, trích xuÃt câu trÁ låi, &).

Vì vÁy viác phân tích câu hßi rÃt quan trọng, nó Ánh h°çng trăc tiÃp đÃn ho¿t đáng cÿa toàn bá há tháng. NÃu phân tích câu hßi không tát thì sÁ không thÇ tìm ra đ°ÿc câu trÁ låi. Chính vì thÃ đÅ tài <Há tháng tă đáng phân luồng câu hßi và giÁi đáp yêu cÅu trăc tuyÃn= đ°ÿc tác giÁ chọn và nghiên cāu. Đßi t°ÿng và ph¿m vi nghiên cāu Đái t°ÿng nghiên cāu: Mô hình há tháng trÁ låi tă đáng (chatbot), các mô hình máy học và học sâu.

Ph¿m vi nghiên cāu: nghiên cāu há tháng t° vÃn hßi đáp các vÃn đÅ vÅ sāc kho¿ sinh sÁn cho ng°åi bánh t¿i bánh vián Hồng H°ng tỉnh Tây Ninh 5. Ph°¢ng pháp nghiên cāu Nghiên cāu các mô hình há tháng trÁ låi tă đáng (chatbot) dăa trên máy học và học sâu. Mô hình có khÁ năng ghi nhã và trÁ låi chính xác câu hßi đã đ°ÿc nhìn thÃy trong thåi gian đào t¿o (gọi là Generator) Mô hình có khÁ năng trÁ låi các câu hßi mãi t¿i thåi điÇm kiÇm tra và chọn mát câu trà låi tă tÁp hÿp các câu trÁ låi trong quá trình đào t¿o (gọi là Retriever- Generator) Mô hình có khÁ năng trÁ låi các câu hßi không có trong tÁp dā liáu đào t¿o (gọi là Retriever-Reader) 3 II. PHÄN NÞI DUNG CH¯¡NG 1.1 Giái thiÇu ch°¢ng 1 Bài toán xây dăng há tháng hßi đáp là mát bài toán khó thuác lĩnh văc xÿ lý ngôn ngā tă nhiên.

Chúng ta biÃt rằng ngôn ngā tă nhiên có nhiÅu nghĩa, viác xác định đ°ÿc ngā nghĩa cÿa câu hßi cũng nh° đÇ phát hián ra câu trÁ låi là mát thách thāc khá lãn. Không nhāng vÁy, giāa câu hßi và câu trÁ låi còn tồn t¿i các quan há <ngÅm= hay phā thuác vào ngā cÁnh. Bài toán đÁt ra nhiÅu thách thāc đÇ phát hián ra đ°ÿc câu trÁ låi phù hÿp nhÃt vãi câu hßi. Ch°¢ng này sÁ giãi thiáu tổng quan vÅ há tháng trÁ låi tă đáng, tìm hiÇu các nghiên cāu ç trong và ngoài n°ãc đÇ thÃy đ°ÿc tình hình nghiên cāu và các ph°¢ng pháp tiÃp cÁn cÿa các nghiên cāu tr°ãc đây.2 HÇ thßng trÁ lãi tă đßng Há tháng trÁ låi tă đáng (QA) [1] là mát ph¿m vi cÿa ngành khoa học máy tính trong các lĩnh văc truy xuÃt thông tin và xÿ lí ngôn ngā tă nhiên (Natural Language Processing - NLP) 3 mát há tháng xÿ lí và trÁ låi các câu hßi do con ng°åi đÁt ra d°ãi d¿ng ngôn ngā tă nhiên.

QA th°ång đ°ÿc vÁn hành bçi mát ch°¢ng trình máy tính, xây dăng các câu trÁ låi bằng cách truy vÃn đÃn mát c¢ sç dā liáu có cÃu trúc chāa các thông tin hoÁc kiÃn thāc liên quan, th°ång là dăa trên kiÃn thāc. ELIZA 3 mát trong nhāng há tháng trÁ låi tă đáng đÅu tiên đ°ÿc phát triÇn vào năm 1964 có să thành công v°ÿt trái khi đ°ÿc công nhÁn là mát āng dāng hāu ích trong lĩnh văc y tÃ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tóm tắt luận văn "Ứng Dụng Máy Học trong Tạo Sinh Câu Trả Lời cho Hệ Thống Hỏi Đáp: Luận Văn Thạc Sĩ" tập trung vào việc ứng dụng các mô hình máy học, đặc biệt là các mô hình sinh ngôn ngữ, để tự động tạo ra câu trả lời cho các hệ thống hỏi đáp. Luận văn này khám phá các kỹ thuật và kiến trúc khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP), nhấn mạnh vào khả năng tạo ra các câu trả lời mạch lạc, phù hợp và tự nhiên hơn so với các phương pháp trả lời dựa trên mẫu hoặc truy xuất thông tin đơn thuần. Đọc giả sẽ hiểu rõ hơn về các thuật toán máy học được sử dụng, các phương pháp đánh giá hiệu suất và tiềm năng ứng dụng thực tế của các hệ thống hỏi đáp tự động trong nhiều lĩnh vực khác nhau.

Nếu bạn quan tâm đến các ứng dụng cụ thể của hệ thống trả lời tự động trong một bối cảnh khác, bạn có thể xem thêm Luận văn hệ thống trả lời tự động tiếng việt cho công tác tuyển sinh đại học tại đây: Luận văn hệ thống trả lời tự động tiếng việt cho công tác tuyển sinh đại học. Tài liệu này sẽ cho bạn thấy một ví dụ thực tế về cách hệ thống trả lời tự động có thể được triển khai để giải quyết các vấn đề cụ thể trong lĩnh vực tuyển sinh đại học, mang đến một góc nhìn ứng dụng hữu ích.

#Ứng dụng máy học cho hệ thống hỏi đáp

#Tạo sinh câu trả lời bằng máy học

#Hệ thống hỏi đáp dựa trên máy học

#Luận văn thạc sĩ máy học hỏi đáp

#Machine learning question answering system

#Automatic answer generation

Chủ đề

hệ thống hỏi đáp tự động

Tạo sinh văn bản bằng mô hình máy học

Đánh giá hiệu quả hệ thống hỏi đáp