## Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và xử lý ngôn ngữ tự nhiên (NLP), hệ thống hỏi đáp tự động (Question Answering System - QAS) ngày càng trở nên quan trọng trong nhiều lĩnh vực như y tế, giáo dục, thương mại điện tử và dịch vụ khách hàng. Theo ước tính, các chatbot và hệ thống hỏi đáp có thể giúp doanh nghiệp giảm tới 80% chi phí tư vấn trực tiếp, đồng thời nâng cao trải nghiệm người dùng với tỷ lệ hài lòng lên đến gần 99%. Tuy nhiên, việc xây dựng hệ thống hỏi đáp tiếng Việt với khả năng tạo sinh câu trả lời chính xác và tự nhiên vẫn còn nhiều thách thức do đặc thù ngôn ngữ và thiếu hụt dữ liệu chất lượng.

Luận văn tập trung nghiên cứu ứng dụng các mô hình máy học và học sâu, đặc biệt là mạng nơ-ron tái hồi (RNN), LSTM, và các kiến trúc mở rộng như BRNN, nhằm phát triển chatbot tư vấn sinh sản cho Bệnh viện Hồng Hưng, Tây Ninh. Phạm vi nghiên cứu bao gồm dữ liệu tư vấn sinh sản trong khoảng thời gian gần đây, với mục tiêu xây dựng mô hình có độ chính xác cao, khả năng tạo sinh câu trả lời tự nhiên, hỗ trợ tư vấn trực tuyến hiệu quả. Các chỉ số đánh giá bao gồm độ chính xác mô hình (đạt 100% trong huấn luyện), tỷ lệ hài lòng người dùng (gần 99%), và khả năng giảm tải nhân lực tư vấn.

Nghiên cứu có ý nghĩa thiết thực trong việc ứng dụng AI vào chăm sóc sức khỏe sinh sản, góp phần nâng cao chất lượng dịch vụ y tế, đồng thời mở rộng ứng dụng công nghệ AI trong lĩnh vực ngôn ngữ tiếng Việt.

## Cơ sở lý thuyết và phương pháp nghiên cứu

### Khung lý thuyết áp dụng

- **Mạng nơ-ron nhân tạo (ANN)**: Là mô hình học máy dựa trên cấu trúc mạng nơ-ron sinh học, gồm các lớp input, hidden và output, sử dụng hàm kích hoạt phi tuyến như sigmoid, ReLU để học các đặc trưng phức tạp từ dữ liệu.

- **Mạng nơ-ron tái hồi (RNN)**: Mạng có khả năng xử lý dữ liệu chuỗi, ghi nhớ thông tin ngữ cảnh qua các bước thời gian, phù hợp với xử lý ngôn ngữ tự nhiên. Tuy nhiên, RNN truyền thống gặp vấn đề biến mất gradient khi chuỗi dài.

- **LSTM (Long Short-Term Memory)**: Phiên bản cải tiến của RNN, sử dụng các cổng (input, forget, output) để kiểm soát luồng thông tin, giải quyết vấn đề biến mất gradient, giúp ghi nhớ thông tin dài hạn hiệu quả.

- **BRNN (Bidirectional RNN)**: Mạng RNN hai chiều, xử lý dữ liệu theo cả hai hướng thời gian, cải thiện khả năng hiểu ngữ cảnh toàn diện.

- **Embedding**: Kỹ thuật biểu diễn từ ngữ dưới dạng vector có chiều thấp, giữ được mối quan hệ ngữ nghĩa giữa các từ, giúp mô hình học sâu hiểu sâu sắc hơn về ngôn ngữ.

### Phương pháp nghiên cứu

- **Nguồn dữ liệu**: Bộ dữ liệu được xây dựng từ các câu hỏi và câu trả lời tư vấn sinh sản tại Bệnh viện Hồng Hưng, Tây Ninh, gồm 103 chủ đề, 232 câu hỏi người dùng và 103 câu trả lời tương ứng.

- **Tiền xử lý dữ liệu**: Loại bỏ dấu câu, ký tự đặc biệt, chuyển về chữ thường, sử dụng Tokenizer để phân tách và vector hóa từ ngữ, giới hạn từ vựng phổ biến nhất là 5000 từ, chuẩn hóa độ dài chuỗi bằng hàm pad_sequences.

- **Mô hình nghiên cứu**: Xây dựng mô hình học sâu dựa trên kiến trúc LSTM kết hợp Embedding layer và Flatten layer, sử dụng hàm mất mát sparse_categorical_crossentropy và thuật toán tối ưu Adam. Mô hình được huấn luyện với 300 epochs trên nền tảng Tensorflow và Keras.

- **Phân tích và đánh giá**: Đánh giá mô hình dựa trên độ chính xác (accuracy) trong huấn luyện và kiểm thử, đồng thời áp dụng mô hình vào chatbot tư vấn trực tuyến cho các vấn đề về bị dọa sảy thai, khám thai và trầm cảm sau sinh. Thu thập phản hồi người dùng và chuyên gia để đánh giá hiệu quả thực tế.

- **Timeline nghiên cứu**: Quá trình thu thập và xử lý dữ liệu diễn ra trong năm 2021, huấn luyện mô hình và thử nghiệm chatbot trong năm 2022 tại Bệnh viện Hồng Hưng, Tây Ninh.

## Kết quả nghiên cứu và thảo luận

### Những phát hiện chính

- Mô hình LSTM kết hợp Embedding đạt độ chính xác huấn luyện lên đến 100% và độ mất mát giảm xuống còn 1.8%, cho thấy khả năng học và dự đoán chính xác các câu hỏi tư vấn sinh sản.

- Chatbot ứng dụng mô hình này trả lời chính xác trên 95% các câu hỏi liên quan đến các chủ đề như dọa sảy thai, khám thai và trầm cảm sau sinh, với tỷ lệ hài lòng người dùng đạt gần 99%.

- So sánh với các mô hình truyền thống như RNN đơn thuần và các mô hình dựa trên quy tắc, mô hình học sâu cho kết quả vượt trội về độ chính xác và khả năng tạo sinh câu trả lời tự nhiên.

- Mô hình có khả năng xử lý các câu hỏi chưa có trong tập dữ liệu huấn luyện nhờ vào kiến trúc LSTM và kỹ thuật embedding, giúp chatbot linh hoạt hơn trong thực tế.

### Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình là việc áp dụng các kiến trúc mạng nơ-ron sâu tiên tiến như LSTM và BRNN, giúp ghi nhớ và xử lý ngữ cảnh dài hạn trong câu hỏi. Việc sử dụng embedding giúp mô hình hiểu được mối quan hệ ngữ nghĩa giữa các từ tiếng Việt, vốn có cấu trúc phức tạp và đa nghĩa.

So với các nghiên cứu trước đây trong nước và quốc tế, mô hình này có sự cải tiến rõ rệt về độ chính xác và khả năng tạo sinh câu trả lời tự nhiên, phù hợp với đặc thù ngôn ngữ tiếng Việt và lĩnh vực tư vấn sinh sản. Kết quả này cũng phù hợp với xu hướng phát triển chatbot dựa trên học sâu trong các lĩnh vực y tế và dịch vụ khách hàng.

Dữ liệu có thể được trình bày qua biểu đồ độ chính xác và độ mất mát theo epochs, cũng như bảng so sánh tỷ lệ trả lời chính xác giữa các mô hình khác nhau, giúp minh họa rõ ràng hiệu quả của mô hình đề xuất.

## Đề xuất và khuyến nghị

- **Mở rộng và làm giàu dữ liệu**: Thu thập thêm dữ liệu câu hỏi và câu trả lời từ nhiều nguồn khác nhau, đặc biệt là các trường hợp phức tạp và đa dạng hơn, nhằm nâng cao khả năng tổng quát của mô hình. Thời gian: 6-12 tháng; Chủ thể: nhóm nghiên cứu và Bệnh viện Hồng Hưng.

- **Cải tiến kỹ thuật xử lý ngôn ngữ**: Áp dụng các kỹ thuật tiền xử lý nâng cao như xử lý ngôn ngữ tự nhiên chuyên sâu, tăng cường embedding đa chiều và mô hình BERT tinh chỉnh cho tiếng Việt để cải thiện độ chính xác và tự nhiên của câu trả lời. Thời gian: 6 tháng; Chủ thể: nhóm nghiên cứu AI.

- **Phát triển giao diện chatbot thân thiện**: Thiết kế giao diện người dùng trực quan, hỗ trợ đa nền tảng (web, mobile), tích hợp phản hồi người dùng để liên tục cải thiện trải nghiệm. Thời gian: 3-6 tháng; Chủ thể: đội ngũ phát triển phần mềm.

- **Đào tạo và nâng cao nhận thức người dùng**: Tổ chức các buổi đào tạo, hướng dẫn sử dụng chatbot cho nhân viên y tế và bệnh nhân, nhằm tăng tỷ lệ sử dụng và hiệu quả tư vấn. Thời gian: liên tục; Chủ thể: Bệnh viện và các tổ chức y tế.

- **Theo dõi và đánh giá liên tục**: Thiết lập hệ thống giám sát hiệu suất chatbot, thu thập dữ liệu phản hồi và phân tích để điều chỉnh mô hình kịp thời, đảm bảo độ chính xác và phù hợp với nhu cầu thực tế. Thời gian: liên tục; Chủ thể: nhóm nghiên cứu và Bệnh viện.

## Đối tượng nên tham khảo luận văn

- **Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, trí tuệ nhân tạo**: Nghiên cứu các mô hình học sâu ứng dụng trong xử lý ngôn ngữ tự nhiên và phát triển chatbot, áp dụng vào các lĩnh vực chuyên ngành.

- **Chuyên gia y tế và quản lý bệnh viện**: Áp dụng công nghệ AI để nâng cao chất lượng tư vấn, giảm tải công việc cho nhân viên y tế, cải thiện dịch vụ chăm sóc sức khỏe sinh sản.

- **Doanh nghiệp phát triển phần mềm và công nghệ AI**: Tham khảo phương pháp xây dựng và triển khai chatbot tiếng Việt, phát triển sản phẩm phù hợp với thị trường trong nước.

- **Cơ quan quản lý và hoạch định chính sách y tế**: Đánh giá tiềm năng ứng dụng AI trong chăm sóc sức khỏe cộng đồng, xây dựng các chính sách hỗ trợ phát triển công nghệ y tế số.

## Câu hỏi thường gặp

1. **Mô hình LSTM có ưu điểm gì so với RNN truyền thống?**  
LSTM giải quyết vấn đề biến mất gradient trong RNN, cho phép ghi nhớ thông tin dài hạn hiệu quả hơn, giúp mô hình hiểu ngữ cảnh phức tạp trong câu hỏi.

2. **Chatbot có thể trả lời các câu hỏi chưa có trong dữ liệu huấn luyện không?**  
Có, nhờ kiến trúc LSTM và kỹ thuật embedding, chatbot có khả năng tổng quát hóa và tạo sinh câu trả lời cho các câu hỏi mới dựa trên ngữ cảnh học được.

3. **Độ chính xác của mô hình được đánh giá như thế nào?**  
Mô hình đạt độ chính xác huấn luyện 100% và tỷ lệ trả lời chính xác trên 95% trong thử nghiệm thực tế, đồng thời nhận được phản hồi hài lòng gần 99% từ người dùng.

4. **Dữ liệu huấn luyện được thu thập từ đâu?**  
Dữ liệu được xây dựng từ các câu hỏi và câu trả lời tư vấn sinh sản tại Bệnh viện Hồng Hưng, Tây Ninh, bao gồm 103 chủ đề và hơn 200 câu hỏi thực tế.

5. **Làm thế nào để cải thiện mô hình trong tương lai?**  
Cần mở rộng dữ liệu, áp dụng kỹ thuật xử lý ngôn ngữ tiên tiến hơn như BERT, cải tiến giao diện người dùng và liên tục thu thập phản hồi để điều chỉnh mô hình.

## Kết luận

- Đã xây dựng thành công mô hình học sâu LSTM kết hợp embedding cho chatbot tư vấn sinh sản tiếng Việt với độ chính xác huấn luyện đạt 100%.  
- Mô hình cho phép tạo sinh câu trả lời tự nhiên, chính xác, phù hợp với đặc thù ngôn ngữ và lĩnh vực tư vấn sinh sản.  
- Chatbot ứng dụng mô hình này đạt tỷ lệ hài lòng người dùng gần 99%, hỗ trợ hiệu quả công tác tư vấn tại Bệnh viện Hồng Hưng.  
- Cần tiếp tục mở rộng dữ liệu và cải tiến kỹ thuật để nâng cao khả năng tổng quát và độ chính xác của mô hình.  
- Khuyến nghị triển khai rộng rãi chatbot trong các cơ sở y tế, đồng thời phát triển các ứng dụng AI tương tự trong lĩnh vực chăm sóc sức khỏe.

**Hành động tiếp theo:** Triển khai mô hình chatbot trên nền tảng thực tế, thu thập dữ liệu phản hồi, và nghiên cứu áp dụng các mô hình ngôn ngữ tiên tiến hơn để nâng cao hiệu quả tư vấn.

**Kêu gọi:** Các nhà nghiên cứu, chuyên gia y tế và doanh nghiệp công nghệ hãy hợp tác phát triển và ứng dụng các giải pháp AI nhằm cải thiện chất lượng dịch vụ chăm sóc sức khỏe cộng đồng.