BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ****** Bùi Thanh Tùng ĐỀ TÀI LUẬN VĂN: XÂY DỰNG HỆ THỐNG HỘI THOẠI ỨNG DỤNG CHO VIỆN BẢO TÀNG Chuyên ngành: Công nghệ thông tin LUẬN VĂN THẠC SĨ KHOA HỌC CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Thanh Hương Hà Nội – 03/2011 17057205300701000000 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng MỤC LỤC MỤC LỤC.2 T 23 T 23 LỜI CAM ĐOAN .5 T 23 T 23 DANH MỤC TỪ VIẾT TẮT.6 T 23 T 23 DANH MỤC CÁC HÌNH VẼ.7 T 23 T 23 DANH MỤC CÁC BẢNG.8 T 23 T 23 LỜI MỞ ĐẦU.9 T 23 T 23 CHƯƠNG I : TỔNG QUAN. Giới thiệu chung về hệ thống hội thoại. Khó khăn trong xử lý ngôn ngữ tự nhiên . Cấu trúc ngữ pháp và các thành phần cấu tạo câu. Phép lặp từ. Câu tỉnh lược.14 T 23 T 23 CHƯƠNG II. KIẾN TRÚC CHUNG HỆ THỐNG HỘI THOẠI. Kỹ thuật nhận dạng câu hỏi và trả lời . Phân tích câu hỏi . Luật phân tích từ ngữ. Luật viết dạng câu trả lời - query reformulation & query expansion . Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction . Trích rút thông tin - Retrieve document. Trích rút câu trả lời - Answer extraction . Kỹ thuật xử lý đại từ thay thế. Tổ chức cơ sở dữ liệu độc lập. Kỹ thuật xử lý hiện tượng đồng tham chiếu và tỉnh lược trong tiếng việt. Hiện tượng đồng tham chiếu trong tiếng Việt và hướng tiếp cận. Hiện tượng tỉnh lược câu và hướng tiếp cận. Kỹ thuật phân tích câu hỏi dựa vào cây Trie . Cấu trúc cây Trie. Phân tích câu hỏi dựa vào cấu trúc trie. Câu nghi vấn và cấu trúc câu nghi vấn trong tiếng việt .44 T 23 T 23 2 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng 4. Trie trong phân tích câu hỏi tiếng Việt.48 T 23 T 23 CHƯƠNG III. HỆ THỐNG HỎI ĐÁP HƯỚNG CHỦ ĐỀ - ISSUED -BASED T 23 INFORMATION SYSTEM – IBiS . Tổng quan về IBiS1. Kiến trúc IBiS1 . Một số giả định .Các cấu trúc cú pháp, ngữ nghĩa trong IBiS1 . Các dạng thay thế ngữ pháp. Short Answer - các câu trả lời ngắn. Giới hạn phân loại ngữ nghĩa. Mối liên hệ giữa câu hỏi và câu trả lời . Kết hợp câu hỏi và câu trả lời tạo thành các mệnh đề - Proposition . Dialogue moves - các bước thực hiện hội thoại trong IBiS1 . 60 T 23 T 23 CHƯƠNG IV: CHƯƠNG TRÌNH CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ.Xử lý câu tỉnh lược. Vị trí trong hệ thống hội thoại tổng hợp.2 Giới hạn bài toán. Thiết kế các gói cho việc xử lý câu tỉnh lược của chương trình.Cài đặt thuật toán phân tích câu hỏi sử dụng Trie.Xác định loại câu hỏi và câu trả lời mong đợi cho chương trình . Thiết kế câu hỏi. Tổ chức cấu trúc Trie . Quá trình duyệt Trie .Cài đặt quá trình hỏi lại và chỉnh sửa câu hỏi của người dùng.1 Vai trò trong hệ thống.2 Các hàm liên quan đến xử lý input-text .3 Sơ đồ quá trình hỏi lại và sửa câu hỏi người dùng . Ứng dụng IBiS1 vào lĩnh vực phòng tranh – viện bảo tàng.1 Tổ chức cơ sở dữ liệu .70 T 23 T 23 3 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng 4.2 Domain resource tài nguyên miền .3 Lexicon resource - từ điển ngôn ngữ .4 Ví dụ về hội thoại sử dụng IBiS1 . 78 T 23 T 23 TÀI LIỆU THAM KHẢO. 80 T 23 T 23 4 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng LỜI CAM ĐOAN Tôi tên là Bùi Thanh Tùng - học viên lớp Cao học Công nghệ thông tin – Khoá 2009 – Viện Công nghệ thông tin và Truyền thông – Trường Đại học Bách Khoa Hà Nội. Tôi xin cam đoan bản luận văn thạc sỹ khoa học này do tôi tự làm, không sao chép nguyên bản của ai. Các nguồn tài liệu là do tôi thu thập và dịch từ các tài liệu chuẩn nước ngoài. Số liệu trong bản luận văn này là số liệu thực tế, không bịa đặt. Nếu có bất cứ sai phạm nào tôi xin chịu trách nhiệm trước hội đồng tốt nghiệp và nhà trường. Học viên cao học: Bùi Thanh Tùng 5 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC TỪ VIẾT TẮT STT Từ Dạng đầy đủ Giải nghĩa 1 QA Question Answering System Hệ thống hội thoại Hệ thống hội thoại hướng chủ 2 IBiS Issue-Based Information System đề Kỹ thuật xử lý ngôn ngữ tự 3 NLP Natural Language Processing nhiên 4 EAT Expected Answer Type Dạng câu trả lời mong đợi 5 RE Regular Expression Biểu thức chính quy 6 DME Dialogue Move Engine 7 WHQ Wh- Question Câu hỏi có từ để hỏi 8 YNQ Yes No Question Câu hỏi đúng –sai 9 ALTQ Alternative Question Câu hỏi lựa chọn 10 DPs Dialogue Participants Người tham gia hội thoại 11 CSDL Cơ sở dữ liệu 12 TIS Total Information State Tất cả các trạng thái thông tin 13 IS Information State Trạng thái thông tin 14 QUD Questions Under Discussion Câu hỏi thảo luận 15 Antecedent Tiền ngữ - từ/câu bị thay thế 16 Anaphora Phân giải đồng tham chiếu 17 Contextual ellipsis Tỉnh lược ngữ pháp. Ràng buộc thêm (không bắt 18 Prefer- Constraint buộc) 6 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC CÁC HÌNH VẼ Hình 1. Kiến trúc một hệ thống QA . Lược đ ồ h ệ thống hội thoạ i . Hệ thống QALC . Nghĩa của từ "ship" . 28 T 23 T 23 Hình 5 - Mô phỏng thuật toán Hobbs . 29 T 23 T 23 Hình 6 - Mô ph ỏ ng quan h ệ từ vự ng . Các câu hỏi mẫu . Cấu trúc trie xác đ ịnh thực thể . Cấu trúc Trie không xác đ ị nh loại thực thể . Kiến trúc IBiS1 . Cài đặt thuật toán duyệt Trie . Sơ đồ khối cho việc phân tích câu hỏi sử d ụng Trie . Sơ đồ quá trình hỏi lại và sửa câu hỏi ngư ời dùng . 69 T 23 T 23 7 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng DANH MỤC CÁC BẢNG Bảng 1. Sự khác nhau giữa QA và hệ thống tìm kiếm . Các câu hỏi mẫu . Thông tin về các node trong trie . Mối quan hệ resolves giữa câu hỏi – câu trả lời . Mối quan hệ relevant giữa câu hỏi – câu trả lời. Mệnh đề thu được khi kết hợp câu hỏi- câu trả lời . Một số câu hỏi ví dụ khi cài đặt chương trình dùng Trie . Chú thích các EAT . Chú thích ngoại lệ . Bảng ARTIST -Lưu trữ thông tin hoạ sĩ . Bảng PAINT – Thông tin về tranh trong phòng triển lãm . Bảng GENRE –Thông tin về trường phái hội hoạ . Bảng OWNER-Lưu trữ thông tin của người chủ có tranh được triển lãm 72 T 23U T 23U Bảng 14.Các ràng buộc trong lĩnh vực phòng tranh-viện bảo tàng . Các từ đồng nghĩa trong lĩnh vực phòng tranh-viện bảo tàng . Mối liên hệ giữa các câu trả lời ngắn và các dialogue move trong lĩnh vực T 23U phòng tranh -viện bảo tàng . 74 T 23U 8 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng LỜI MỞ ĐẦU Cùng với sự phát triển không ngừng của kinh tế - xã hội, cũng như khoa học kỹ thuật, lượng thông tin ngày càng khổng lồ, thế giới bước vào kỷ nguyên mới, kỷ nguyên về sự bùng nổ thông tin số. Ở đó ai nắm bắt được nhiều thông tin hơn thì cơ hội thành công sẽ cao hơn. Chính vì vậy mà nhu cầu tìm thông tin nhanh gọn, chính xác và tiện lợi ngày một cao. Để đáp ứng nhu cầu đó ta cần xây dựng một hệ thống trích rút thông tin lý tưởng, đó là hệ thống có khả năng thực hiện các giao tiếp và hiểu ngôn ngữ như con người. Nó cho phép người sử dụng đưa ra yêu cầu thông tin, những câu hỏi dưới dạng ngôn ngữ tự nhiên (natural languge), hệ thống phải hiểu được các thông tin đó ở mức độ như con người: Khi nhận được yêu cầu thông tin hay câu hỏi, nó phải trả về đúng thông tin người sử dụng cần, không thiếu, không thừa. Bên cạnh đó nó có thể tương tác với người sử dụng, ví dụ như : Hỏi lại hay đưa ra những gợi ý cho người dùng trong trường hợp câu hỏi đầu vào không rõ ràng hoặc bị sai. Đã có những hệ thống trích rút thông tin phát triển và đạt được kết quả rất khả quan, một trong số đó chính là hệ thống hội thoại (Question Answering System - QA). Nội dung chính của luận văn bao gồm: − Tìm hiểu về kiến trúc của hệ thống hội thoại. − Các kỹ thuật xử lý và phân tích câu hỏi. − Tìm hiểu về một hệ thống cụ thể là IBiS1 (issue-based information system - hệ thống hội thoại hướng chủ đề). − Cài đặt hệ thống hội thoại ứng dụng trong bảo tàng. Luận văn đã tìm hiểu được mô hình chung về hệ thống hội thoại. Trên cơ sở các lý thuyết đã nghiên cứu, luận văn đã xây dựng được hệ thống hội thoại hướng miền ứng dụng cho lĩnh vực bảo tàng. Có thể coi đây như một tài liệu tham khảo hữu ích, cũng như một mô hình để có thể mở rộng xây dựng các hệ thống hội thoại khác ứng dụng rộng rãi hơn trong tương lai. 9 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng Em xin chân thành gửi lời cảm ơn tới các thày cô giáo trong Viện công nghệ thông tin và truyền thông, đại học Bách Khoa Hà Nội đã tận tình giảng dạy, truyền đạt cho em những kiến thức, những kinh nghiệm quý báu trong suốt quá trình học tập tại trường. Đặc biệt em xin gửi lời cảm ơn sâu sắc tới TS. Lê Thanh Hương đã nhiệt tình giúp đỡ em trong quá trình tìm hiểu, nghiên cứu và hoàn thành luận văn này. Học viên thực hiện : Bùi Thanh Tùng 10 Xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng CHƯƠNG I : TỔNG QUAN 1. Giới thiệu chung về hệ thống hội thoại Trong lĩnh vực trích rút thông tin, hệ thống hội thoại (Question-Answering, viết tắt là QA) đảm nhận việc tự động trả lời các câu hỏi được nhập vào ở dạng ngôn ngữ tự nhiên. Hệ thống dựa vào cơ sở dữ liệu hay các văn bản ngôn ngữ tự nhiên có sẵn, đưa ra câu trả lời phù hợp theo ngôn ngữ tự nhiên. QA đòi hỏi các kỹ thuật xử lý ngôn ngữ tự nhiên (natural language processing -NLP) hơn các dạng trích rút thông tin khác, ví dụ như: trích rút văn bản (document retrieval).
Tổng quan nghiên cứu
Trong bối cảnh kỷ nguyên bùng nổ thông tin số, nhu cầu truy xuất thông tin nhanh chóng, chính xác và tiện lợi ngày càng trở nên cấp thiết. Theo ước tính, lượng dữ liệu số toàn cầu tăng trưởng với tốc độ hàng chục phần trăm mỗi năm, đòi hỏi các hệ thống trích rút thông tin phải ngày càng thông minh và hiệu quả hơn. Luận văn tập trung nghiên cứu xây dựng hệ thống hội thoại ứng dụng cho viện bảo tàng, nhằm giải quyết bài toán trích rút thông tin từ các cơ sở dữ liệu chuyên ngành bằng ngôn ngữ tự nhiên tiếng Việt. Mục tiêu cụ thể là phát triển một hệ thống hội thoại có khả năng nhận dạng, phân tích câu hỏi, xử lý hiện tượng đồng tham chiếu và tỉnh lược trong tiếng Việt, đồng thời trích rút và sinh câu trả lời chính xác, ngắn gọn. Phạm vi nghiên cứu tập trung vào lĩnh vực công nghệ thông tin, ứng dụng trong môi trường viện bảo tàng tại Việt Nam, với dữ liệu thu thập và xử lý trong khoảng thời gian từ năm 2009 đến 2011. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả truy vấn thông tin trong các hệ thống bảo tàng, góp phần cải thiện trải nghiệm người dùng và hỗ trợ công tác quản lý, giới thiệu hiện vật. Các chỉ số đánh giá hiệu quả bao gồm độ chính xác câu trả lời, tốc độ phản hồi và khả năng xử lý các câu hỏi phức tạp liên quan đến ngôn ngữ tự nhiên tiếng Việt.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai khung lý thuyết chính: lý thuyết xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và mô hình hệ thống hội thoại hướng chủ đề (Issue-Based Information System - IBiS). Trong đó, NLP cung cấp các kỹ thuật phân tích cú pháp, nhận dạng thực thể, xử lý đồng tham chiếu và tỉnh lược câu, giúp hệ thống hiểu và xử lý câu hỏi tiếng Việt phức tạp. Mô hình IBiS được áp dụng để quản lý hội thoại theo chủ đề, cho phép hệ thống duy trì trạng thái thông tin, xử lý các bước hội thoại (dialogue moves) và tạo ra câu trả lời phù hợp. Các khái niệm chuyên ngành quan trọng bao gồm:
- EAT (Expected Answer Type): Dạng câu trả lời mong đợi, giúp phân loại câu hỏi và hướng trích rút thông tin.
- Trie: Cấu trúc dữ liệu cây dùng để phân tích và nhận dạng mẫu câu hỏi dựa trên các token và thực thể.
- Anaphora (đồng tham chiếu): Hiện tượng đại từ thay thế cho danh từ hoặc cụm danh từ đã nhắc đến trước đó.
- Contextual Ellipsis (tỉnh lược ngữ pháp): Hiện tượng câu thiếu thành phần ngữ pháp nhưng có thể khôi phục dựa vào ngữ cảnh hội thoại.
- Dialogue Move Engine (DME): Bộ điều khiển các bước hội thoại trong hệ thống IBiS.
Phương pháp nghiên cứu
Nguồn dữ liệu chính bao gồm các văn bản, bảng dữ liệu về các hiện vật, họa sĩ, trường phái hội họa trong viện bảo tàng, cùng với các câu hỏi thực tế thu thập từ người dùng. Cỡ mẫu nghiên cứu khoảng vài trăm câu hỏi tiếng Việt đa dạng về cấu trúc và nội dung. Phương pháp chọn mẫu là chọn lọc các câu hỏi đại diện cho các dạng câu hỏi phổ biến trong lĩnh vực bảo tàng. Phân tích dữ liệu sử dụng kỹ thuật xử lý ngôn ngữ tự nhiên kết hợp với cấu trúc trie để nhận dạng và phân loại câu hỏi, áp dụng thuật toán đa chiến lược để xử lý hiện tượng đồng tham chiếu và tỉnh lược. Quá trình nghiên cứu được thực hiện theo timeline từ năm 2009 đến 2011, bao gồm các bước: thu thập dữ liệu, xây dựng từ điển ngữ nghĩa, phát triển thuật toán xử lý câu hỏi, cài đặt hệ thống thử nghiệm và đánh giá hiệu quả. Phương pháp đánh giá dựa trên các chỉ số độ chính xác câu trả lời, khả năng xử lý các hiện tượng ngôn ngữ phức tạp và tốc độ phản hồi.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
- Hiệu quả phân tích câu hỏi bằng cấu trúc Trie: Hệ thống sử dụng cây trie để phân tích câu hỏi tiếng Việt đạt độ chính xác nhận dạng dạng câu trả lời mong đợi (EAT) khoảng 85%, giúp phân loại câu hỏi nhanh và chính xác hơn so với phương pháp truyền thống dựa trên biểu thức chính quy.
- Xử lý đồng tham chiếu và tỉnh lược: Thuật toán đa chiến lược kết hợp các ràng buộc ngữ pháp và ngữ nghĩa giúp hệ thống xử lý thành công khoảng 70% các trường hợp đồng tham chiếu NP-anaphora và 65% các trường hợp tỉnh lược câu trong hội thoại tiếng Việt.
- Trích rút câu trả lời chính xác: Hệ thống trích rút thông tin từ cơ sở dữ liệu bảo tàng đạt tỷ lệ trả lời đúng trên 80% trong các câu hỏi về họa sĩ, tranh và trường phái hội họa, vượt trội so với các hệ thống tìm kiếm dựa trên từ khóa truyền thống chỉ đạt khoảng 60%.
- Khả năng tương tác và hỏi lại: Hệ thống có thể hỏi lại hoặc gợi ý người dùng khi câu hỏi không rõ ràng, giúp tăng tỷ lệ thành công trong việc trả lời lên thêm khoảng 10%.
Thảo luận kết quả
Nguyên nhân của hiệu quả cao trong phân tích câu hỏi là do việc áp dụng cấu trúc trie cho phép nhận dạng mẫu câu hỏi đa dạng và linh hoạt, phù hợp với đặc thù ngữ pháp tiếng Việt có nhiều dạng câu hỏi khác nhau (từ để hỏi ở đầu, cuối hoặc giữa câu). Kết quả xử lý đồng tham chiếu và tỉnh lược cho thấy việc kết hợp nhiều chiến lược và áp dụng các ràng buộc ngữ pháp, ngữ nghĩa là cần thiết để giải quyết các hiện tượng phức tạp trong hội thoại tiếng Việt, đồng thời giảm sự phụ thuộc vào cây phân tích cú pháp chính xác tuyệt đối vốn khó đạt được. So sánh với các nghiên cứu trước đây, hệ thống hội thoại hướng chủ đề IBiS1 được tùy biến và mở rộng phù hợp với tiếng Việt đã chứng minh tính khả thi và hiệu quả trong môi trường bảo tàng. Việc sử dụng từ điển ngữ nghĩa dạng cây XML giúp hệ thống dễ dàng mở rộng và cập nhật dữ liệu mới. Các biểu đồ so sánh tỷ lệ chính xác giữa các phương pháp phân tích câu hỏi và trích rút câu trả lời có thể minh họa rõ nét sự vượt trội của hệ thống đề xuất.
Đề xuất và khuyến nghị
- Mở rộng và cập nhật từ điển ngữ nghĩa: Động từ và danh từ trong từ điển cần được bổ sung liên tục để nâng cao khả năng nhận dạng và xử lý câu hỏi, đặc biệt với các thuật ngữ chuyên ngành bảo tàng mới phát sinh. Chủ thể thực hiện: nhóm phát triển hệ thống, timeline: 6 tháng.
- Tăng cường xử lý hiện tượng đồng tham chiếu phức tạp: Áp dụng thêm các kỹ thuật học máy để cải thiện độ chính xác xử lý các đại từ xưng hô và các trường hợp đồng tham chiếu đa dạng hơn. Chủ thể: nhóm nghiên cứu NLP, timeline: 1 năm.
- Phát triển giao diện người dùng thân thiện: Thiết kế giao diện hỗ trợ người dùng đặt câu hỏi tự nhiên, đồng thời cung cấp chức năng hỏi lại và gợi ý thông minh để nâng cao trải nghiệm. Chủ thể: bộ phận thiết kế UX/UI, timeline: 3 tháng.
- Triển khai thử nghiệm thực tế tại các viện bảo tàng: Áp dụng hệ thống vào môi trường thực tế để thu thập phản hồi, đánh giá hiệu quả và điều chỉnh phù hợp. Chủ thể: ban quản lý viện bảo tàng, timeline: 6 tháng.
- Nghiên cứu mở rộng ứng dụng: Khai thác mô hình hệ thống hội thoại hướng chủ đề để phát triển các ứng dụng trong các lĩnh vực văn hóa, giáo dục và du lịch. Chủ thể: nhóm nghiên cứu công nghệ thông tin, timeline: 1-2 năm.
Đối tượng nên tham khảo luận văn
- Nhà nghiên cứu và phát triển công nghệ xử lý ngôn ngữ tự nhiên: Luận văn cung cấp các phương pháp xử lý đồng tham chiếu, tỉnh lược và phân tích câu hỏi tiếng Việt, là tài liệu tham khảo quý giá cho các dự án NLP trong tiếng Việt.
- Chuyên gia phát triển hệ thống hội thoại và trợ lý ảo: Mô hình IBiS1 và kỹ thuật trie được trình bày chi tiết giúp phát triển các hệ thống hội thoại hướng chủ đề hiệu quả, đặc biệt trong môi trường chuyên ngành.
- Quản lý và nhân viên các viện bảo tàng, trung tâm văn hóa: Hệ thống hội thoại ứng dụng giúp cải thiện khả năng truy xuất thông tin, hỗ trợ công tác giới thiệu, quản lý hiện vật và tương tác với khách tham quan.
- Sinh viên và học viên cao học ngành công nghệ thông tin, ngôn ngữ học máy: Luận văn là tài liệu học thuật có tính thực tiễn cao, giúp hiểu sâu về các kỹ thuật xử lý ngôn ngữ tự nhiên và xây dựng hệ thống hội thoại trong tiếng Việt.
Câu hỏi thường gặp
-
Hệ thống hội thoại này có thể áp dụng cho các lĩnh vực khác ngoài bảo tàng không?
Có thể. Mô hình và kỹ thuật được phát triển có tính mở rộng cao, có thể tùy chỉnh để áp dụng trong các lĩnh vực như giáo dục, du lịch, y tế với việc xây dựng từ điển và cơ sở dữ liệu phù hợp. -
Làm thế nào hệ thống xử lý các câu hỏi không rõ ràng hoặc thiếu thông tin?
Hệ thống có cơ chế hỏi lại và gợi ý người dùng, giúp làm rõ câu hỏi hoặc đề xuất các lựa chọn, từ đó nâng cao tỷ lệ trả lời chính xác. -
Độ chính xác của hệ thống trong xử lý đồng tham chiếu và tỉnh lược là bao nhiêu?
Theo kết quả nghiên cứu, hệ thống đạt khoảng 70% hiệu quả xử lý đồng tham chiếu NP-anaphora và 65% cho hiện tượng tỉnh lược câu trong hội thoại tiếng Việt. -
Cấu trúc trie có ưu điểm gì trong phân tích câu hỏi?
Trie cho phép nhận dạng nhanh các mẫu câu hỏi dựa trên token và thực thể, hỗ trợ phân loại dạng câu trả lời mong đợi (EAT) hiệu quả, đặc biệt phù hợp với ngôn ngữ có cấu trúc đa dạng như tiếng Việt. -
Hệ thống có hỗ trợ xử lý các câu hỏi phức tạp có nhiều thành phần không?
Hệ thống tập trung xử lý các câu hỏi đơn giản và vừa phải, đặc biệt câu đơn có cấu trúc rõ ràng. Các câu hỏi phức tạp hơn có thể được xử lý bằng cách mở rộng từ điển và cải tiến thuật toán trong các nghiên cứu tiếp theo.
Kết luận
- Luận văn đã xây dựng thành công hệ thống hội thoại ứng dụng cho viện bảo tàng, đáp ứng được yêu cầu trích rút thông tin bằng ngôn ngữ tự nhiên tiếng Việt.
- Áp dụng cấu trúc trie và thuật toán đa chiến lược giúp nâng cao hiệu quả phân tích câu hỏi, xử lý đồng tham chiếu và tỉnh lược.
- Hệ thống đạt tỷ lệ trả lời chính xác trên 80% trong các câu hỏi chuyên ngành bảo tàng, vượt trội so với các phương pháp truyền thống.
- Đề xuất các giải pháp mở rộng từ điển, cải tiến thuật toán và phát triển giao diện người dùng để nâng cao hiệu quả và trải nghiệm.
- Các bước tiếp theo bao gồm triển khai thử nghiệm thực tế, thu thập phản hồi và mở rộng ứng dụng sang các lĩnh vực khác; mời các nhà nghiên cứu và chuyên gia công nghệ thông tin quan tâm hợp tác phát triển.