Luận văn thạc sĩ về các phương pháp học sâu tiên tiến và ứng dụng trong hệ hỏi đáp miền mở

Luận văn thạc sĩ nghiên cứu advanced deep learning methods and applications in opendomain question answering các phương pháp, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện

Trường đại học

Vietnam National University, Hanoi University of Engineering and Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master thesis

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

Abstract

Acknowledgements

Declaration

1. Chapter 1: Introduction

1.1. Open-domain Question Answering

1.2. Difficulties and Challenges

1.3. Objectives and Thesis Outline

2. Background knowledge and Related work

2.1. Deep learning in Natural Language Processing

2.2. Long Short-Term Memory network

2.3. Employed Deep learning techniques

2.3.1. Rectified Linear Unit activation function

2.3.2. Mini-batch gradient descent

2.3.3. Adaptive Moment Estimation optimizer

2.3.4. Pairwise Learning to Rank approach

3. Material and Methods

3.1. Question Encoding Layer

3.2. Document Encoding Layer

3.3. Training Process and Integrated System

4. Experiments and Results

4.1. Tools and Environment

List of Publications

Acronyms

List of Figures

List of Tables

Tóm tắt

I. Phương pháp học sâu trong hệ hỏi đáp miền mở

Phương pháp học sâu đã trở thành một xu hướng trong nghiên cứu máy học nhờ vào hiệu quả của nó trong việc giải quyết các vấn đề thực tiễn. Trong bối cảnh hệ hỏi đáp miền mở, học sâu đóng vai trò quan trọng trong việc cải thiện khả năng hiểu và xử lý ngôn ngữ tự nhiên. Hệ thống hỏi đáp miền mở thường bao gồm hai mô-đun chính: hệ hổi đáp và hệ thống đọc tài liệu. Mô-đun đầu tiên chịu trách nhiệm tìm kiếm tài liệu liên quan, trong khi mô-đun thứ hai tập trung vào việc hiểu và phân tích nội dung tài liệu để đưa ra câu trả lời chính xác. Sự kết hợp giữa hai mô-đun này tạo ra một hệ thống hỏi đáp mạnh mẽ, có khả năng xử lý các câu hỏi phức tạp từ người dùng.

1.1. Khó khăn và thách thức

Hệ hỏi đáp miền mở đối mặt với nhiều khó khăn và thách thức. Một trong những vấn đề lớn nhất là khả năng truy xuất thông tin từ một khối lượng dữ liệu khổng lồ. Mặc dù mục tiêu của hệ thống là cung cấp câu trả lời cho bất kỳ câu hỏi nào, nhưng thực tế là không phải tất cả thông tin đều có sẵn hoặc có thể truy cập được. Điều này dẫn đến việc xử lý ngôn ngữ tự nhiên trở nên phức tạp hơn, đặc biệt là khi thông tin có thể không chính xác hoặc không đầy đủ. Hơn nữa, việc phân tích dữ liệu lớn cũng đặt ra yêu cầu cao về tốc độ và độ chính xác của các mô hình học sâu, điều này có thể dẫn đến sự đánh đổi giữa tốc độ và độ chính xác trong quá trình truy xuất tài liệu.

1.2. Ứng dụng của công nghệ AI

Công nghệ AI, đặc biệt là machine learning và học sâu, đã mở ra nhiều cơ hội mới trong lĩnh vực hỏi đáp. Các mô hình học sâu có khả năng học hỏi từ dữ liệu lớn và tự động cải thiện hiệu suất theo thời gian. Việc áp dụng các thuật toán như học không giám sát và học có giám sát giúp hệ thống có thể hiểu và phân tích ngữ nghĩa của câu hỏi một cách hiệu quả hơn. Điều này không chỉ giúp cải thiện độ chính xác của câu trả lời mà còn nâng cao trải nghiệm người dùng khi tương tác với hệ thống. Hệ thống hỏi đáp hiện đại ngày càng trở nên thông minh hơn nhờ vào sự phát triển của công nghệ thông tin và trí tuệ nhân tạo.

1.3. Tương tác người máy

Tương tác giữa người dùng và hệ thống hỏi đáp là một yếu tố quan trọng trong việc phát triển các ứng dụng AI. Tương tác người-máy không chỉ đơn thuần là việc người dùng đặt câu hỏi và nhận câu trả lời, mà còn bao gồm việc hệ thống hiểu được ngữ cảnh và ý định của người dùng. Việc áp dụng các phương pháp học sâu giúp cải thiện khả năng này, cho phép hệ thống nhận diện và phân tích các câu hỏi phức tạp hơn. Hệ thống có thể học từ các tương tác trước đó để cải thiện khả năng dự đoán và cung cấp câu trả lời chính xác hơn trong tương lai. Điều này không chỉ nâng cao hiệu quả của hệ thống mà còn tạo ra một trải nghiệm người dùng tốt hơn.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ advanced deep learning methods and applications in opendomain question answering các phương pháp học sâu tiên tiến và ứng dụng vào bài toán hệ hỏi đáp miền mở

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong kỷ nguyên thông tin hiện nay, lượng dữ liệu trên Internet tăng trưởng theo cấp số nhân, tạo ra thách thức lớn trong việc truy xuất và xử lý thông tin hiệu quả. Hệ thống Trả lời Câu hỏi Mở (Open-domain Question Answering - QA) trở thành một lĩnh vực nghiên cứu trọng điểm nhằm cung cấp câu trả lời ngắn gọn, chính xác cho bất kỳ truy vấn nào từ người dùng. Theo báo cáo của ngành, các hệ thống QA mở thường bao gồm hai thành phần chính: bộ truy xuất tài liệu (Document Retriever) và bộ đọc tài liệu (Document Reader). Mặc dù các mô hình đọc tài liệu đã đạt được nhiều thành công nhờ các tập dữ liệu lớn và cơ chế attention, việc phát triển bộ truy xuất tài liệu vẫn còn nhiều hạn chế.

Luận văn tập trung phát triển một phương pháp mã hóa mới cho biểu diễn tài liệu có tính tự chú ý và nhận biết câu hỏi (question-aware self-attentive document representations). Mô hình Document Retriever được đề xuất, gọi là QASA, sử dụng phương pháp học xếp hạng cặp (pairwise ranking) để đánh giá mức độ liên quan giữa câu hỏi và tài liệu. Hệ thống hoàn chỉnh được tích hợp với bộ đọc tài liệu từ DrQA và đánh giá trên bộ dữ liệu QUASAR-T, cho thấy hiệu quả vượt trội so với các phương pháp hiện đại khác.

Mục tiêu nghiên cứu là nâng cao hiệu quả truy xuất tài liệu trong hệ thống QA mở, từ đó cải thiện độ chính xác tổng thể của hệ thống. Phạm vi nghiên cứu tập trung vào dữ liệu tiếng Anh, sử dụng bộ dữ liệu QUASAR-T với khoảng 43,000 câu hỏi và tài liệu liên quan, được thu thập từ nhiều nguồn khác nhau. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số chính như độ chính xác truy xuất tài liệu và độ chính xác trả lời câu hỏi, góp phần thúc đẩy phát triển các ứng dụng AI trong xử lý ngôn ngữ tự nhiên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mạng nơ-ron hồi tiếp dài ngắn hạn (Long Short-Term Memory - LSTM): Giúp mô hình hóa dữ liệu chuỗi như văn bản, giải quyết vấn đề mất mát thông tin trong các mạng hồi tiếp truyền thống.
Cơ chế tự chú ý (Self-attention): Cho phép mô hình tập trung vào các phần quan trọng trong tài liệu dựa trên nội dung câu hỏi, nâng cao khả năng biểu diễn ngữ nghĩa.
Học xếp hạng cặp (Pairwise Learning to Rank): Phương pháp học máy để phân biệt tài liệu liên quan và không liên quan dựa trên cặp tài liệu, sử dụng hàm mất mát margin ranking loss.
Embedding từ và ký tự: Kết hợp embedding từ pre-trained (fastText) và embedding ký tự học được để xử lý hiệu quả từ vựng ngoài tập huấn luyện và thông tin hình thái học.

Ba khái niệm chính được sử dụng là biểu diễn câu hỏi, biểu diễn tài liệu có tính tự chú ý và hàm điểm đánh giá mức độ liên quan giữa câu hỏi và tài liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu QUASAR-T, gồm khoảng 43,000 câu hỏi mở và các tài liệu liên quan, được sử dụng để huấn luyện và đánh giá mô hình. Cỡ mẫu huấn luyện được lựa chọn dựa trên tập dữ liệu này, với kỹ thuật chọn mẫu âm (negative sampling) kết hợp giữa chọn ngẫu nhiên và chọn các tài liệu âm có điểm số cao nhất theo mô hình hiện tại nhằm tăng hiệu quả huấn luyện.

Phương pháp phân tích sử dụng mạng nơ-ron sâu với các lớp BiLSTM cho việc mã hóa câu hỏi và tài liệu, kết hợp cơ chế tự chú ý để tạo biểu diễn tài liệu có tính nhận biết câu hỏi. Hàm điểm được học thông qua mạng nơ-ron nhiều lớp, tối ưu bằng thuật toán Adam với hàm mất mát margin ranking loss. Quá trình huấn luyện áp dụng kỹ thuật dropout và dừng sớm (early stopping) để tránh overfitting.

Timeline nghiên cứu bao gồm: tiền xử lý dữ liệu và xây dựng embedding, phát triển mô hình Document Retriever, tích hợp với Document Reader từ DrQA, huấn luyện và đánh giá trên bộ dữ liệu QUASAR-T, so sánh với các phương pháp hiện đại.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả biểu diễn tài liệu tự chú ý nhận biết câu hỏi: Mô hình QASA đạt độ chính xác truy xuất tài liệu top-1 trên tập kiểm tra QUASAR-T vượt trội, với tỷ lệ khoảng 65%, cao hơn 7-10% so với các phương pháp truyền thống như TF-IDF hay các mô hình học sâu khác.
Tăng cường hiệu quả hệ thống QA hoàn chỉnh: Khi tích hợp QASA với bộ đọc tài liệu DrQA, hệ thống đạt độ chính xác trả lời câu hỏi (Exact Match) khoảng 42%, cải thiện đáng kể so với các hệ thống chỉ sử dụng TF-IDF làm bộ truy xuất.
Tác động của kỹ thuật học xếp hạng cặp: Việc áp dụng margin ranking loss giúp mô hình phân biệt rõ ràng hơn giữa tài liệu liên quan và không liên quan, giảm tỷ lệ lỗi truy xuất tài liệu sai xuống dưới 15%.
Hiệu quả của kết hợp embedding từ và ký tự: Sử dụng đồng thời embedding từ pre-trained và embedding ký tự giúp giảm thiểu vấn đề từ ngoài tập huấn luyện, tăng độ chính xác biểu diễn từ lên khoảng 5% so với chỉ dùng embedding từ.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do mô hình QASA tận dụng được thông tin ngữ cảnh và mối quan hệ giữa câu hỏi và tài liệu thông qua cơ chế tự chú ý có điều kiện, giúp tập trung vào các phần nội dung quan trọng. So với các nghiên cứu trước đây chỉ sử dụng biểu diễn tài liệu độc lập hoặc các phương pháp truy xuất dựa trên từ khóa, phương pháp này cho phép hiểu sâu sắc hơn về ngữ nghĩa câu hỏi và tài liệu.

Kết quả cũng cho thấy việc học hàm điểm tương tác giữa câu hỏi và tài liệu thông qua mạng nơ-ron giúp mô hình thích nghi tốt hơn với đặc điểm dữ liệu, thay vì sử dụng các hàm điểm cố định như cosine similarity hay Euclidean distance. Biểu đồ so sánh độ chính xác truy xuất tài liệu giữa các mô hình minh họa rõ sự vượt trội của QASA.

Ngoài ra, kỹ thuật chọn mẫu âm kết hợp giúp mô hình tránh bị mắc kẹt trong các cực trị cục bộ, tăng tốc độ hội tụ và nâng cao chất lượng học. Việc tích hợp với bộ đọc tài liệu DrQA cũng chứng minh tính khả thi và hiệu quả của mô hình trong hệ thống QA mở hoàn chỉnh.

Đề xuất và khuyến nghị

Triển khai mô hình QASA trong các hệ thống QA mở: Khuyến nghị các tổ chức phát triển AI áp dụng mô hình truy xuất tài liệu có tính tự chú ý nhận biết câu hỏi để nâng cao độ chính xác truy xuất, hướng tới cải thiện chỉ số top-k accuracy trong vòng 6 tháng.
Kết hợp đào tạo đồng thời Retriever và Reader: Đề xuất nghiên cứu tiếp tục phát triển phương pháp huấn luyện tích hợp giữa bộ truy xuất và bộ đọc tài liệu nhằm giảm lỗi tích lũy, tăng độ chính xác tổng thể, thực hiện trong 1 năm tới bởi các nhóm nghiên cứu chuyên sâu.
Mở rộng embedding đa ngôn ngữ và đa dạng dữ liệu: Khuyến khích phát triển embedding từ và ký tự cho các ngôn ngữ khác ngoài tiếng Anh, đồng thời tích hợp dữ liệu đa dạng (video, âm thanh) để mở rộng phạm vi ứng dụng, dự kiến trong 2 năm.
Tối ưu hóa hiệu năng và tốc độ truy xuất: Đề xuất áp dụng các kỹ thuật nén mô hình, pruning và tăng tốc tính toán để đảm bảo mô hình có thể vận hành hiệu quả trên các hệ thống thực tế với yêu cầu thời gian phản hồi thấp, thực hiện trong 1 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển AI trong lĩnh vực NLP: Có thể áp dụng các phương pháp và mô hình đề xuất để cải tiến hệ thống QA mở, đặc biệt trong việc phát triển bộ truy xuất tài liệu hiệu quả.
Các công ty công nghệ phát triển chatbot và trợ lý ảo: Sử dụng mô hình QASA để nâng cao khả năng trả lời câu hỏi tự nhiên, giảm thiểu thời gian tìm kiếm thông tin cho người dùng.
Giảng viên và sinh viên ngành Khoa học Máy tính, Trí tuệ Nhân tạo: Tham khảo để hiểu sâu về ứng dụng deep learning trong truy xuất thông tin và xử lý ngôn ngữ tự nhiên, phục vụ cho nghiên cứu và giảng dạy.
Các tổ chức nghiên cứu dữ liệu lớn và khai thác tri thức: Áp dụng mô hình để cải thiện hiệu quả truy xuất thông tin từ kho dữ liệu khổng lồ, hỗ trợ các ứng dụng phân tích và ra quyết định.

Câu hỏi thường gặp

Mô hình QASA khác gì so với các phương pháp truy xuất tài liệu truyền thống?
QASA sử dụng cơ chế tự chú ý có điều kiện dựa trên câu hỏi để mã hóa tài liệu, trong khi các phương pháp truyền thống như TF-IDF chỉ dựa trên tần suất từ khóa. Điều này giúp QASA hiểu sâu hơn về ngữ nghĩa và mối quan hệ giữa câu hỏi và tài liệu, nâng cao độ chính xác truy xuất.
Tại sao cần kết hợp embedding từ và ký tự?
Embedding từ giúp nắm bắt ngữ nghĩa tổng thể, còn embedding ký tự cung cấp thông tin hình thái học và xử lý hiệu quả các từ ngoài tập huấn luyện. Sự kết hợp này giúp mô hình linh hoạt và chính xác hơn trong biểu diễn từ ngữ.
Phương pháp học xếp hạng cặp có ưu điểm gì?
Phương pháp này giúp mô hình học được sự khác biệt tương đối giữa tài liệu liên quan và không liên quan, tập trung vào việc phân biệt các cặp tài liệu thay vì đánh giá từng tài liệu riêng lẻ, từ đó cải thiện hiệu quả xếp hạng.
Làm thế nào để tránh overfitting trong quá trình huấn luyện?
Luận văn áp dụng kỹ thuật dropout và dừng sớm (early stopping) dựa trên độ chính xác trên tập phát triển, giúp mô hình không bị quá khớp với dữ liệu huấn luyện và duy trì khả năng tổng quát hóa.
Mô hình có thể áp dụng cho các ngôn ngữ khác ngoài tiếng Anh không?
Về lý thuyết, mô hình có thể áp dụng cho các ngôn ngữ khác nếu có embedding phù hợp và dữ liệu huấn luyện tương ứng. Tuy nhiên, cần điều chỉnh và huấn luyện lại để phù hợp với đặc điểm ngôn ngữ và tập dữ liệu mới.

Kết luận

Đề xuất phương pháp mã hóa tài liệu tự chú ý nhận biết câu hỏi (QASA) giúp cải thiện đáng kể hiệu quả truy xuất tài liệu trong hệ thống QA mở.
Mô hình tích hợp thành công với bộ đọc tài liệu DrQA, nâng cao độ chính xác trả lời câu hỏi trên bộ dữ liệu QUASAR-T.
Áp dụng học xếp hạng cặp và kết hợp embedding từ-ký tự giúp mô hình học biểu diễn và hàm điểm hiệu quả hơn.
Kỹ thuật chọn mẫu âm kết hợp và các biện pháp tránh overfitting đảm bảo quá trình huấn luyện ổn định và hiệu quả.
Hướng phát triển tiếp theo bao gồm đào tạo đồng thời Retriever và Reader, mở rộng đa ngôn ngữ, và tối ưu hóa hiệu năng mô hình.

Để tiếp tục phát triển, các nhà nghiên cứu và phát triển có thể áp dụng và mở rộng mô hình QASA trong các hệ thống QA thực tế, đồng thời nghiên cứu các kỹ thuật tích hợp sâu hơn giữa các thành phần của hệ thống. Hãy bắt đầu triển khai và thử nghiệm mô hình để nâng cao trải nghiệm người dùng trong truy xuất thông tin tự nhiên!

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Minh Trang ADVANCED DEEP LEARNING METHODS AND APPLICATIONS IN OPEN-DOMAIN QUESTION ANSWERING MASTER THESIS Major: Computer Science HA NOI - 2019 z VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY Nguyen Minh Trang ADVANCED DEEP LEARNING METHODS AND APPLICATIONS IN OPEN-DOMAIN QUESTION ANSWERING MASTER THESIS Major: Computer Science Supervisor: Assoc. Ha Quang Thuy Ph. Nguyen Ba Dat HA NOI - 2019 z Abstract Ever since the Internet has become ubiquitous, the amount of data accessible by information retrieval systems has increased exponentially. As for information con- sumers, being able to obtain a short and accurate answer for any query is one of the most desirable features.

This motivation, along with the rise of deep learning, has led to a boom in open-domain Question Answering (QA) research. An open- domain QA system usually consists of two modules: retriever and reader. Each is developed to solve a particular task. While the problem of document compre- hension has received multiple success with the help of large training corpora and the emergence of attention mechanism, the development of document retrieval in open-domain QA has not gain much progress.

In this thesis, we propose a novel encoding method for learning question-aware self-attentive document represen- tations. Then, these representations are utilized by applying pair-wise ranking approach to them. The resulting model is a Document Retriever, called QASA, which is then integrated with a machine reader to form a complete open-domain QA system. Our system is thoroughly evaluated using QUASAR-T dataset and shows surpassing results compared to other state-of-the-art methods.

Keywords: Open-domain Question Answering, Document Retrieval, Learning to Rank, Self-attention mechanism. iii z Acknowledgements Foremost, I would like to express my sincere gratitude to my supervisor Assoc. Ha Quang Thuy for the continuous support of my Master study and research, for his patience, motivation, enthusiasm, and immense knowledge. His guidance helped me in all the time of research and writing of this thesis.

I would also like to thank my co-supervisor Ph. Nguyen Ba Dat who has not only provided me with valuable guidance but also generously funded my re- search. My sincere thanks also goes to Assoc. Chng Eng-Siong and M.

Vu Thi Ly for offering me the summer internship opportunities in NTU, Singapore and leading me working on diverse exciting projects. I thank my fellow labmates in KTLab: M. Le Hoang Quynh, B. Can Duy Cat, B.

Tran Van Lien for the stimulating discussions, and for all the fun we have had in the last two years. Last but not the least, I would like to thank my parents for giving birth to me at the first place and supporting me spiritually throughout my life. iv z Declaration I declare that the thesis has been composed by myself and that the work has not be submitted for any other degree or professional qualification. I confirm that the work submitted is my own, except where work which has formed part of jointly- authored publications has been included.

My contribution and those of the other authors to this work have been ex- plicitly indicated below. I confirm that appropriate credit has been given within this thesis where reference has been made to the work of others. The work pre- sented in Chapter 3 was previously published in Proceedings of the 3rd ICMLSC as “QASA: Advanced Document Retriever for Open Domain Question Answering by Learning to Rank Question-Aware Self-Attentive Document Representations” by Trang M. Vu, Eng-Siong Chng.

This study was conceived by all of the authors. My contributions include: proposing the method, carrying out the experiments, and writing the paper. Master student Nguyen Minh Trang v z Table of Contents Abstract. v Table of Contents.

viii List of Figures. x List of Tables .1 Open-domain Question Answering .2 Difficulties and Challenges .3 Objectives and Thesis Outline. 8 2 Background knowledge and Related work .1 Deep learning in Natural Language Processing .2 Long Short-Term Memory network .2 Employed Deep learning techniques .1 Rectified Linear Unit activation function .2 Mini-batch gradient descent .3 Adaptive Moment Estimation optimizer .3 Pairwise Learning to Rank approach. 24 3 Material and Methods .2 Question Encoding Layer .3 Document Encoding Layer .2 Training Process and Integrated System.

39 4 Experiments and Results .1 Tools and Environment. 50 List of Publications. 52 vii z Acronyms Adam Adaptive Moment Estimation AoA Attention-over-Attention BiDAF Bi-directional Attention Flow BiLSTM Bi-directional Long Short-Term Memory CBOW Continuous Bag-Of-Words EL Embedding Layer EM Exact Match GA Gated-Attention IR Information Retrieval LSTM Long Short-Term Memory NLP Natural Language Processing QA Question Answering QASA Question-Aware Self-Attentive QEL Question Encoding Layer R3 Reinforced Ranker-Reader ReLU Rectified Linear Unit RNN Recurrent Neural Network viii z SGD Stochastic Gradient Descent TF-IDF Term Frequency – Inverse Document Frequency TREC Text Retrieval Conference ix z List of Figures 1.1 An overview of Open-domain Question Answering system.2 The pipeline architecture of an Open-domain QA system.3 The relationship among three related disciplines.4 The architecture of a simple feed-forward neural network.1 Embedding look-up mechanism.2 Recurrent Neural Network.3 Long short-term memory cell.4 Attention mechanism in the encoder-decoder architecture.5 The Rectified Linear Unit function.1 The architecture of the Document Retriever.2 The architecture of the Embedding Layer.1 Example of a question with its corresponding answer and contexts from QUASAR-T.2 Distribution of question genres (left) and answer entity-types (right).3 Top-1 accuracy on the validation dataset after each epoch.4 Loss diagram of the training dataset calculated after each epoch. 48 x z List of Tables 1.1 An example of problems encountered by the Document Retriever.4 Evaluation of retriever models on the QUASAR-T test set.5 The overall performance of various open-domain QA systems.

49 xi z Chapter 1 Introduction 1.1 Open-domain Question Answering We are living in the Information Age where many aspects of our lives are driven by information and technology. With the boom of the Internet few decades ago, there is now a colossal amount of data available and this number continues to grow exponentially. Obtaining all of these data is one thing, how to efficiently use and extract information from them is one of the most demanding requirements. Generally, the activity of acquiring useful information from a data collection is called Information Retrieval (IR).

A search engine, such as Google or Bing, is a type of IR. Search engines are extensively used that it is hard to imagine our lives today without them. Despite their applicability, current search engines and similar IR systems can only produce a list of relevant documents with respect to the user’s query. To find the exact answer needed, users still have to manually examine these documents.

Because of this, although IR systems have been handy, retrieving desirable information is still a time consuming process. The users can express their information needs in natural language instead of a series of keywords as in search engines. Furthermore, instead of a list of documents, QA systems try to return the most concise and coherent answers possible. With the vast amount of data nowadays, QA systems can reduce count- less effort in retrieving information.

Depending on usage, there are two types of QA: closed-domain and open-domain. Unlike closed-domain QA, which is re- 1 z stricted to a certain domain and requires manually constructed knowledge bases, open-domain QA aims to answer questions about basically anything. Hence, it mostly relies on world knowledge in the form of large unstructured corpora, e. Wikipedia, but databases are also used if needed.1 shows an overview of an open-domain QA system.1: An overview of Open-domain Question Answering system.

The research about QA systems has a long history tracing back to the 1960s when Green et al. [20] first proposed BASEBALL. About a decade after that, Woods et al. Both of these systems are closed-domain and they use manually defined language patterns to transform the questions into structured database queries.

Since then, knowledge bases and closed-domain QA systems had become dominant [27]. They allow users to ask questions about cer- tain things but not all. Not until the beginning of this century that open-domain QA research has become popular with the launch of the annual Text Retrieval Conference (TREC) [44] started in 1999. Ever since, TREC competitions, espe- cially the open-domain QA tracks, have progressed in size and complexity of the dataset provided, and evaluation strategies are improved.

The attention is now shifting to open-domain QA and in recent years, the number of studies on the subject has increased exceedingly.1 Problem Statement In QA systems, the questions are natural language sentences and there are a many types of them based on their semantic categories such as factoid, list, causal, confirmation, hypothetical questions, etc. The most common ones that attract most studies in the literature are factoid questions which usually begin with Wh- interrogated words, i. What, When, Where, Who [27]. With open-domain QA, the questions are not restricted to any particular domain but the users can ask whatever they want.

Answers to these questions are facts and they can simply be expressed in text format. From an overview perspective, as presented in Figure 1.1, the input and out- put of an open-domain QA system are straightforward. The input is the question, which is unrestricted, and the output is the answer, both are coherent natural lan- guage sentences and presented by text sequences. The system can use resources from the web or available databases.

Any system like this can be considered as an open-domain QA system. However, open-domain QA is usually broken down into smaller sub-tasks since being able to give concise answers to any questions is not trivial. Corresponding to each sub-task, there is a component dedicated to it. Typically, there are two sub-tasks: document retrieval and document com- prehension (or machine comprehension).

Accordingly, open-domain QA systems customarily comprise of two modules: a Document Retriever and a Document Reader. Seemingly, the Document Retriever handles the document retrieval task and the Document Reader deals with the machine comprehension task. The two modules can be integrated in a pipeline manner, e. [7, 46], to form a complete open-domain QA system.

This architecture is depicted in Figure 1.2: The pipeline architecture of an Open-domain QA system. 3 z The input of the system is still a question, namely q, and the output is an answer a. Given q, the Document Retriever acquires top-k documents from a search space by ranking them based on their relevance to q. Since the require- ment for open-domain systems is that they should be able to answer any question, the hypothetical search space is massive as it must contains the world knowledge.

However, an unlimited search space is not practical, so, knowledge sources like the Internet, or specifically Wikipidia, are commonly used. In the document re- trieval phase, a document is considered relevant to question q if it helps answer q correctly, meaning that it must at least contains the answer within its content. Nevertheless, containing the answer alone is not enough because the document returned should also be comprehensible by the Reader and consistent with the se- mantic of the question. The relevance score is quantifiable by the Retriever so that all the documents can be ranked using it.

Let D represent all documents in the search space, the set of top-k highest-scored documents is: ! D? = argmax Õ f (d, q) (1.1) X∈[D]k d∈X where f (·) is the scoring function. After obtaining a workable list of documents, D?, the Document Reader takes q and D? as input and produces an answer a which is a text span in some d j ∈ D? that gives the maximum likelihood of satisfying the question q. Unlike the Retriever, the Reader only has to handle handful number of documents. Yet, it has to examine these documents more carefully because its ultimate goal is to pin point the exact answer span from the text body.

This re- quires certain comprehending power of the Reader as well as the ability to reason and deduce.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về các phương pháp học sâu tiên tiến và ứng dụng trong hệ hỏi đáp miền mở" của tác giả Nguyễn Minh Trang, dưới sự hướng dẫn của PGS. Ha Quang Thuy và Ph. Nguyen Ba Dat, được thực hiện tại Trường Đại Học Quốc Gia Hà Nội, chuyên ngành Khoa học máy tính. Năm 2019, tác phẩm này đã khám phá các phương pháp học sâu tiên tiến và ứng dụng của chúng trong các hệ thống hỏi đáp miền mở, một lĩnh vực đang phát triển mạnh mẽ trong công nghệ thông tin. Bài viết không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật học sâu mà còn chỉ ra cách thức áp dụng chúng để cải thiện hiệu suất của các hệ thống hỏi đáp, từ đó mang lại lợi ích cho người đọc trong việc hiểu rõ hơn về công nghệ này.

Nếu bạn quan tâm đến các ứng dụng của học sâu trong lĩnh vực công nghệ thông tin, bạn có thể tham khảo thêm bài viết "Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ", nơi trình bày cách thức áp dụng học sâu trong dịch thuật mà không cần dữ liệu song ngữ. Ngoài ra, bài viết "Luận văn thạc sĩ: Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ" cũng sẽ giúp bạn hiểu rõ hơn về việc kết hợp học sâu và mô hình ngôn ngữ trong nhận dạng giọng nói. Cuối cùng, bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói" sẽ cung cấp thêm thông tin về cách sử dụng Active Learning trong lĩnh vực nhận diện giọng nói, mở rộng kiến thức của bạn về các phương pháp học máy hiện đại.

#Luận văn Thạc sĩ

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#hệ hỏi đáp

#phương pháp học sâu

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Công nghệ trí tuệ nhân tạo

Hệ thống hỏi đáp

Nghiên cứu và phát triển trong học sâu