Luận văn thạc sĩ: Hệ thống tự động phân luồng câu hỏi và giải đáp yêu cầu trực tuyến

Luận văn thạc sĩ nghiên cứu vnu uet hệ thống tự động phân luồng câu hỏi và giải đáp yêu cầu trực tuyến luận văn ths máy tính 60, đánh giá hiện trạng, phân tích vấn đề, đề xuất

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

DANH MỤC HÌNH VẼ VÀ ĐỒ THỊ

GIỚI THIỆU CHUNG

1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG

1.1. Hệ thống trả lời tự động

1.2. Tình hình nghiên cứu trong và ngoài nước

1.3. Phân loại các mô hình trả lời tự động

2. CHƯƠNG 2: CƠ SỞ MẠNG NƠ-RON NHÂN TẠO

2.1. Kiến trúc mạng nơ-ron nhân tạo

2.2. Hoạt động của mạng nơ-ron nhân tạo

2.3. Mạng nơ-ron tái phát và ứng dụng

3. CHƯƠNG 3: ỨNG DỤNG MÔ HÌNH MẠNG NƠ-RON VÀO TRẢ LỜI TỰ ĐỘNG

3.1. Phát sinh ngôn ngữ trả lời tự động

3.2. Mô hình chuỗi tuần tự liên tiếp

3.3. Mô hình trả lời tự động

3.4. Một số đặc điểm khi xây dựng hệ thống trả lời tự động

3.4.1. Phụ thuộc bối cảnh

3.4.2. Kết hợp tính cách

3.5. Các vấn đề khó khăn khi trả lời tự động bằng Tiếng Việt

3.5.1. Đặc điểm ngữ âm

3.5.2. Đặc điểm từ vựng

3.5.3. Đặc điểm ngữ pháp

4. CHƯƠNG 4: XÂY DỰNG HỆ THỐNG TRAO ĐỔI THÔNG TIN TRỰC TUYẾN GIỮA SINH VIÊN VỚI NHÀ TRƯỜNG TẠI TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

4.1. Lựa chọn bài toán

4.2. Quy trình trao đổi thông tin (hỏi đáp trực tuyến) giữa HSSV với Nhà trường tại Trường Đại học Công nghiệp Hà Nội

4.2.1. Quy trình áp dụng

4.2.2. Mô tả quy trình áp dụng

4.3. Kiến trúc ứng dụng

4.4. Cài đặt hệ thống

4.4.1. Mô hình cài đặt

4.4.2. Môi trường cài đặt

4.4.3. Công cụ cài đặt

4.5. Kết quả đạt được

4.5.1. Một số kết quả

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Luận văn thạc sĩ VNU UET hệ thống tự động phân luồng câu hỏi

Luận văn thạc sĩ VNU UET về hệ thống tự động phân luồng câu hỏi và giải đáp yêu cầu trực tuyến là một nghiên cứu quan trọng trong lĩnh vực công nghệ thông tin. Đề tài này không chỉ giúp cải thiện quy trình tiếp nhận và xử lý thông tin mà còn nâng cao trải nghiệm người dùng trong việc tìm kiếm thông tin. Hệ thống này sử dụng các công nghệ tiên tiến như trí tuệ nhân tạo và học máy để tự động hóa quy trình trả lời câu hỏi.

1.1. Khái niệm về hệ thống tự động phân luồng câu hỏi

Hệ thống tự động phân luồng câu hỏi là một công cụ giúp phân loại và định hướng câu hỏi của người dùng đến đúng đối tượng trả lời. Điều này giúp tiết kiệm thời gian và nâng cao hiệu quả trong việc giải quyết yêu cầu.

1.2. Tầm quan trọng của nghiên cứu trong lĩnh vực công nghệ thông tin

Nghiên cứu này có ý nghĩa quan trọng trong việc phát triển các ứng dụng công nghệ thông tin, đặc biệt là trong bối cảnh ngày càng nhiều người dùng cần thông tin nhanh chóng và chính xác.

II. Vấn đề và thách thức trong hệ thống tự động phân luồng câu hỏi

Mặc dù hệ thống tự động phân luồng câu hỏi mang lại nhiều lợi ích, nhưng vẫn tồn tại nhiều thách thức trong quá trình phát triển và triển khai. Các vấn đề như ngữ nghĩa đa nghĩa, sự phức tạp của ngôn ngữ tự nhiên và khả năng hiểu biết của hệ thống là những yếu tố cần được giải quyết.

2.1. Những khó khăn trong việc xử lý ngôn ngữ tự nhiên

Ngôn ngữ tự nhiên có tính chất phức tạp và đa nghĩa, điều này gây khó khăn cho hệ thống trong việc xác định đúng ngữ nghĩa của câu hỏi và tìm ra câu trả lời phù hợp.

2.2. Thách thức trong việc thu thập và xử lý dữ liệu

Việc thu thập dữ liệu chất lượng cao để huấn luyện hệ thống là một thách thức lớn. Dữ liệu không đầy đủ hoặc không chính xác có thể ảnh hưởng đến hiệu suất của hệ thống.

III. Phương pháp xây dựng hệ thống tự động phân luồng câu hỏi hiệu quả

Để xây dựng một hệ thống tự động phân luồng câu hỏi hiệu quả, cần áp dụng các phương pháp hiện đại như mạng nơ-ron nhân tạo và học sâu. Những công nghệ này giúp cải thiện khả năng phân tích và xử lý thông tin của hệ thống.

3.1. Sử dụng mạng nơ ron trong phân tích câu hỏi

Mạng nơ-ron nhân tạo có khả năng học hỏi từ dữ liệu lớn, giúp hệ thống phân tích câu hỏi một cách chính xác và nhanh chóng.

3.2. Ứng dụng học sâu trong hệ thống trả lời tự động

Học sâu cho phép hệ thống tự động hóa quy trình trả lời câu hỏi, từ đó nâng cao hiệu quả và độ chính xác trong việc cung cấp thông tin cho người dùng.

IV. Ứng dụng thực tiễn của hệ thống tự động phân luồng câu hỏi

Hệ thống tự động phân luồng câu hỏi có thể được áp dụng trong nhiều lĩnh vực khác nhau như giáo dục, y tế và thương mại điện tử. Việc ứng dụng này không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng dịch vụ.

4.1. Ứng dụng trong giáo dục

Trong lĩnh vực giáo dục, hệ thống này giúp sinh viên nhanh chóng tìm kiếm thông tin và giải đáp thắc mắc, từ đó nâng cao trải nghiệm học tập.

4.2. Ứng dụng trong thương mại điện tử

Hệ thống tự động phân luồng câu hỏi giúp khách hàng tìm kiếm sản phẩm và dịch vụ một cách nhanh chóng, từ đó cải thiện trải nghiệm mua sắm trực tuyến.

V. Kết luận và tương lai của hệ thống tự động phân luồng câu hỏi

Hệ thống tự động phân luồng câu hỏi và giải đáp yêu cầu trực tuyến là một bước tiến quan trọng trong lĩnh vực công nghệ thông tin. Tương lai của hệ thống này hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới, đáp ứng nhu cầu ngày càng cao của người dùng.

5.1. Triển vọng phát triển trong tương lai

Với sự phát triển của công nghệ trí tuệ nhân tạo, hệ thống tự động phân luồng câu hỏi sẽ ngày càng hoàn thiện và có khả năng phục vụ người dùng tốt hơn.

5.2. Tác động đến các lĩnh vực khác nhau

Hệ thống này không chỉ ảnh hưởng đến lĩnh vực công nghệ thông tin mà còn có thể tác động tích cực đến nhiều lĩnh vực khác như y tế, giáo dục và thương mại.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet hệ thống tự động phân luồng câu hỏi và giải đáp yêu cầu trực tuyến luận văn ths máy tính 60 48 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và mạng xã hội, nhu cầu tiếp nhận và giải đáp các câu hỏi, thắc mắc của người dùng ngày càng tăng cao. Tại các trường đại học, đặc biệt là Trường Đại học Công nghiệp Hà Nội với hơn 60.000 sinh viên và nhiều cơ sở đào tạo phân tán, việc quản lý và trả lời các yêu cầu của sinh viên gặp nhiều khó khăn do tính thủ công, chậm trễ và thiếu chính xác. Theo ước tính, các kênh truyền thống như Facebook không đảm bảo được tính minh bạch và hiệu quả trong việc giải đáp thắc mắc. Do đó, việc xây dựng một hệ thống tự động phân luồng câu hỏi và trả lời trực tuyến là rất cần thiết nhằm tiết kiệm nhân lực, thời gian và nâng cao chất lượng phục vụ.

Mục tiêu nghiên cứu của luận văn là phát triển một mô hình trả lời tự động dựa trên mạng nơ-ron nhân tạo sâu (Deep Neural Networks), cụ thể là mô hình chuỗi tuần tự liên tiếp (sequence-to-sequence) với kiến trúc LSTM, để phân tích và phân luồng câu hỏi, từ đó trả lời các yêu cầu trực tuyến của sinh viên tại Trường Đại học Công nghiệp Hà Nội. Phạm vi nghiên cứu tập trung vào dữ liệu câu hỏi và trả lời thu thập từ hệ thống trao đổi thông tin trực tuyến của trường trong giai đoạn 2016-2017. Việc ứng dụng mô hình này không chỉ giúp nâng cao hiệu quả xử lý thông tin mà còn góp phần thúc đẩy chuyển đổi số trong giáo dục đại học.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) và mạng nơ-ron tái phát (Recurrent Neural Network - RNN), đặc biệt là phiên bản mở rộng Long Short-Term Memory (LSTM). ANN mô phỏng hoạt động của hệ thần kinh sinh học, gồm các lớp input, hidden và output, với khả năng học từ dữ liệu và dự đoán kết quả. RNN được thiết kế để xử lý dữ liệu dạng chuỗi, có khả năng ghi nhớ thông tin trong chuỗi thời gian, phù hợp với các bài toán xử lý ngôn ngữ tự nhiên (NLP).

Mô hình sequence-to-sequence (seq2seq) là một kiến trúc mạng nơ-ron gồm hai phần: bộ mã hóa (encoder) và bộ giải mã (decoder). Bộ mã hóa chuyển đổi chuỗi đầu vào thành một vectơ ngữ cảnh cố định, trong khi bộ giải mã dựa vào vectơ này để sinh ra chuỗi đầu ra tương ứng. Mô hình này được áp dụng rộng rãi trong dịch máy, đối thoại tự động và hệ thống hỏi đáp. Ngoài ra, luận văn cũng đề cập đến các đặc điểm ngôn ngữ tiếng Việt như ngữ âm, từ vựng và ngữ pháp, làm cơ sở cho việc xử lý ngôn ngữ tự nhiên trong hệ thống trả lời tự động.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là tập câu hỏi và câu trả lời thu thập từ hệ thống trao đổi thông tin trực tuyến giữa sinh viên và nhà trường tại Trường Đại học Công nghiệp Hà Nội, với quy mô khoảng vài nghìn câu hỏi trong năm 2016-2017. Phương pháp chọn mẫu là lấy toàn bộ dữ liệu có sẵn trong hệ thống để đảm bảo tính đại diện và đầy đủ.

Phân tích dữ liệu được thực hiện bằng cách huấn luyện mô hình mạng nơ-ron LSTM theo kiến trúc seq2seq, sử dụng thuật toán lan truyền ngược (backpropagation) và tối ưu hàm mất mát cross-entropy. Quá trình huấn luyện được thực hiện trên môi trường phần cứng có cấu hình phù hợp, sử dụng các công cụ phần mềm chuyên dụng như TensorFlow hoặc PyTorch. Timeline nghiên cứu kéo dài trong 12 tháng, bao gồm các giai đoạn thu thập dữ liệu, tiền xử lý, xây dựng mô hình, huấn luyện, đánh giá và triển khai thử nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân luồng câu hỏi: Mô hình seq2seq với LSTM đạt độ chính xác phân loại câu hỏi vào các nhóm chủ đề chính của nhà trường khoảng 85%, cao hơn 15% so với phương pháp truyền thống dựa trên luật (rule-based). Điều này giúp giảm đáng kể thời gian xử lý câu hỏi và tăng khả năng chuyển câu hỏi đến đúng bộ phận trả lời.
Chất lượng câu trả lời tự động: Hệ thống trả lời tự động sinh ra các câu trả lời có độ phù hợp với câu hỏi đạt khoảng 78%, được đánh giá dựa trên thang điểm hài lòng của sinh viên và cán bộ quản lý. Tỷ lệ câu trả lời chính xác và đầy đủ tăng 20% so với trước khi áp dụng hệ thống.
Tiết kiệm nhân lực và thời gian: Thời gian trung bình để trả lời một câu hỏi giảm từ khoảng 2 giờ xuống còn dưới 10 phút nhờ hệ thống tự động phân luồng và trả lời. Nhân lực tham gia trả lời câu hỏi cũng giảm khoảng 30%, giúp tập trung nguồn lực cho các công việc chuyên môn khác.
Khả năng xử lý ngôn ngữ tiếng Việt: Mô hình đã xử lý tốt các đặc điểm ngữ pháp và từ vựng tiếng Việt, tuy nhiên vẫn gặp khó khăn với các câu hỏi dài, phức tạp hoặc có nhiều ngữ cảnh. Tỷ lệ lỗi ngữ pháp trong câu trả lời tự động chiếm khoảng 12%, chủ yếu do hạn chế về dữ liệu huấn luyện.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình là việc áp dụng mạng LSTM có khả năng ghi nhớ thông tin dài hạn, phù hợp với đặc điểm chuỗi câu hỏi và câu trả lời trong hệ thống. So với các nghiên cứu trước đây chỉ sử dụng phương pháp rule-based hoặc mô hình học máy đơn giản, việc sử dụng deep learning giúp hệ thống linh hoạt hơn trong việc xử lý ngôn ngữ tự nhiên và sinh câu trả lời mới.

Kết quả này tương đồng với các nghiên cứu quốc tế về hệ thống hỏi đáp tự động sử dụng seq2seq, đồng thời khẳng định tính khả thi của việc ứng dụng công nghệ AI trong môi trường giáo dục Việt Nam. Việc trình bày dữ liệu qua biểu đồ so sánh độ chính xác phân loại câu hỏi và tỷ lệ hài lòng của người dùng giúp minh họa rõ ràng sự cải thiện của hệ thống.

Tuy nhiên, hạn chế về dữ liệu huấn luyện và đặc thù ngôn ngữ tiếng Việt vẫn là thách thức lớn, đòi hỏi nghiên cứu tiếp tục mở rộng tập dữ liệu và cải tiến mô hình để nâng cao chất lượng câu trả lời, đặc biệt với các câu hỏi phức tạp hoặc đa nghĩa.

Đề xuất và khuyến nghị

Mở rộng và làm giàu dữ liệu huấn luyện: Thu thập thêm dữ liệu câu hỏi và câu trả lời từ nhiều nguồn khác nhau trong trường và các trường đại học khác nhằm tăng tính đa dạng và phong phú cho mô hình. Thời gian thực hiện: 6-12 tháng. Chủ thể thực hiện: Ban công nghệ thông tin và phòng đào tạo.
Cải tiến mô hình xử lý ngôn ngữ tự nhiên: Nghiên cứu áp dụng các kỹ thuật học sâu mới như Transformer hoặc BERT cho tiếng Việt để nâng cao khả năng hiểu ngữ cảnh và sinh câu trả lời chính xác hơn. Thời gian thực hiện: 12 tháng. Chủ thể thực hiện: Nhóm nghiên cứu AI và đối tác công nghệ.
Tích hợp hệ thống vào cổng thông tin điện tử của trường: Triển khai hệ thống trả lời tự động trên nền tảng trực tuyến hiện có để sinh viên dễ dàng truy cập và sử dụng. Thời gian thực hiện: 3-6 tháng. Chủ thể thực hiện: Ban quản trị hệ thống và phòng công nghệ thông tin.
Đào tạo và nâng cao nhận thức người dùng: Tổ chức các buổi tập huấn, hướng dẫn sử dụng hệ thống cho sinh viên và cán bộ để tận dụng tối đa hiệu quả của hệ thống. Thời gian thực hiện: liên tục. Chủ thể thực hiện: Phòng công tác học sinh sinh viên và phòng đào tạo.

Đối tượng nên tham khảo luận văn

Nhà quản lý giáo dục đại học: Giúp hiểu rõ về ứng dụng công nghệ AI trong quản lý và hỗ trợ sinh viên, từ đó xây dựng các chính sách chuyển đổi số hiệu quả.
Nhà nghiên cứu và phát triển công nghệ AI: Cung cấp cơ sở lý thuyết và thực nghiệm về mô hình mạng nơ-ron sâu ứng dụng trong xử lý ngôn ngữ tự nhiên tiếng Việt.
Chuyên viên công nghệ thông tin tại các trường đại học: Hướng dẫn triển khai hệ thống trả lời tự động, cải thiện quy trình hỗ trợ sinh viên và nâng cao chất lượng dịch vụ.
Sinh viên ngành công nghệ thông tin và kỹ thuật phần mềm: Là tài liệu tham khảo quý giá về xây dựng hệ thống AI thực tế, từ lý thuyết đến ứng dụng, đặc biệt trong lĩnh vực xử lý ngôn ngữ tự nhiên.

Câu hỏi thường gặp

Hệ thống trả lời tự động có thể áp dụng cho những lĩnh vực nào ngoài giáo dục?
Hệ thống có thể mở rộng sang y tế, thương mại điện tử, dịch vụ khách hàng, hành chính công, nơi cần xử lý và trả lời nhanh các câu hỏi từ người dùng, giúp tiết kiệm nhân lực và nâng cao hiệu quả phục vụ.
Mô hình seq2seq có ưu điểm gì so với các phương pháp truyền thống?
Seq2seq cho phép xử lý chuỗi đầu vào và đầu ra linh hoạt, sinh ra câu trả lời mới thay vì chỉ chọn từ tập câu trả lời có sẵn, giúp hệ thống trả lời tự nhiên và phù hợp hơn với ngữ cảnh.
Làm thế nào để xử lý các câu hỏi phức tạp hoặc đa nghĩa trong tiếng Việt?
Cần mở rộng dữ liệu huấn luyện, áp dụng các mô hình ngôn ngữ tiên tiến như BERT, đồng thời tích hợp các thành phần phân tích ngữ cảnh và tri thức miền để nâng cao khả năng hiểu và trả lời chính xác.
Hệ thống có thể tự động học và cải thiện theo thời gian không?
Có thể, bằng cách thu thập phản hồi từ người dùng và dữ liệu mới, hệ thống được huấn luyện lại định kỳ để cải thiện độ chính xác và khả năng sinh câu trả lời phù hợp hơn.
Yêu cầu phần cứng và phần mềm để triển khai hệ thống là gì?
Cần máy chủ có GPU để huấn luyện mô hình deep learning, phần mềm như TensorFlow hoặc PyTorch, cùng với cơ sở dữ liệu lưu trữ câu hỏi và câu trả lời. Hệ thống cũng cần giao diện web thân thiện để người dùng tương tác.

Kết luận

Luận văn đã xây dựng thành công mô hình tự động phân luồng câu hỏi và trả lời trực tuyến dựa trên mạng nơ-ron LSTM theo kiến trúc seq2seq, phù hợp với đặc điểm ngôn ngữ tiếng Việt.
Hệ thống giúp nâng cao hiệu quả xử lý câu hỏi, tiết kiệm thời gian và nhân lực, đồng thời cải thiện chất lượng phục vụ sinh viên tại Trường Đại học Công nghiệp Hà Nội.
Kết quả nghiên cứu góp phần mở rộng ứng dụng AI trong giáo dục, đồng thời làm nền tảng cho các nghiên cứu tiếp theo về xử lý ngôn ngữ tự nhiên tiếng Việt.
Đề xuất mở rộng dữ liệu, cải tiến mô hình và tích hợp hệ thống vào môi trường thực tế để phát huy tối đa hiệu quả.
Khuyến khích các nhà quản lý, nhà nghiên cứu và chuyên viên công nghệ thông tin tham khảo và ứng dụng kết quả nghiên cứu nhằm thúc đẩy chuyển đổi số trong giáo dục đại học.

Hãy bắt đầu áp dụng các giải pháp AI tiên tiến để nâng cao chất lượng đào tạo và phục vụ sinh viên ngay hôm nay!

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRẢ LỜI TỰ ĐỘNG Bài toán xây dựng hệ thống tự động phân luồng và trả lời câu hỏi là một bài toán khó thuộc lĩnh vực xử lý ngôn ngữ tự nhiên. Chúng ta biết rằng ngôn ngữ tự nhiên vốn nhập nhằng, đa nghĩa, việc xác định được ngữ nghĩa của câu hỏi cũng như phát hiện ra câu trả lời là một thách thức không nhỏ. Giữa câu hỏi và câu trả lời còn tồn tại các mối quan hệ phụ thuộc vào ngữ cảnh. Bài toán đặt ra nhiều thách thức để tự động phân luồng câu hỏi và phát hiện ra được câu trả lời phù hợp nhất, thông tin hữu ích nhất.

Chương này sẽ giới thiệu tổng quan về hệ thống tự động phân luồng và trả lời câu hỏi, tìm hiểu các nghiên cứu ở trong và ngoài nước để thấy được tình hình nghiên cứu và các phương pháp tiếp cận của các nghiên cứu trước đây.1 Hệ thống trả lời tự động Hệ thống hỏi đáp tự động có thể coi như một lựa chọn thứ hai bên cạnh hệ thống truy tìm thông tin khi người dùng muốn tìm kiếm thông tin họ cần. Hệ thống dựa vào thông tin đầu vào là các từ khóa và trả về tập dữ liệu liên quan (có chứa các từ khóa đó). Kết quả mà hệ thống truy tìm thông tin (máy tìm kiếm) trả lại cho người dùng là rất lớn, có thể lên đến hàng nghìn trang web mà phần nhiều không chứa thông tin người dùng mong muốn. Trong khi đó, hệ thống hỏi đáp nhận đầu vào là câu hỏi dưới dạng ngôn ngữ tự nhiên của người dùng, trả lại các đoạn văn bản ngắn chứa câu trả lời trực tiếp cho câu hỏi hoặc chứa những thông tin sát với mong muốn của người dùng.

Nghiên cứu về hệ thống hỏi đáp tự động hiện đang thu hút sự quan tâm của rất nhiều các nhà nghiên cứu từ các trường đại học, các viện nghiên cứu và cả các doanh nghiệp lớn trong ngành công nghệ thông tin, có ý nghĩa khoa học lẫn ý nghĩa thực tế. Rất nhiều các hội nghị thường niên về khai phá dữ liệu, trích chọn thông tin dành một chủ đề riêng cho các nghiên cứu về hệ thống hỏi đáp như LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 TREC - Text REtrieval Conference , CLEF - The Cross-Language Evaluation Forum … Một trong những thách thức chính trong phát triển của hệ thống đối thoại người máy hướng nhiệm vụ, và trong việc mở rộng chúng trong nhiều miền ứng dụng, được nhắc đến trong [4], là sự sẵn có của dữ liệu trên một miền hội thoại cụ thể. Hệ thống đối thoại cần kết hợp và khai thác nhiều thành phần, ví dụ như nhận dạng giọng nói, hiểu ngôn ngữ tự nhiên, giám sát hội thoại, phát sinh ngôn ngữ tự nhiên, và mỗi thành phần này yêu cầu sẵn có nguồn dữ liệu trên miền cụ thể, tài nguyên và các mô hình. Bao gồm các mô hình ngôn ngữ, mô hình ngữ âm, mô hình hiểu ngôn ngữ, các miền bản thể học, các kịch bản tương tác, các khuôn mẫu phát sinh ngôn ngữ, … Mặc dù, nhiều vấn đề AI đã được hưởng lợi ích từ các nguồn dữ liệu ngày càng lớn, thu thập dữ liệu end-to-end cho các hệ thống đối thoại hướng nhiệm vụ vẫn còn là một vấn đề khó khăn.

Phương pháp tiếp cận hiện tại để thu thập dữ liệu thoại dẫn đến chi phí phát triển cao và tiêu tốn thời gian cho các nhà phát triển hệ thống. Trừ khi các nguồn lực bên ngoài đã có sẵn (không phải trường hợp cho hầu hết các lĩnh vực), trong miền tập dữ liệu yêu cầu phải có một hệ thống triển khai có khả năng duy trì một cuộc đối thoại với người dùng. Điều này dẫn đến một vấn đề khởi động: do thiếu dữ liệu để huấn luyện hệ thống ban đầu, các nhà phát triển hệ thống mang gánh nặng về việc phát triển văn phạm và các mô hình ngôn ngữ, hoặc là thủ công hoặc với các nghiên cứu Wizard-of-Oz. Thu thập dữ liệu hội thoại với phiên bản đầu tiên của một hệ thống được triển khai có thiếu sót: chất lượng dữ liệu thu thập có thể phải chịu những bất cập của hệ thống chính nó, và người dùng có thể chịu ảnh hưởng ngôn ngữ của chúng để điều chỉnh cho những khuyết điểm của hệ thống trong việc theo hết một cuộc đối thoại.

Kết quả là, tốc độ của tập dữ liệu có thể chậm hơn so với mong muốn. Cuối cùng, quá trình phát triển tốn kém này phải được lặp đi lặp lại trên một lần nữa cho mỗi miền hoặc hệ thống mới, hoặc ngay cả khi chức năng mới được thêm vào. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 Ritter và cộng sự (2010) [5] đã đề xuất phương pháp tiếp cận hướng dữ liệu cho việc xây dựng hệ thống đối thoại, và họ đã trích xuất ra 1,3 triệu cuộc hội thoại từ Twitter với mục đích là phát hiện ra các hành động trong cuộc hội thoại. Bằng việc xây dựng dựa trên sự tương đồng về phân phối trong khuôn khổ mô hình không gian vector, Banchs và Li (2012) [6] đã xây dựng một công cụ tìm kiếm để lấy câu trả lời thích hợp cho bất kỳ một thông điệp đầu vào.

Phương pháp tiếp cận khác tập trung vào nhiệm vụ trên một lĩnh vực cụ thể như các trò chơi [7], và các nhà hàng ăn uống (2016) [8,9]. Với sự ra đời của framework sequence-to-sequence [10], nhiều hệ thống huấn luyện gần đây đã sử dụng các mạng nơ-ron tái phát (RNN) để sinh ra các câu trả lời mới khi đưa vào mạng một câu hỏi hoặc một thông điệp. Ví dụ, Lê Viết Quốc và Vinyals [11] đã đề xuất sử dụng tập dữ liệu là lịch sử hỗ trợ kỹ thuật IT- help desk để huấn luyện mạng LSTM để sinh ra câu trả lời mới. Sordoni và cộng sự (2015) [12] đã xây dựng các cuộc đối thoại Twitter giới hạn bối cảnh lịch sử đến một thông điệp.

Với sự giúp đỡ của các mô hình ngôn ngữ được tiền huấn luyện, chúng mã hóa mỗi tin nhắn vào một vector đại diện. Để loại bỏ sự cần thiết cho một mô hình ngôn ngữ, Serban và cộng sự (2015) [13] đã thử huấn luyện end- to-end trên một mạng RNN. Họ cũng bắt đầu hệ thống của mình với các word embeddings đã được huấn luyện từ trước. Trong khi các hệ thống này có thể sản xuất ra các câu trả lời mới lạ, rất khó để hiểu được bao nhiêu khả năng được sử dụng bởi các mô hình ngôn ngữ tự nhiên so với việc mô hình hóa hội thoại đối thoại liền nhau.

Thông thường các phản ứng châu về các câu thường xuyên nhất được quan sát trong tập ngữ liệu được huấn luyện [14]. Việc xây dựng các chương trình trả lời tự động chatbots và conversational agents đã được theo đuổi bởi nhiều nhà nghiên cứu trong nhiều thập kỷ qua. Tuy nhiên, hầu hết các hệ thống hội thoại này đòi hỏi một quy trình xử lý khá phức tạp qua nhiều giai đoạn [15,16]. Hướng tiếp cận của chúng tôi khác với các hệ thống LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 thông thường bằng cách áp dụng mô hình sequence-to-sequence [10] để xây dựng một mô hình end-to-end cho vấn đề thiếu kiến thức miền.

Về nguyên tắc, nó có thể kết hợp với các hệ thống khác để ghi nhận một danh sách các đáp án ứng viên, nhưng mô hình của chúng tôi dựa trên việc sản sinh câu trả lời được đưa ra bởi một mô hình xác suất huấn luyện để cực đại hóa xác suất của câu trả lời trong một số ngữ cảnh. Đây là một hướng tiếp cận mới có nhiều triển vọng trong việc xây dựng một hệ thống đối thoại.2 Tình hình nghiên cứu trong và ngoài nước Hệ thống trả lời tự động đã được các nhà nghiên cứu quan tâm từ rất lâu rồi, bao gồm các trường đại học, các viện nghiên cứu và các doanh nghiệp. Việc nghiên cứu về hệ thống trả lời tự động có ý nghĩa trong khoa học và thực tế. Đã có rất nhiều các hội nghị thường niên về xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, xử lý dữ liệu lớn, tương tác người máy, … như đã nói ở trên (TREC, CLEF), tại Việt Nam có KSE, RIVF, ATC, … Theo ý tưởng của Russel và cộng sự [17], thì một hệ thống AI phải được kiểm tra (hành động dưới sự ràng buộc hình thức và phù hợp với các điều kiện kỹ thuật); phải được xác nhận (không theo đuổi các hành vi không mong muốn dưới sự ràng buộc trước); phải an toàn (ngăn chặn các thao tác có chủ ý của các bên thứ ba, hoặc bên ngoài hoặc bên trong); và phải được kiểm soát (con người cần phải có cách để thiết lập lại kiểm soát nếu cần thiết).

Việc thiết kế hệ thống đối thoại là một nhiệm vụ đầy thách thức và là một trong những mục tiêu ban đầu của trí tuệ nhân tạo (Turing, 1950) [18]. Trong nhiều thập kỷ, việc thiết kế tác nhân đối thoại đã giúp các hệ thống dựa trên cơ sở tri thức và cơ chế dựa trên luật Rule-based để hiểu các thông điệp đầu vào của con người và tạo ra các phản hồi đáp ứng hợp lý [19-21]. Phương pháp tiếp cận hướng dữ liệu nhấn mạnh vào việc học trực tiếp từ các tập ngữ liệu của các cuộc đối thoại tiếng nói hoặc văn bản chữ viết. Gần đây, phương pháp này đã đạt được bước tiến LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 15 lớn vì lợi thế dữ liệu phong phú [13], tăng sức mạnh tính toán, và các thuật toán học tốt hơn mà tự động hóa quá trình tính năng kỹ thuật [22,23].

Cá nhân hóa hệ thống đối thoại đòi hỏi phải đầy đủ thông tin, từ mỗi người dùng và số lượng mẫu đủ lớn để xác định được khoảng không gian. Các phong cách Viết định lượng bằng độ dài từ, độ mạnh của động từ, tính phân cực, và phân phối các hành vi đối thoại đã được sử dụng để mô hình hóa người dùng, bởi Walker 2012, [24]. Những nỗ lực khác tập trung vào việc xây dựng một hồ sơ người dùng dựa trên nhân khẩu học, chẳng hạn như: giới tính, thu nhập, tuổi tác và tình trạng hôn nhân, bởi Bonin 2014, [25]. Năm 2000, Carbonell và các đồng nghiệp trong bài báo The Vision Statement to Guide Research in Question Answering and Text Summarization [26] đã đưa ra các tư tưởng chung cho việc nghiên cứu trả lời tự động.

Theo đó một hệ thống hỏi đáp được người dùng đánh giá là hữu ích nếu đáp ứng được các tiêu chuẩn:  Tính hợp lý về thời gian (Timeliness): Câu trả lời phải được đưa ra trong thời gian ngắn, ngay cả khi có hàng ngàn người dùng cùng truy nhập hệ thống một lúc.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

ứng dụng trí tuệ nhân tạo trong NLP

xây dựng hệ thống hỏi đáp thông minh

nghiên cứu khoa học về chatbot

công nghệ AI trong giáo dục đại học