Nghiên Cứu Hệ Thống Trợ Lý Thông Minh Ảo

Luận văn thạc sĩ phân tích nghiên cứu hệ thống trợ lý thông minh ảo, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRỢ LÝ ẢO

1.1. Giới thiệu về hệ thống trợ lý ảo

1.2. Cấu trúc hệ thống trợ lý ảo

1.3. Nhận dạng giọng nói tự động (ASR - Automatic Speech Recognition)

1.4. Xử lý hình ảnh IMM (Image Matching)

1.5. Quản lý câu hỏi trả lời QA (Question-Answering)

1.5.1. Cấu tạo của quản lý câu hỏi

1.6. Xử lý ngôn ngữ tự nhiên trong Quản lý câu hỏi trả lời

1.6.1. Các mức của NLP

1.7. Ứng dụng NLP trong chatbot

1.7.1. Cấu tạo hệ thống chatbot

1.7.2. Cấu trúc hộp thoại chatbot

1.7.3. Xử lý dữ liệu trong chatbot

2. CHƯƠNG 2: MỘT SỐ KĨ THUẬT SỬ DỤNG TRONG TRỢ LÝ ẢO

2.1. Mạng học sâu DNNs

2.1.1. Khái nghiệm mạng học sâu

2.1.2. Xây dựng mô hình

2.1.3. Vấn đề và giải pháp khắc phục

2.2. Quản lý hội thoại

2.2.1. Mô hình quản lý dựa trên khung (Frame based dialog Agents)

2.2.2. Mô hình sinh hội thoại

2.2.2.1. Ý nghĩa chính của mô hình sinh hội thoại

2.2.3. Đặc điểm của mô hình hội thoại

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Phát triển bài toán

3.2. Chương trình thực nghiệm

3.2.1. Cấu trúc Api

3.2.2. Thành phần API

3.2.3. Mô hình xây dựng

3.2.4. Giao diện ứng dụng

3.3. Dữ liệu thực nghiệm

3.3.1. Mô hình hội thoại

3.3.2. Dữ liệu phân tích

3.3.3. Dữ liệu câu hỏi

3.4. Nhận xét và kết quả

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Nghiên cứu Hệ thống Trợ lý Thông minh Ảo

Hệ thống trợ lý thông minh ảo đang trở thành một phần quan trọng trong cuộc sống hiện đại. Tại Đại học Quốc gia Hà Nội, nghiên cứu về hệ thống này không chỉ giúp nâng cao hiểu biết về công nghệ mà còn mở ra nhiều cơ hội ứng dụng thực tiễn. Hệ thống trợ lý ảo sử dụng công nghệ AI để tương tác với người dùng, giúp họ thực hiện các tác vụ một cách hiệu quả hơn.

1.1. Định nghĩa và vai trò của hệ thống trợ lý ảo

Hệ thống trợ lý ảo là ứng dụng sử dụng công nghệ AI để hỗ trợ người dùng trong việc thực hiện các tác vụ hàng ngày. Chúng có thể nhận diện giọng nói, xử lý ngôn ngữ tự nhiên và cung cấp thông tin theo yêu cầu.

1.2. Lịch sử phát triển của hệ thống trợ lý ảo

Hệ thống trợ lý ảo đã trải qua nhiều giai đoạn phát triển từ những năm 1960 đến nay. Các công nghệ như nhận diện giọng nói và xử lý ngôn ngữ tự nhiên đã được cải tiến đáng kể, giúp hệ thống ngày càng thông minh hơn.

II. Thách thức trong Nghiên cứu Hệ thống Trợ lý Thông minh Ảo

Mặc dù có nhiều tiến bộ, nhưng việc phát triển hệ thống trợ lý thông minh ảo vẫn gặp phải nhiều thách thức. Các vấn đề như độ chính xác trong nhận diện giọng nói, khả năng hiểu ngữ nghĩa và sự tương tác tự nhiên vẫn cần được cải thiện.

2.1. Độ chính xác trong nhận diện giọng nói

Độ chính xác của hệ thống nhận diện giọng nói vẫn là một vấn đề lớn. Nhiều yếu tố như ngữ điệu, âm thanh nền có thể ảnh hưởng đến khả năng nhận diện của hệ thống.

2.2. Khả năng hiểu ngữ nghĩa

Hệ thống cần phải hiểu được ngữ nghĩa của câu hỏi để đưa ra câu trả lời chính xác. Việc này đòi hỏi các thuật toán xử lý ngôn ngữ tự nhiên phải được cải tiến liên tục.

III. Phương pháp Nghiên cứu Hệ thống Trợ lý Thông minh Ảo

Để phát triển hệ thống trợ lý thông minh ảo, nhiều phương pháp nghiên cứu đã được áp dụng. Các phương pháp này bao gồm việc sử dụng mạng nơ-ron sâu, xử lý ngôn ngữ tự nhiên và các kỹ thuật học máy.

3.1. Sử dụng mạng nơ ron sâu trong phát triển

Mạng nơ-ron sâu (DNN) đã được chứng minh là có khả năng xử lý thông tin tốt hơn so với các mô hình truyền thống. Chúng giúp cải thiện độ chính xác trong nhận diện giọng nói và xử lý ngôn ngữ tự nhiên.

3.2. Ứng dụng xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là một phần quan trọng trong việc phát triển hệ thống trợ lý ảo. Nó giúp hệ thống hiểu và phân tích ngôn ngữ của người dùng một cách hiệu quả.

IV. Ứng dụng thực tiễn của Hệ thống Trợ lý Thông minh Ảo

Hệ thống trợ lý thông minh ảo đã được áp dụng rộng rãi trong nhiều lĩnh vực như giáo dục, y tế và dịch vụ khách hàng. Chúng giúp nâng cao hiệu quả công việc và cải thiện trải nghiệm người dùng.

4.1. Ứng dụng trong giáo dục

Trong giáo dục, hệ thống trợ lý ảo có thể hỗ trợ học sinh trong việc tìm kiếm thông tin và giải đáp thắc mắc. Điều này giúp nâng cao chất lượng học tập.

4.2. Ứng dụng trong dịch vụ khách hàng

Hệ thống trợ lý ảo được sử dụng để cải thiện dịch vụ khách hàng. Chúng có thể trả lời câu hỏi và hỗ trợ khách hàng 24/7, giúp tiết kiệm thời gian và chi phí.

V. Kết luận và Tương lai của Hệ thống Trợ lý Thông minh Ảo

Hệ thống trợ lý thông minh ảo đang trên đà phát triển mạnh mẽ. Tương lai của công nghệ này hứa hẹn sẽ mang lại nhiều cải tiến và ứng dụng mới, giúp con người tương tác với máy móc một cách tự nhiên hơn.

5.1. Xu hướng phát triển trong tương lai

Trong tương lai, hệ thống trợ lý ảo sẽ ngày càng thông minh hơn với khả năng học hỏi và thích nghi tốt hơn với nhu cầu của người dùng.

5.2. Tác động đến xã hội

Sự phát triển của hệ thống trợ lý thông minh ảo sẽ có tác động lớn đến xã hội, từ cách con người làm việc đến cách họ tương tác với công nghệ.

30/06/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu hệ thống trợ lý thông minh ảo

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh trí tuệ nhân tạo (AI) phát triển mạnh mẽ, hệ thống trợ lý ảo thông minh (Intelligent Personal Assistants - IPA) đã trở thành một lĩnh vực nghiên cứu và ứng dụng quan trọng, được các tập đoàn công nghệ hàng đầu như Apple, Google, Microsoft đầu tư phát triển. Theo báo cáo ngành, các IPA như Siri, Google Now, Cortana đã được triển khai rộng rãi trên các nền tảng di động phổ biến, góp phần nâng cao trải nghiệm người dùng thông qua tương tác bằng giọng nói, hình ảnh và văn bản. Mục tiêu của nghiên cứu là xây dựng và phát triển một hệ thống trợ lý ảo thông minh phù hợp với ngôn ngữ và văn hóa Việt Nam, nhằm hỗ trợ người dùng trong các tác vụ giao tiếp tự nhiên, đặc biệt trong lĩnh vực đặt đồ ăn trực tuyến.

Phạm vi nghiên cứu tập trung vào việc phát triển hệ thống trợ lý ảo trên nền tảng iOS, sử dụng công nghệ mạng học sâu (Deep Neural Networks - DNN) và các kỹ thuật xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) trong khoảng thời gian từ năm 2016 đến 2017 tại Việt Nam. Nghiên cứu có ý nghĩa quan trọng trong việc thúc đẩy ứng dụng AI vào thực tiễn, giúp các doanh nghiệp nhỏ và vừa nâng cao hiệu quả kinh doanh, giảm chi phí nhân sự và cải thiện trải nghiệm khách hàng thông qua tự động hóa giao tiếp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính: mạng học sâu (Deep Neural Networks - DNN) và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). DNN được sử dụng để xây dựng mô hình nhận dạng giọng nói và xử lý hội thoại, trong đó mô hình Long Short-Term Memory (LSTM) và mạng nơ-ron tái phát (Recurrent Neural Network - RNN) đóng vai trò quan trọng trong việc xử lý chuỗi dữ liệu đầu vào và đầu ra có độ dài biến đổi. LSTM giúp khắc phục vấn đề mất mát thông tin trong các chuỗi dài, nâng cao độ chính xác của mô hình.

Về NLP, nghiên cứu áp dụng các mức phân tích ngôn ngữ từ ngữ âm học, hình thái học, từ vựng học, cú pháp, ngữ nghĩa đến thực dụng nhằm hiểu và xử lý ngôn ngữ tự nhiên của người dùng. Các kỹ thuật như phân loại truy vấn (Query Classifier), trích xuất thông tin, và quản lý hội thoại dựa trên mô hình khung (Frame-based Dialog Agents) được tích hợp để xây dựng hệ thống chatbot có khả năng tương tác linh hoạt và chính xác.

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm các tập hội thoại tiếng Việt thu thập từ thực tế, dữ liệu huấn luyện chatbot với hơn 200 câu hỏi và phản hồi, cùng dữ liệu hình ảnh và âm thanh được xử lý qua các mô-đun ASR (Automatic Speech Recognition) và IMM (Image Matching). Cỡ mẫu thử nghiệm gồm 5 lần thử nghiệm với mỗi lần 50 câu hỏi ngẫu nhiên, tổng cộng 250 câu hỏi được sử dụng để đánh giá hiệu quả hệ thống.

Phương pháp phân tích sử dụng kỹ thuật học máy giám sát với mạng DNN, kết hợp xử lý ngôn ngữ tự nhiên để phân tích ý định người dùng và trích xuất thông tin cần thiết. Quá trình nghiên cứu được thực hiện trong vòng 12 tháng, bao gồm giai đoạn xây dựng mô hình, huấn luyện dữ liệu, phát triển giao diện người dùng trên nền tảng iOS và đánh giá hiệu quả qua các thử nghiệm thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng và trả lời câu hỏi tăng dần qua các lần huấn luyện: Kết quả thử nghiệm cho thấy độ chính xác của chatbot trong việc trả lời câu hỏi tăng từ 56% ở lần đầu tiên lên đến 82% ở lần thứ năm, minh chứng cho hiệu quả của việc huấn luyện liên tục và mở rộng dữ liệu.
Khả năng xử lý đa dạng đầu vào: Hệ thống hỗ trợ đầu vào bằng giọng nói, văn bản và hình ảnh, trong đó công nghệ ASR giúp chuyển đổi giọng nói thành văn bản với độ chính xác cao, còn kỹ thuật IMM cho phép nhận dạng và trả lời dựa trên hình ảnh đầu vào.
Ứng dụng mô hình quản lý hội thoại dựa trên khung: Việc sử dụng Frame-based Dialog Agents giúp chatbot quản lý các cuộc hội thoại phức tạp, xử lý nhiều yêu cầu trong cùng một phiên làm việc, nâng cao trải nghiệm người dùng.
Hạn chế trong xử lý các câu hỏi phức tạp và chưa được huấn luyện: Một số câu hỏi ngoài phạm vi dữ liệu huấn luyện hoặc có nội dung phức tạp vẫn chưa được chatbot trả lời chính xác, chiếm khoảng 18-22% trong các thử nghiệm cuối cùng.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do quá trình huấn luyện liên tục với dữ liệu phong phú hơn, giúp mô hình học sâu DNN và LSTM hiểu rõ hơn về ngữ cảnh và ý định người dùng. So sánh với các nghiên cứu tương tự trên thế giới, kết quả này phù hợp với xu hướng phát triển chatbot dựa trên mạng học sâu, cho thấy khả năng áp dụng hiệu quả công nghệ AI vào ngôn ngữ tiếng Việt.

Biểu đồ thể hiện sự tăng trưởng độ chính xác qua các lần huấn luyện sẽ minh họa rõ nét quá trình cải thiện hiệu suất của hệ thống. Bảng phân tích dữ liệu câu hỏi và phản hồi cũng cho thấy sự đa dạng trong các chủ đề được chatbot xử lý, từ đặt đồ ăn, hỏi về thời tiết đến các yêu cầu về địa điểm.

Tuy nhiên, việc chatbot chưa thể xử lý tốt các câu hỏi phức tạp hoặc chưa được huấn luyện cho thấy cần mở rộng thêm dữ liệu huấn luyện và cải tiến mô hình để nâng cao khả năng hiểu ngữ cảnh sâu hơn. Điều này cũng phù hợp với các nghiên cứu khác, nhấn mạnh tầm quan trọng của dữ liệu chất lượng và đa dạng trong phát triển hệ thống trợ lý ảo.

Đề xuất và khuyến nghị

Mở rộng và đa dạng hóa dữ liệu huấn luyện: Tăng cường thu thập dữ liệu hội thoại thực tế, bao gồm các tình huống phức tạp và đa dạng chủ đề nhằm nâng cao độ chính xác và khả năng xử lý ngữ cảnh của chatbot trong vòng 6-12 tháng, do nhóm phát triển và cộng tác viên thực hiện.
Phát triển framework độc lập: Xây dựng framework riêng cho hệ thống trợ lý ảo không phụ thuộc hoàn toàn vào nền tảng API.AI, giúp tăng tính linh hoạt và kiểm soát dữ liệu, dự kiến hoàn thành trong 12-18 tháng, do nhóm kỹ thuật chủ trì.
Nâng cấp giao diện người dùng: Thiết kế giao diện thân thiện, hỗ trợ đa nền tảng và tích hợp thêm các tính năng như nhận dạng hình ảnh và địa điểm chính xác hơn, nhằm cải thiện trải nghiệm người dùng trong 6 tháng tới, do bộ phận thiết kế và phát triển ứng dụng đảm nhiệm.
Tối ưu hóa mô hình học sâu: Áp dụng các kỹ thuật học sâu tiên tiến hơn như attention mechanism, transformer để cải thiện khả năng hiểu và sinh hội thoại, giảm thiểu lỗi trả lời sai, thực hiện trong 12 tháng, do nhóm nghiên cứu AI thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Trí tuệ nhân tạo: Luận văn cung cấp kiến thức sâu về mạng học sâu, xử lý ngôn ngữ tự nhiên và xây dựng hệ thống trợ lý ảo, hỗ trợ nghiên cứu và phát triển các ứng dụng AI.
Doanh nghiệp phát triển phần mềm và ứng dụng chatbot: Các công ty có thể áp dụng mô hình và phương pháp huấn luyện chatbot để phát triển sản phẩm hỗ trợ khách hàng tự động, tiết kiệm chi phí nhân sự.
Người làm trong lĩnh vực thương mại điện tử và dịch vụ ăn uống: Hệ thống trợ lý ảo giúp tự động hóa quy trình đặt hàng, nâng cao trải nghiệm khách hàng và tăng hiệu quả kinh doanh.
Chuyên gia phát triển giao diện người dùng và trải nghiệm người dùng (UI/UX): Tham khảo cách thiết kế giao diện tương tác đa phương thức (giọng nói, văn bản, hình ảnh) để cải thiện tính tiện dụng và hấp dẫn của ứng dụng.

Câu hỏi thường gặp

Hệ thống trợ lý ảo thông minh là gì?
Hệ thống trợ lý ảo thông minh là ứng dụng AI cho phép người dùng tương tác bằng giọng nói, văn bản hoặc hình ảnh để thực hiện các tác vụ như trả lời câu hỏi, đặt hàng, tìm kiếm thông tin. Ví dụ như Siri, Google Now.
Mạng học sâu DNN có vai trò gì trong trợ lý ảo?
DNN giúp mô hình hóa và nhận dạng các mẫu phức tạp trong dữ liệu đầu vào như giọng nói và văn bản, nâng cao độ chính xác trong nhận dạng và phản hồi, đặc biệt khi kết hợp với LSTM để xử lý chuỗi dữ liệu.
Làm thế nào để chatbot hiểu được ý định người dùng?
Chatbot sử dụng kỹ thuật phân loại truy vấn (Query Classifier) và trích xuất thông tin dựa trên NLP để xác định mục đích và các thông tin cần thiết từ câu hỏi của người dùng, từ đó đưa ra phản hồi phù hợp.
Tại sao cần huấn luyện chatbot nhiều lần?
Việc huấn luyện nhiều lần giúp chatbot học thêm các mẫu câu mới, cải thiện khả năng hiểu và trả lời chính xác hơn, đồng thời giảm tỷ lệ trả lời sai hoặc không hiểu câu hỏi.
Hệ thống trợ lý ảo có thể áp dụng trong những lĩnh vực nào?
Ngoài thương mại điện tử và dịch vụ ăn uống, trợ lý ảo còn được ứng dụng trong y tế, giáo dục, hỗ trợ khách hàng, quản lý lịch trình và nhiều lĩnh vực khác nhằm tự động hóa và nâng cao hiệu quả công việc.

Kết luận

Nghiên cứu đã làm rõ cấu trúc và các mô-đun chính của hệ thống trợ lý ảo thông minh, bao gồm xử lý giọng nói, hình ảnh và quản lý hội thoại.
Ứng dụng mạng học sâu DNN và mô hình LSTM giúp nâng cao hiệu quả nhận dạng và xử lý ngôn ngữ tự nhiên trong chatbot.
Hệ thống chatbot đặt đồ ăn được xây dựng và thử nghiệm trên nền tảng iOS với độ chính xác đạt tới 82% sau nhiều lần huấn luyện.
Các hạn chế hiện tại như xử lý câu hỏi phức tạp và dữ liệu chưa đa dạng được xác định rõ, làm cơ sở cho các hướng phát triển tiếp theo.
Định hướng nghiên cứu tiếp theo tập trung vào mở rộng dữ liệu, phát triển framework độc lập và nâng cấp mô hình học sâu để tạo ra trợ lý ảo thông minh hơn, phù hợp với nhiều ứng dụng thực tiễn.

Để tiếp tục phát triển hệ thống trợ lý ảo, các nhà nghiên cứu và phát triển được khuyến khích áp dụng các giải pháp đề xuất, đồng thời mở rộng hợp tác để thu thập dữ liệu và thử nghiệm thực tế. Hành động ngay hôm nay sẽ giúp đẩy nhanh tiến trình ứng dụng AI vào đời sống và kinh doanh tại Việt Nam.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRỢ LÝ ẢO 1. Giới thiệu về hệ thống trợ lý ảo Siri của Apple [1], Google Now của Google [2] và Cortana của Microsoft [3] đại diện cho một lớp dịch vụ web mới nổi gọi là các Ứng dụng Hỗ trợ Cá nhân Thông minh (Intelligent Personal Assistants - IPA). IPA là một ứng dụng sử dụng các yếu tố đầu vào như tiếng nói, hình ảnh và thông tin theo ngữ cảnh của người dùng để hỗ trợ bằng cách trả lời các câu hỏi bằng ngôn ngữ tự nhiên, đưa ra khuyến nghị và hành động. Các IPA đang nổi lên là một trong những dịch vụ Internet phát triển nhanh nhất vì gần đây họ đã triển khai trên các nền tảng nổi tiếng như iOS, Android và Windows Phone, làm cho chúng phổ biến trên các thiết bị di động trên toàn thế giới.

Sử dụng IPAs đang gia tăng nhanh chóng với các sản phẩm mới nhất trong các công nghệ có thể đeo như đồng hồ thông minh và kính thông minh. Sự tăng trưởng thị phần này, cùng với việc thiết kế các sản phẩm đeo có thể phụ thuộc nhiều vào đầu vào hình ảnh và giọng nói, cho thấy nhu cầu sử dụng dịch vụ IPA đang tăng lên nhanh chóng. IPA khác với nhiều khối lượng công việc dịch vụ web hiện có trong các máy tính có quy mô lớn (WSCs). Ngược lại với các truy vấn của các dịch vụ trung tâm duyệt web, luồng truy vấn IPA thông qua các thành phần phần mềm thúc đẩy những tiến bộ gần đây trong nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và tầm nhìn máy tính để cung cấp cho người dùng một câu hỏi dựa trên câu hỏi và hệ thống trả lời.

Do cường độ tính toán của các thành phần này và các mô hình dữ liệu dựa trên mô hình mà họ sử dụng, các nhà cung cấp dịch vụ yêu cầu tính toán trong các nền tảng trung tâm dữ liệu lớn thay cho việc tính toán trên các thiết bị di động. Cách tiếp cận giảm tải này được sử dụng bởi cả Siri của Apple lẫn Google Now của Google khi họ gửi các bản ghi nén lệnh truy vấn bằng giọng nói tới các trung tâm dữ liệu để nhận dạng tiếng nói và khai thác ngữ nghĩa. Sự tương tác giữa thiết bị thông minh với con người không còn nằm ở việc gõ văn bản mà giờ là cả hình ảnh lẫn giọng nói, để đáp ứng được nhu cầu ngày càng cao của trải nghiệm người dùng, các hãng công nghệ thông tin lớn đang ngày càng đầu tư mạnh vào hệ thống trợ lý thông minh ảo. Cấu trúc hệ thống trợ lý ảo Để hiểu một hệ thống trợ lý ảo hoạt động như thế nào, cần phải hiểu được cấu trúc và cấu tạo của một hệ thống trợ lý ảo.

Sơ đồ của một hệ thống trợ lý ảo: Hình 1.1: Sơ đồ hệ thống trợ lý ảo Dựa trên hình 1.1 [7], có thể thấy cấu tạo của một hệ thống trợ lý ảo bao gồm 2 khối: khối người dung (user) có đầu vào là ảnh, giọng nói, văn bản và khối xử lý dữ liệu (server) gồm các khối xử lý hình ảnh, âm thanh, văn bản, khối quản lý hội thoại. Truy vấn bắt đầu bằng giọng nói, văn bản, hình ảnh của người dung thiết bị thông minh như điện thoại, thiết bị đeo, kính thông minh. Các file nén hình ảnh, âm thanh hoặc văn bản được gửi tới máy chủ để xử lý. Với giọng nói được xử lý bằng giao diện ASR (Automatic Speech Recognition) chuyển câu hỏi nói của người dùng sang văn bản tương đương bằng mô hình thống kê.

Sau đó văn bản đi qua trình phân loại truy vấn (Query Classifier - QC) quyết định xem bài phát biểu có phải là hành động hay câu hỏi không. Nếu đó là hành động, lệnh sẽ được gửi lại cho thiết bị di động để thực hiện. Nếu không, thì hệ thống sẽ hiểu là câu hỏi bằng văn bản thuần tuý. Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên NLP (Natural Language Processing), dịch vụ câu hỏi trả lời QA (Question-Answering) sẽ trích xuất thông tin từ đầu vào, tìm kiếm cơ sở dữ liệu của nó và chọn câu trả lời tốt nhất để trả lại cho người dùng.

Nếu là một hình ảnh đi kèm với đầu vào giọng nói, hệ thống sẽ sử dụng kỹ thuật thị giác máy tính để cố gắng phù hợp với hình ảnh đầu vào cơ sở dữ liệu hình ảnh của mình và trả về thông tin có liên quan với hình ảnh đó. Nhận dạng giọng nói tự động (ASR - Automatic Speech Recognition) Khối nhận dạng giọng nói tự động là khối đầu vào giúp người dùng tương tác với trợ lý ảo bằng giọng nói. Các đầu vào cho ASR [9] là các vector đặc trưng đại diện cho đoạn nói, được tạo ra bời quá trình tiền xử lý nhanh và trích xuất đặc tính của bài phát 3 biểu. Thành phần của ASR dựa vào sự kết hợp của mô hình Hidden Markov (HMM) và một mô hình hỗ hợp Gaussian (GMM) hoặc một mạng nơ-ron sâu (DNN).

HMM xây dựng một cây các trạng thái cho khung lời nói hiện tại sử dụng vector tính năng đầu vào. GMM hoặc DNN đánh giá xác suất của sự chuyển đổi trạng thái trong cây, và thuật toán Viterbi sau đó tìm kiếm con đường có nhiều khả năng nhất dựa trên các điểm này. Đường dẫn có xác suất cao nhất thể hiện kết xuất văn bản cuối cùng. Điểm GMM đánh giá HMM trạng thái chuyển tiếp bằng cách ánh xạ một vector đối tượng đầu vào vào một hệ toạ độ đa chiều và lặp lại điểm số các đặc tính chống lại mô hình âm thanh được đào tạo.

DNN điểm số sử dụng xác suất từ một mạng thần kinh. Độ sâu của DNN được xác định bởi số lớp ẩn mà số điểm cho một chuyển tiếp đi qua mạng. Trong luận văn sẽ nghiên cứu chủ yếu về DNN vì nó có độ chính xác cao hơn.2: Sơ đồ xử lý âm thanh 1. Xử lý hình ảnh IMM (Image Matching) Khối xử lý hình ảnh IMM là khối giúp người dùng tương tác với hệ thống trợ lý ảo thông qua hình ảnh.

Khi người dùng muốn hỏi trợ lý ảo về một hình nào đó chẳng hạn bông hoa hồng thì hệ thống trợ lý ảo sẽ xử lý dữ liệu hình ảnh đầu vào và cung cấp đầu ra là thông tin về hình ảnh đó. Từ dữ liệu hình ảnh đưa vào hệ thống sẽ cố gắng tìm kiếm hình ảnh trong cơ sở dữ liệu trước khi chế biến và trả về thông tinh về kết hợp hình ảnh. Cơ sở dữ liệu được sử dụng trong hệ thống là cơ sở dữ liệu Mobile Visual Search. Các điểm chính của hình ảnh được rút ra lần đầu tiên từ hình ảnh đầu vào sử dụng thuật toán SURF [7].

Trong tính năng chiết xuất (FE), hình ảnh được lấy mẫu và xáo lộn nhiều lần để tìm các điểm thú vị ở các quy mô khác nhau. Khi ngưỡng đáp ứng lưu trữ các điểm chính của hình ảnh, các điểm then chốt được chuyển tới bộ phận mô tả tính năng (FD), nơi chúng được chỉ định một vector định hướng và các điểm chính được định hướng tương tự được nhóm thành các bộ mô tả tính năng. Quá trình này làm giảm sự biến đổi 4 giữa các hình ảnh đầu vào, tăng cơ hội tìm kiếm sự kết hợp chính xác. Bộ mô tả từ hình ảnh đầu vào được đối sánh với bộ mô tả nhóm trước đại diện cho các hình ảnh cơ sở dữ liệu bằng cách sử dụng tìm kiếm gần nhất (ANN), hình ảnh cơ sở dữ liệu với số lượng lớn nhất của cơ sở được trả lại.3: Sơ đồ xử lý hình ảnh 1.

Quản lý câu hỏi trả lời QA (Question-Answering) 1. Cấu tạo của quản lý câu hỏi Khối quản lý câu hỏi trả lời là khối xử lý dữ liệu tương tác ở trong hệ thống trợ lý ảo. khi người dùng hỏi hệ thống trợ lý ảo thì nó sẽ lấy dữ liệu từ khối QA để đưa ra câu trả lời phù hợp. Văn bản được xuất ra từ ASR hoặc nhập trực tiếp được chuyển đến OpenEphyra (OE) sử dụng ba quy trình cốt lõi đẻ trích xuất thông tin văn bản, bắt nguồn từ, kết hợp cụm từ thông dụng, và gắn thẻ theo từng thành phần của văn bản [7].

Hình dưới mô tả sơ đồ OE kết hợp thành phần này, tạo ra các truy vấn tìm kiếm web và lọc các kết quả trả về. Thuật toán Porter (stemmer) phơi bày gốc của một từ bằng cách kết hợp và cắt ngắn các từ thông dụng. OE cũng sử dụng một bộ mẫu biểu thức chính quy để đối sánh các từ truy vấn chung (như cái gì, ở đâu …) và lọc bất kỳ ký tự đặc biệt nào trong đầu vào. Trình phân loại ngẫu nhiên (CRF) lấy một câu, vị trí của mỗi từ trong câu và nhãn các từ hiện tại và trước đó làm đầu vào để đưa ra các dự đoán về phần nói của từng từ của một truy vấn đầu vào.

Mỗi truy vấn đầu vào được phân tích cú pháp bằng cách sử dụng các thành phần nói trên để tạo truy vấn cho công cụ tìm kiếm. Tiếp theo, các bộ lọc sử dụng các kỹ thuật tương tự được sử dụng để lấy thông tin từ các tài liệu trả về; tài liệu với điểm tổng thể cao nhất sau khi tổng hợp số điểm được trả về là câu trả lời hay nhất.4: Quản lý câu hỏi trả lời 1. Xử lý ngôn ngữ tự nhiên trong Quản lý câu hỏi trả lời Theo Wikipedia, NLP (Natural Language Processing) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp.

Theo cách hiểu thì có thể hiểu xử lý ngôn ngữ tự nhiên [6] là một phạm vi lý thuyết các kỹ thuật tính toán để phân tích và mô tả các văn bản xảy ra tự nhiên ở một hoặc nhiều mức độ phân tích ngôn ngữ theo yêu cầu của con người mong muốn. Mục tiêu của NLP là nhằm thể hiện ý nghĩa thực sự và ý định của người dùng khi thao tác dữ liệu. Điển hình ứng dụng NLP: - Giải thích văn bản đầu vào - Dịch văn bản sang một ngôn ngữ khác - Trả lời các câu hỏi về nội dung của một văn bản - Thu thập các suy luận từ văn bản 1. Các mức của NLP - Ngữ âm học: mức này liên quan tới việc giải thích các âm thanh nói trong và giữa các từ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên Cứu Hệ Thống Trợ Lý Thông Minh Ảo Tại Đại Học Quốc Gia Hà Nội" khám phá các ứng dụng và lợi ích của hệ thống trợ lý thông minh trong môi trường học thuật. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về cách mà công nghệ AI có thể hỗ trợ việc học tập và nghiên cứu, mà còn nhấn mạnh tầm quan trọng của việc tích hợp các công nghệ mới vào quy trình giáo dục. Độc giả sẽ tìm thấy những thông tin hữu ích về cách mà hệ thống này có thể cải thiện trải nghiệm học tập, tăng cường khả năng tiếp cận thông tin và hỗ trợ sinh viên trong việc quản lý thời gian và tài nguyên học tập.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ trong giáo dục và hỗ trợ người dùng, bạn có thể tham khảo các tài liệu liên quan như A multifunctional embedded system based on deep learning for assisting the cognition of visually impaired people, nơi nghiên cứu về các hệ thống hỗ trợ cho người khiếm thị, hoặc Luận văn nghiên cứu xây dựng chatbot hỏi đáp thông tin khách sạn sử dụng rasa framework, tài liệu này cung cấp cái nhìn về việc phát triển chatbot trong lĩnh vực dịch vụ. Cuối cùng, bạn cũng có thể tìm hiểu thêm về Luận văn các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng việt của hệ thống fscanner, giúp bạn hiểu rõ hơn về các kỹ thuật xử lý ngôn ngữ tự nhiên trong giáo dục. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng công nghệ trong giáo dục và nghiên cứu.

#trí tuệ nhân tạo

#Đại học Quốc gia Hà Nội

#Nghiên cứu công nghệ

#phát triển phần mềm

#ứng dụng AI trong giáo dục

#học máy và AI

Chủ đề

Công nghệ thông tin và giáo dục

Nghiên cứu và phát triển AI

Trí tuệ nhân tạo trong cuộc sống

Hệ thống trợ lý ảo trong học tập