Luận văn thạc sĩ: Nghiên cứu hệ thống trợ lý thông minh ảo trong lĩnh vực máy tính

Luận văn phân tích hệ thống trợ lý thông minh ảo trong luận văn thạc sĩ máy tính, vận dụng lý thuyết vững chắc, đề xuất giải pháp sáng tạo cho chuyên

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRỢ LÝ ẢO

1.1. Giới thiệu về hệ thống trợ lý ảo

1.2. Cấu trúc hệ thống trợ lý ảo

1.3. Nhận dạng giọng nói tự động (ASR - Automatic Speech Recognition)

1.4. Xử lý hình ảnh IMM (Image Matching)

1.5. Quản lý câu hỏi trả lời QA (Question-Answering)

1.5.1. Cấu tạo của quản lý câu hỏi

1.5.2. Xử lý ngôn ngữ tự nhiên trong Quản lý câu hỏi trả lời

1.5.2.1. Các mức của NLP

1.5.2.2. Ứng dụng NLP trong chatbot

1.5.2.2.1. Cấu tạo hệ thống chatbot

2. CHƯƠNG 2: MỘT SỐ KĨ THUẬT SỬ DỤNG TRONG TRỢ LÝ ẢO

2.1. Mạng học sâu DNNs

2.1.1. Khái niệm mạng học sâu

2.1.2. Xây dựng mô hình. Vấn đề và giải pháp khắc phục

2.2. Quản lý hội thoại

2.2.1. Mô hình quản lý dựa trên khung (Frame based dialog Agents)

2.2.2. Mô hình sinh hội thoại

2.2.3. Ý nghĩa chính của mô hình sinh hội thoại

2.2.4. Đặc điểm của mô hình hội thoại

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Phát triển bài toán

3.2. Chương trình thực nghiệm

3.2.1. Cấu trúc Api. Thành phần API. Mô hình xây dựng

3.3. Giao diện ứng dụng

3.4. Dữ liệu thực nghiệm. Mô hình hội thoại

3.5. Dữ liệu phân tích

3.6. Dữ liệu câu hỏi

3.7. Nhận xét và kết quả

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về hệ thống trợ lý ảo

Hệ thống trợ lý ảo, như Siri của Apple, Google Now của Google và Cortana của Microsoft, đại diện cho một lớp dịch vụ web mới gọi là Ứng dụng Hỗ trợ Cá nhân Thông minh (Intelligent Personal Assistants - IPA). Các IPA sử dụng các yếu tố đầu vào như tiếng nói, hình ảnh và thông tin theo ngữ cảnh của người dùng để hỗ trợ bằng cách trả lời các câu hỏi bằng ngôn ngữ tự nhiên, đưa ra khuyến nghị và hành động. Sự phát triển nhanh chóng của IPA cho thấy nhu cầu sử dụng dịch vụ này đang gia tăng, đặc biệt trên các nền tảng di động. Theo một nghiên cứu, việc sử dụng IPA đã tăng lên đáng kể nhờ vào sự phát triển của công nghệ nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên. Điều này cho phép người dùng tương tác với thiết bị thông minh một cách tự nhiên hơn, không chỉ qua văn bản mà còn qua hình ảnh và giọng nói. Sự tương tác này không chỉ giúp tiết kiệm thời gian mà còn nâng cao trải nghiệm người dùng, cho thấy tầm quan trọng của công nghệ thông tin trong việc phát triển các hệ thống trợ lý thông minh ảo.

II. Cấu trúc hệ thống trợ lý ảo

Cấu trúc của một hệ thống trợ lý ảo bao gồm hai khối chính: khối người dùng và khối xử lý dữ liệu. Khối người dùng nhận đầu vào từ giọng nói, văn bản và hình ảnh, trong khi khối xử lý dữ liệu thực hiện các tác vụ như nhận dạng giọng nói tự động (ASR), xử lý hình ảnh và quản lý hội thoại. Quá trình bắt đầu khi người dùng gửi yêu cầu qua giọng nói hoặc văn bản. Yêu cầu này được chuyển đến máy chủ để xử lý. ASR chuyển đổi giọng nói thành văn bản, sau đó văn bản này được phân loại để xác định xem đó là hành động hay câu hỏi. Nếu là câu hỏi, hệ thống sẽ sử dụng xử lý ngôn ngữ tự nhiên (NLP) để trích xuất thông tin và tìm kiếm câu trả lời từ cơ sở dữ liệu. Điều này cho thấy sự phức tạp và tính hiệu quả của các hệ thống trợ lý ảo trong việc đáp ứng nhu cầu của người dùng.

III. Nhận dạng giọng nói tự động ASR

Khối nhận dạng giọng nói tự động (ASR) là thành phần quan trọng giúp người dùng tương tác với trợ lý ảo thông qua giọng nói. ASR sử dụng các vector đặc trưng để đại diện cho đoạn nói, được tạo ra từ quá trình tiền xử lý và trích xuất đặc tính. Thành phần của ASR thường dựa vào sự kết hợp của mô hình Hidden Markov (HMM) và mô hình hỗn hợp Gaussian (GMM) hoặc mạng nơ-ron sâu (DNN). HMM xây dựng một cây trạng thái cho khung lời nói hiện tại, trong khi GMM hoặc DNN đánh giá xác suất của sự chuyển đổi trạng thái. Việc sử dụng DNN trong ASR đã cho thấy độ chính xác cao hơn, giúp cải thiện khả năng nhận diện giọng nói trong các ứng dụng thực tế. Điều này chứng tỏ rằng công nghệ nhận dạng giọng nói đang ngày càng trở nên quan trọng trong việc phát triển các hệ thống trợ lý thông minh.

IV. Xử lý hình ảnh IMM Image Matching

Khối xử lý hình ảnh IMM cho phép người dùng tương tác với hệ thống trợ lý ảo thông qua hình ảnh. Khi người dùng muốn hỏi về một hình ảnh cụ thể, hệ thống sẽ xử lý dữ liệu hình ảnh đầu vào và cung cấp đầu ra là thông tin liên quan. Quá trình này bắt đầu bằng việc trích xuất các điểm chính từ hình ảnh đầu vào sử dụng thuật toán SURF. Các điểm chính này sau đó được nhóm thành các bộ mô tả tính năng và so sánh với cơ sở dữ liệu hình ảnh. Việc sử dụng các kỹ thuật như tìm kiếm gần nhất (ANN) giúp hệ thống tìm kiếm và trả về thông tin chính xác về hình ảnh. Điều này cho thấy sự phát triển của công nghệ thị giác máy tính trong việc nâng cao khả năng tương tác của người dùng với hệ thống trợ lý ảo.

V. Quản lý câu hỏi trả lời QA Question Answering

Khối quản lý câu hỏi trả lời (QA) là thành phần xử lý dữ liệu tương tác trong hệ thống trợ lý ảo. Khi người dùng đặt câu hỏi, hệ thống sẽ lấy dữ liệu từ khối QA để đưa ra câu trả lời phù hợp. Quá trình này bao gồm việc trích xuất thông tin từ văn bản đầu vào và tìm kiếm câu trả lời từ cơ sở dữ liệu. Hệ thống sử dụng các thuật toán như CRF để phân tích cú pháp và xác định các thành phần ngữ nghĩa trong câu hỏi. Sau khi phân tích, hệ thống sẽ lọc và trả về câu trả lời tốt nhất dựa trên điểm số tổng hợp. Điều này cho thấy tầm quan trọng của xử lý ngôn ngữ tự nhiên trong việc phát triển các hệ thống trợ lý thông minh, giúp nâng cao khả năng tương tác và đáp ứng nhu cầu của người dùng.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu hệ thống trợ lý thông minh ảo luận văn ths máy tính 604801

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh trí tuệ nhân tạo (AI) ngày càng phát triển mạnh mẽ, hệ thống trợ lý ảo thông minh đã trở thành một lĩnh vực nghiên cứu và ứng dụng quan trọng, thu hút sự quan tâm của các tập đoàn công nghệ hàng đầu như Apple, Google và Microsoft. Theo báo cáo của ngành, các ứng dụng Hỗ trợ Cá nhân Thông minh (Intelligent Personal Assistants - IPA) như Siri, Google Now và Cortana đã được triển khai rộng rãi trên các nền tảng di động phổ biến, góp phần nâng cao trải nghiệm người dùng thông qua tương tác bằng giọng nói, hình ảnh và văn bản. Sự gia tăng nhanh chóng về nhu cầu sử dụng IPA trên các thiết bị đeo như đồng hồ thông minh và kính thông minh cho thấy tiềm năng phát triển to lớn của lĩnh vực này.

Luận văn tập trung nghiên cứu hệ thống trợ lý thông minh ảo với mục tiêu nâng cao hiểu biết về cấu trúc, thuật toán và kỹ thuật ứng dụng trong xây dựng hệ thống trợ lý ảo, đồng thời phát triển một mô hình chatbot hỗ trợ đặt đồ ăn trên nền tảng iOS. Phạm vi nghiên cứu bao gồm các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP), mạng học sâu (DNN), quản lý hội thoại và mô hình sinh hội thoại, được áp dụng trong môi trường thực nghiệm tại Việt Nam trong giai đoạn 2016-2017. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện hiệu quả tương tác giữa người dùng và máy, giảm thiểu chi phí nhân lực cho các cửa hàng bán đồ ăn, đồng thời mở rộng khả năng ứng dụng trợ lý ảo trong nhiều lĩnh vực khác nhau.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: xử lý ngôn ngữ tự nhiên (NLP) và mạng học sâu (Deep Neural Networks - DNN). NLP được hiểu là tập hợp các kỹ thuật tính toán nhằm phân tích và mô tả ngôn ngữ tự nhiên ở nhiều cấp độ như ngữ âm học, hình thái học, từ vựng học, cú pháp, ngữ nghĩa, đàm luận và thực dụng. Các kỹ thuật NLP được ứng dụng trong quản lý câu hỏi trả lời (QA) và chatbot nhằm hiểu và phản hồi ngôn ngữ của người dùng một cách tự nhiên và chính xác.

Mạng học sâu DNN, đặc biệt là mạng nơ-ron tái phát (Recurrent Neural Network - RNN) và mô hình bộ nhớ ngắn hạn dài hạn (Long Short-Term Memory - LSTM), được sử dụng để xử lý chuỗi dữ liệu tuần tự như văn bản và giọng nói. LSTM giúp khắc phục vấn đề mất mát thông tin trong các chuỗi dài, nâng cao độ chính xác trong nhận dạng giọng nói và sinh hội thoại. Mô hình seq2seq (sequence-to-sequence) được áp dụng để mã hóa và giải mã chuỗi đầu vào và đầu ra, hỗ trợ chatbot trong việc tạo ra các câu trả lời phù hợp dựa trên ngữ cảnh hội thoại.

Các khái niệm chuyên ngành quan trọng bao gồm: Automatic Speech Recognition (ASR), Image Matching (IMM), Question-Answering (QA), Query Classifier (QC), Conditional Random Fields (CRF), và các mô hình quản lý hội thoại dựa trên khung (Frame-based dialog agents) và VoiceXML.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp thực nghiệm kết hợp phân tích dữ liệu thực tế thu thập từ hệ thống chatbot được xây dựng trên nền tảng API.AI của Google. Cỡ mẫu gồm các phiên tương tác với chatbot trong vòng 30 ngày, với mỗi phiên chứa trung bình 50 câu hỏi từ người dùng. Phương pháp chọn mẫu là chọn ngẫu nhiên các câu hỏi từ người dùng thực tế nhằm đánh giá khả năng hiểu và phản hồi của chatbot.

Phân tích dữ liệu được thực hiện thông qua các chỉ số như độ chính xác trả lời, số câu trả lời đúng/sai, và phân tích các intents (ý định) trong hội thoại. Timeline nghiên cứu kéo dài từ tháng 10/2016 đến tháng 10/2017, bao gồm các giai đoạn: tìm hiểu lý thuyết, xây dựng mô hình, huấn luyện chatbot, thử nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác trả lời chatbot tăng dần qua các lần huấn luyện: Qua 5 lần thử nghiệm với 50 câu hỏi mỗi lần, độ chính xác tăng từ 56% lên 82%, cho thấy hiệu quả của việc huấn luyện liên tục và cập nhật dữ liệu. Ví dụ, lần thử nghiệm thứ 4 đạt 78% độ chính xác với 39 câu trả lời đúng trên 50 câu hỏi.
Khả năng xử lý ngôn ngữ tiếng Việt: Mặc dù API.AI không hỗ trợ tiếng Việt chính thức, chatbot ABot vẫn có thể hiểu và trả lời bằng tiếng Việt với độ chính xác tương đối, đặc biệt khi câu hỏi phù hợp với mẫu huấn luyện.
Ứng dụng mạng học sâu DNN và mô hình LSTM: Việc áp dụng mạng nơ-ron tái phát và LSTM giúp chatbot xử lý tốt các chuỗi hội thoại phức tạp, cải thiện khả năng nhận dạng giọng nói và sinh hội thoại tự nhiên.
Hạn chế trong xử lý dữ liệu đa dạng: Chatbot còn gặp khó khăn khi xử lý các câu hỏi dài, phức tạp hoặc nằm ngoài phạm vi dữ liệu huấn luyện, dẫn đến các câu trả lời chung chung hoặc không chính xác.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do quá trình huấn luyện liên tục, bổ sung dữ liệu và điều chỉnh mô hình phù hợp với ngôn ngữ và ngữ cảnh người dùng Việt Nam. So với các nghiên cứu khác trong lĩnh vực trợ lý ảo, kết quả này tương đồng với xu hướng sử dụng mạng học sâu để nâng cao hiệu quả xử lý ngôn ngữ tự nhiên.

Việc chatbot có thể hiểu tiếng Việt dù không được hỗ trợ chính thức cho thấy tiềm năng ứng dụng rộng rãi trong các thị trường ngôn ngữ đa dạng. Tuy nhiên, hạn chế về dữ liệu huấn luyện và khả năng xử lý ngữ cảnh phức tạp vẫn là thách thức lớn, đòi hỏi nghiên cứu tiếp tục phát triển các mô hình ngôn ngữ sâu hơn và mở rộng tập dữ liệu.

Dữ liệu có thể được trình bày qua biểu đồ thể hiện sự tăng trưởng độ chính xác qua các lần thử nghiệm, bảng phân tích số câu trả lời đúng/sai và biểu đồ phân bố intents trong các phiên hội thoại.

Đề xuất và khuyến nghị

Mở rộng và đa dạng hóa dữ liệu huấn luyện: Tăng cường thu thập dữ liệu hội thoại đa dạng về chủ đề, ngữ cảnh và cách diễn đạt nhằm nâng cao khả năng hiểu và phản hồi của chatbot. Thời gian thực hiện: 6-12 tháng. Chủ thể: nhóm phát triển và nghiên cứu.
Phát triển framework riêng biệt cho chatbot tiếng Việt: Xây dựng hệ thống chatbot không phụ thuộc hoàn toàn vào nền tảng nước ngoài như API.AI, giúp tối ưu hóa xử lý ngôn ngữ tự nhiên và bảo mật dữ liệu. Thời gian thực hiện: 12-18 tháng. Chủ thể: nhóm kỹ thuật và nghiên cứu.
Nâng cấp giao diện người dùng và tích hợp đa phương thức tương tác: Cải thiện giao diện trên các thiết bị di động, bổ sung tính năng xử lý hình ảnh, địa điểm và giọng nói để tăng trải nghiệm người dùng. Thời gian thực hiện: 6 tháng. Chủ thể: nhóm phát triển phần mềm.
Tăng cường huấn luyện mô hình học sâu với kỹ thuật mới: Áp dụng các mô hình học sâu tiên tiến hơn như Transformer, BERT để cải thiện khả năng hiểu ngữ cảnh và sinh hội thoại tự nhiên. Thời gian thực hiện: 12 tháng. Chủ thể: nhóm nghiên cứu AI.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin: Luận văn cung cấp kiến thức sâu về NLP, mạng học sâu và ứng dụng chatbot, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Các công ty phát triển phần mềm và ứng dụng AI: Tham khảo để xây dựng hoặc cải tiến hệ thống trợ lý ảo, chatbot phục vụ khách hàng trong các lĩnh vực bán lẻ, dịch vụ và chăm sóc khách hàng.
Doanh nghiệp kinh doanh dịch vụ ăn uống và bán lẻ: Áp dụng chatbot trợ lý ảo để tự động hóa quy trình đặt hàng, giảm chi phí nhân sự và nâng cao trải nghiệm khách hàng.
Chuyên gia phát triển giao diện người dùng và trải nghiệm khách hàng: Nghiên cứu cách thiết kế giao diện tương tác đa phương thức giữa người dùng và trợ lý ảo, từ đó tối ưu hóa trải nghiệm người dùng.

Câu hỏi thường gặp

Hệ thống trợ lý ảo thông minh là gì?
Hệ thống trợ lý ảo thông minh là ứng dụng AI giúp người dùng tương tác qua giọng nói, văn bản hoặc hình ảnh để thực hiện các yêu cầu như trả lời câu hỏi, đặt hàng hoặc điều khiển thiết bị. Ví dụ như Siri, Google Now.
Tại sao mạng học sâu DNN được sử dụng trong trợ lý ảo?
DNN có khả năng xử lý dữ liệu phức tạp và chuỗi tuần tự như ngôn ngữ tự nhiên, giúp nâng cao độ chính xác trong nhận dạng giọng nói và sinh hội thoại tự nhiên, vượt trội hơn các mô hình truyền thống.
Chatbot có thể hiểu tiếng Việt như thế nào khi API.AI không hỗ trợ chính thức?
Thông qua huấn luyện dữ liệu tiếng Việt và điều chỉnh mô hình, chatbot có thể nhận dạng và phản hồi tiếng Việt với độ chính xác tương đối, mặc dù nền tảng không hỗ trợ trực tiếp.
Làm thế nào để cải thiện độ chính xác của chatbot?
Cải thiện bằng cách mở rộng dữ liệu huấn luyện, cập nhật mô hình học sâu, tối ưu hóa thuật toán xử lý ngôn ngữ và huấn luyện liên tục dựa trên phản hồi thực tế từ người dùng.
Ứng dụng thực tế của hệ thống trợ lý ảo trong kinh doanh là gì?
Hệ thống trợ lý ảo giúp tự động hóa dịch vụ khách hàng, hỗ trợ đặt hàng, tư vấn sản phẩm, giảm chi phí nhân sự và nâng cao trải nghiệm khách hàng, đặc biệt trong các ngành bán lẻ, nhà hàng và dịch vụ.

Kết luận

Luận văn đã làm rõ cấu trúc và các thành phần chính của hệ thống trợ lý ảo thông minh, bao gồm xử lý giọng nói, hình ảnh và ngôn ngữ tự nhiên.
Ứng dụng mạng học sâu DNN và mô hình LSTM giúp nâng cao hiệu quả nhận dạng và sinh hội thoại trong chatbot.
Hệ thống chatbot ABot được xây dựng và huấn luyện trên nền tảng API.AI, đạt độ chính xác lên đến 82% sau nhiều lần cải tiến.
Nghiên cứu mở ra hướng phát triển chatbot tiếng Việt với khả năng tương tác tự nhiên, hỗ trợ đa dạng lĩnh vực như bán hàng, dịch vụ và giáo dục.
Định hướng nghiên cứu tiếp theo tập trung vào mở rộng dữ liệu, phát triển framework riêng và áp dụng các mô hình học sâu tiên tiến để nâng cao chất lượng trợ lý ảo.

Để tiếp tục phát triển hệ thống trợ lý ảo, các nhà nghiên cứu và phát triển được khuyến khích áp dụng các giải pháp đề xuất, đồng thời mở rộng phạm vi ứng dụng trong thực tế. Hãy bắt đầu xây dựng trợ lý ảo thông minh cho doanh nghiệp hoặc dự án của bạn ngay hôm nay để tận dụng tối đa lợi ích của công nghệ AI hiện đại!

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu tổng quan về hệ thống trợ lý ảo, cấu trúc hệ thống trợ lý ảo, trình bày về xử lý ngôn ngữ tự nhiên NLP và ứng dụng NLP trong chatbot Chương 2: Nghiên cứu một số kĩ thuật được sử dụng trong chatbot, tìm hiểu quản lý hội thoại, mô hình sinh hội thoại. Chương 3: Trình bày về quá trình thực nghiệm và đánh giá, các kết quả được thực nghiệm và xây dựng chatbot. 1 z CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG TRỢ LÝ ẢO 1. Giới thiệu về hệ thống trợ lý ảo Siri của Apple [1], Google Now của Google [2] và Cortana của Microsoft [3] đại diện cho một lớp dịch vụ web mới nổi gọi là các Ứng dụng Hỗ trợ Cá nhân Thông minh (Intelligent Personal Assistants - IPA).

IPA là một ứng dụng sử dụng các yếu tố đầu vào như tiếng nói, hình ảnh và thông tin theo ngữ cảnh của người dùng để hỗ trợ bằng cách trả lời các câu hỏi bằng ngôn ngữ tự nhiên, đưa ra khuyến nghị và hành động. Các IPA đang nổi lên là một trong những dịch vụ Internet phát triển nhanh nhất vì gần đây họ đã triển khai trên các nền tảng nổi tiếng như iOS, Android và Windows Phone, làm cho chúng phổ biến trên các thiết bị di động trên toàn thế giới. Sử dụng IPAs đang gia tăng nhanh chóng với các sản phẩm mới nhất trong các công nghệ có thể đeo như đồng hồ thông minh và kính thông minh. Sự tăng trưởng thị phần này, cùng với việc thiết kế các sản phẩm đeo có thể phụ thuộc nhiều vào đầu vào hình ảnh và giọng nói, cho thấy nhu cầu sử dụng dịch vụ IPA đang tăng lên nhanh chóng.

IPA khác với nhiều khối lượng công việc dịch vụ web hiện có trong các máy tính có quy mô lớn (WSCs). Ngược lại với các truy vấn của các dịch vụ trung tâm duyệt web, luồng truy vấn IPA thông qua các thành phần phần mềm thúc đẩy những tiến bộ gần đây trong nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và tầm nhìn máy tính để cung cấp cho người dùng một câu hỏi dựa trên câu hỏi và hệ thống trả lời. Do cường độ tính toán của các thành phần này và các mô hình dữ liệu dựa trên mô hình mà họ sử dụng, các nhà cung cấp dịch vụ yêu cầu tính toán trong các nền tảng trung tâm dữ liệu lớn thay cho việc tính toán trên các thiết bị di động. Cách tiếp cận giảm tải này được sử dụng bởi cả Siri của Apple lẫn Google Now của Google khi họ gửi các bản ghi nén lệnh truy vấn bằng giọng nói tới các trung tâm dữ liệu để nhận dạng tiếng nói và khai thác ngữ nghĩa.

Sự tương tác giữa thiết bị thông minh với con người không còn nằm ở việc gõ văn bản mà giờ là cả hình ảnh lẫn giọng nói, để đáp ứng được nhu cầu ngày càng cao của trải nghiệm người dùng, các hãng công nghệ thông tin lớn đang ngày càng đầu tư mạnh vào hệ thống trợ lý thông minh ảo. Cấu trúc hệ thống trợ lý ảo Để hiểu một hệ thống trợ lý ảo hoạt động như thế nào, cần phải hiểu được cấu trúc và cấu tạo của một hệ thống trợ lý ảo. Sơ đồ của một hệ thống trợ lý ảo: Hình 1.1: Sơ đồ hệ thống trợ lý ảo Dựa trên hình 1.1 [7], có thể thấy cấu tạo của một hệ thống trợ lý ảo bao gồm 2 khối: khối người dung (user) có đầu vào là ảnh, giọng nói, văn bản và khối xử lý dữ liệu (server) gồm các khối xử lý hình ảnh, âm thanh, văn bản, khối quản lý hội thoại. Truy vấn bắt đầu bằng giọng nói, văn bản, hình ảnh của người dung thiết bị thông minh như điện thoại, thiết bị đeo, kính thông minh.

Các file nén hình ảnh, âm thanh hoặc văn bản được gửi tới máy chủ để xử lý. Với giọng nói được xử lý bằng giao diện ASR (Automatic Speech Recognition) chuyển câu hỏi nói của người dùng sang văn bản tương đương bằng mô hình thống kê. Sau đó văn bản đi qua trình phân loại truy vấn (Query Classifier - QC) quyết định xem bài phát biểu có phải là hành động hay câu hỏi không. Nếu đó là hành động, lệnh sẽ được gửi lại cho thiết bị di động để thực hiện.

Nếu không, thì hệ thống sẽ hiểu là câu hỏi bằng văn bản thuần tuý. Sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên NLP (Natural Language Processing), dịch vụ câu hỏi trả lời QA (Question-Answering) sẽ trích xuất thông tin từ đầu vào, tìm kiếm cơ sở dữ liệu của nó và chọn câu trả lời tốt nhất để trả lại cho người dùng. Nếu là một hình ảnh đi kèm với đầu vào giọng nói, hệ thống sẽ sử dụng kỹ thuật thị giác máy tính để cố gắng phù hợp với hình ảnh đầu vào cơ sở dữ liệu hình ảnh của mình và trả về thông tin có liên quan với hình ảnh đó. Nhận dạng giọng nói tự động (ASR - Automatic Speech Recognition) Khối nhận dạng giọng nói tự động là khối đầu vào giúp người dùng tương tác với trợ lý ảo bằng giọng nói.

Các đầu vào cho ASR [9] là các vector đặc trưng đại diện cho đoạn nói, được tạo ra bời quá trình tiền xử lý nhanh và trích xuất đặc tính của bài phát 3 z biểu. Thành phần của ASR dựa vào sự kết hợp của mô hình Hidden Markov (HMM) và một mô hình hỗ hợp Gaussian (GMM) hoặc một mạng nơ-ron sâu (DNN). HMM xây dựng một cây các trạng thái cho khung lời nói hiện tại sử dụng vector tính năng đầu vào. GMM hoặc DNN đánh giá xác suất của sự chuyển đổi trạng thái trong cây, và thuật toán Viterbi sau đó tìm kiếm con đường có nhiều khả năng nhất dựa trên các điểm này.

Đường dẫn có xác suất cao nhất thể hiện kết xuất văn bản cuối cùng. Điểm GMM đánh giá HMM trạng thái chuyển tiếp bằng cách ánh xạ một vector đối tượng đầu vào vào một hệ toạ độ đa chiều và lặp lại điểm số các đặc tính chống lại mô hình âm thanh được đào tạo. DNN điểm số sử dụng xác suất từ một mạng thần kinh. Độ sâu của DNN được xác định bởi số lớp ẩn mà số điểm cho một chuyển tiếp đi qua mạng.

Trong luận văn sẽ nghiên cứu chủ yếu về DNN vì nó có độ chính xác cao hơn.2: Sơ đồ xử lý âm thanh 1. Xử lý hình ảnh IMM (Image Matching) Khối xử lý hình ảnh IMM là khối giúp người dùng tương tác với hệ thống trợ lý ảo thông qua hình ảnh. Khi người dùng muốn hỏi trợ lý ảo về một hình nào đó chẳng hạn bông hoa hồng thì hệ thống trợ lý ảo sẽ xử lý dữ liệu hình ảnh đầu vào và cung cấp đầu ra là thông tin về hình ảnh đó. Từ dữ liệu hình ảnh đưa vào hệ thống sẽ cố gắng tìm kiếm hình ảnh trong cơ sở dữ liệu trước khi chế biến và trả về thông tinh về kết hợp hình ảnh.

Cơ sở dữ liệu được sử dụng trong hệ thống là cơ sở dữ liệu Mobile Visual Search. Các điểm chính của hình ảnh được rút ra lần đầu tiên từ hình ảnh đầu vào sử dụng thuật toán SURF [7]. Trong tính năng chiết xuất (FE), hình ảnh được lấy mẫu và xáo lộn nhiều lần để tìm các điểm thú vị ở các quy mô khác nhau. Khi ngưỡng đáp ứng lưu trữ các điểm chính của hình ảnh, các điểm then chốt được chuyển tới bộ phận mô tả tính năng (FD), nơi chúng được chỉ định một vector định hướng và các điểm chính được định hướng tương tự được nhóm thành các bộ mô tả tính năng.

Quá trình này làm giảm sự biến đổi 4 z giữa các hình ảnh đầu vào, tăng cơ hội tìm kiếm sự kết hợp chính xác. Bộ mô tả từ hình ảnh đầu vào được đối sánh với bộ mô tả nhóm trước đại diện cho các hình ảnh cơ sở dữ liệu bằng cách sử dụng tìm kiếm gần nhất (ANN), hình ảnh cơ sở dữ liệu với số lượng lớn nhất của cơ sở được trả lại.3: Sơ đồ xử lý hình ảnh 1. Quản lý câu hỏi trả lời QA (Question-Answering) 1. Cấu tạo của quản lý câu hỏi Khối quản lý câu hỏi trả lời là khối xử lý dữ liệu tương tác ở trong hệ thống trợ lý ảo.

khi người dùng hỏi hệ thống trợ lý ảo thì nó sẽ lấy dữ liệu từ khối QA để đưa ra câu trả lời phù hợp. Văn bản được xuất ra từ ASR hoặc nhập trực tiếp được chuyển đến OpenEphyra (OE) sử dụng ba quy trình cốt lõi đẻ trích xuất thông tin văn bản, bắt nguồn từ, kết hợp cụm từ thông dụng, và gắn thẻ theo từng thành phần của văn bản [7]. Hình dưới mô tả sơ đồ OE kết hợp thành phần này, tạo ra các truy vấn tìm kiếm web và lọc các kết quả trả về. Thuật toán Porter (stemmer) phơi bày gốc của một từ bằng cách kết hợp và cắt ngắn các từ thông dụng.

OE cũng sử dụng một bộ mẫu biểu thức chính quy để đối sánh các từ truy vấn chung (như cái gì, ở đâu …) và lọc bất kỳ ký tự đặc biệt nào trong đầu vào. Trình phân loại ngẫu nhiên (CRF) lấy một câu, vị trí của mỗi từ trong câu và nhãn các từ hiện tại và trước đó làm đầu vào để đưa ra các dự đoán về phần nói của từng từ của một truy vấn đầu vào. Mỗi truy vấn đầu vào được phân tích cú pháp bằng cách sử dụng các thành phần nói trên để tạo truy vấn cho công cụ tìm kiếm. Tiếp theo, các bộ lọc sử dụng các kỹ thuật tương tự được sử dụng để lấy thông tin từ các tài liệu trả về; tài liệu với điểm tổng thể cao nhất sau khi tổng hợp số điểm được trả về là câu trả lời hay nhất.4: Quản lý câu hỏi trả lời 1.

Xử lý ngôn ngữ tự nhiên trong Quản lý câu hỏi trả lời Theo Wikipedia, NLP (Natural Language Processing) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp. Theo cách hiểu thì có thể hiểu xử lý ngôn ngữ tự nhiên [6] là một phạm vi lý thuyết các kỹ thuật tính toán để phân tích và mô tả các văn bản xảy ra tự nhiên ở một hoặc nhiều mức độ phân tích ngôn ngữ theo yêu cầu của con người mong muốn. Mục tiêu của NLP là nhằm thể hiện ý nghĩa thực sự và ý định của người dùng khi thao tác dữ liệu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ: Nghiên cứu hệ thống trợ lý thông minh ảo trong lĩnh vực máy tính" của tác giả Nguyễn Hữu Cường, dưới sự hướng dẫn của TS. Nguyễn Văn Vinh tại Đại học Quốc gia Hà Nội, tập trung vào việc phát triển và ứng dụng các hệ thống trợ lý thông minh ảo trong công nghệ thông tin. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các công nghệ hiện đại mà còn chỉ ra những lợi ích mà hệ thống trợ lý thông minh có thể mang lại cho người dùng, từ việc tối ưu hóa quy trình làm việc đến cải thiện trải nghiệm người dùng.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo các tài liệu liên quan như Các yếu tố ảnh hưởng đến quyết định chọn nơi làm việc của sinh viên công nghệ thông tin tại Đà Nẵng, nơi phân tích các yếu tố tác động đến sự lựa chọn nghề nghiệp trong ngành công nghệ thông tin. Bên cạnh đó, Luận văn thạc sĩ về quản lý giáo dục và ứng dụng công nghệ thông tin trong dạy học ở huyện Phong Điền, TP Cần Thơ cũng sẽ cung cấp cái nhìn về ứng dụng công nghệ thông tin trong giáo dục, một lĩnh vực có liên quan mật thiết đến việc phát triển hệ thống trợ lý thông minh. Cuối cùng, Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt sẽ giúp bạn hiểu rõ hơn về các công nghệ hỗ trợ trong lĩnh vực xử lý ngôn ngữ tự nhiên, một phần quan trọng trong việc phát triển trợ lý thông minh.

Những tài liệu này không chỉ mở rộng kiến thức mà còn giúp bạn có cái nhìn đa chiều về các ứng dụng của công nghệ thông tin trong đời sống và giáo dục.

#tự động hóa

#Luận văn Thạc sĩ

#hệ thống AI

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#phát triển phần mềm

Chủ đề

Nghiên cứu và phát triển phần mềm

Công nghệ trí tuệ nhân tạo

Ứng dụng của trợ lý ảo trong cuộc sống

Xu hướng công nghệ trong lĩnh vực máy tính