Nghiên cứu và thiết kế hệ thống trợ lý ảo tiếng Việt offline trên nền tảng nhúng

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Cấu trúc của một hệ thống phản hồi yêu cầu (chatbot)

2.2. Tổng quan hệ thống nhận dạng giọng nói

2.2.1. Phân loại hệ thống nhận dạng giọng nói

2.2.2. Phân tích giọng nói

2.2.3. Các giải pháp cho nhận dạng giọng nói phổ biến

2.3. Tổng quan hệ thống chuyển văn bản sang giọng nói

2.3.1. Mô hình Transformer trong Text To Speech

I. Hệ thống trợ lý ảo

Hệ thống trợ lý ảo là một phần mềm dựa trên trí tuệ nhân tạo (AI), được tích hợp vào các thiết bị điện tử để hỗ trợ người dùng thực hiện các tác vụ hàng ngày. Trợ lý ảo tiếng Việt đặc biệt hữu ích trong việc tư vấn, hướng dẫn và điều khiển thiết bị thông minh. Hệ thống nhúng là nền tảng lý tưởng để triển khai các ứng dụng này, đảm bảo tính offline và độc lập với kết nối mạng.

1.1. Cấu trúc hệ thống

Hệ thống trợ lý ảo bao gồm ba mô-đun chính: nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên (NLP), và chuyển văn bản sang giọng nói. Mô-đun nhận dạng giọng nói chuyển đổi giọng nói thành văn bản, trong khi NLP xử lý và hiểu yêu cầu của người dùng. Cuối cùng, mô-đun chuyển văn bản sang giọng nói phản hồi lại người dùng bằng giọng nói tự nhiên.

1.2. Ứng dụng thực tế

Hệ thống trợ lý ảo được ứng dụng rộng rãi trong các lĩnh vực như giáo dục, du lịch và nhà thông minh. Ví dụ, tại Trường Đại học Công nghệ Thông tin, hệ thống này có thể hỗ trợ sinh viên tìm kiếm thông tin về chương trình đào tạo hoặc vị trí phòng học. Ứng dụng nhúng đảm bảo hệ thống hoạt động ổn định và không phụ thuộc vào kết nối mạng.

II. Thiết kế hệ thống nhúng

Thiết kế hệ thống nhúng đòi hỏi sự kết hợp giữa phần cứng và phần mềm để tạo ra một hệ thống hiệu quả và tiết kiệm năng lượng. Hệ thống nhúng được sử dụng trong trợ lý ảo offline cần đảm bảo khả năng xử lý tín hiệu âm thanh và ngôn ngữ tự nhiên một cách nhanh chóng và chính xác.

2.1. Phần cứng và phần mềm

Phần cứng của hệ thống nhúng bao gồm các vi xử lý và bộ nhớ có khả năng xử lý tín hiệu âm thanh. Phần mềm được thiết kế để tối ưu hóa hiệu suất, sử dụng các mô hình như Transformer và MelGAN để chuyển đổi văn bản sang giọng nói. Công nghệ AI được tích hợp để nâng cao khả năng hiểu và phản hồi của hệ thống.

2.2. Tối ưu hóa hệ thống

Tối ưu hóa hệ thống là quá trình quan trọng để đảm bảo hệ thống nhúng hoạt động hiệu quả. Các kỹ thuật như giảm độ trễ và tăng tốc độ xử lý được áp dụng. Phát triển phần mềm tập trung vào việc cải thiện độ chính xác của nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên.

III. Công nghệ nhận diện giọng nói

Công nghệ nhận diện giọng nói là một phần không thể thiếu trong hệ thống trợ lý ảo. Nó cho phép hệ thống hiểu và phản hồi lại yêu cầu của người dùng một cách tự động. Hệ thống nhận diện giọng nói sử dụng các mô hình như End-to-End và ResCNN để đạt độ chính xác cao.

3.1. Mô hình End to End

Mô hình End-to-End là một phương pháp hiện đại trong nhận diện giọng nói, cho phép hệ thống học trực tiếp từ dữ liệu âm thanh mà không cần qua các bước trung gian. ResCNN và BiRNN là hai mô hình được sử dụng để huấn luyện hệ thống, đạt độ chính xác cao với bộ dữ liệu lớn.

3.2. Độ chính xác và thử nghiệm

Độ chính xác của hệ thống nhận diện giọng nói phụ thuộc vào chất lượng và số lượng dữ liệu huấn luyện. Các thử nghiệm với bộ dữ liệu Vivos và VinBigdata cho thấy hệ thống đạt WER khoảng 34% và CER 12%. Tối ưu hóa hệ thống tiếp tục được thực hiện để cải thiện hiệu suất.

IV. Tương tác ngôn ngữ tự nhiên

Tương tác ngôn ngữ tự nhiên là yếu tố quan trọng giúp hệ thống trợ lý ảo hiểu và phản hồi lại yêu cầu của người dùng một cách tự nhiên. Xử lý ngôn ngữ tự nhiên (NLP) và hiểu ngôn ngữ tự nhiên (NLU) là hai công nghệ chính được sử dụng trong quá trình này.

4.1. Xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) bao gồm các bước như làm sạch văn bản, tách từ và loại bỏ stopwords. Các kỹ thuật như BOW và TF-IDF được sử dụng để vector hóa văn bản, giúp hệ thống hiểu và xử lý yêu cầu của người dùng một cách hiệu quả.

4.2. Hiểu ngôn ngữ tự nhiên

Hiểu ngôn ngữ tự nhiên (NLU) là quá trình giúp hệ thống hiểu ý nghĩa của câu hỏi hoặc yêu cầu từ người dùng. Các mô hình như LSTM và Bi-LSTM được sử dụng để huấn luyện hệ thống, đạt độ chính xác cao trong việc phân loại và phản hồi yêu cầu.

Khóa Luận Tốt Nghiệp: Nghiên Cứu Và Thiết Kế Hệ Thống Trợ Lý Ảo Tiếng Việt Offline Trên Nền Tảng Nhúng

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN HỆ THỐNG TRỢ LÝ ẢO

1.1. Tổng quan hệ thống trợ lý ảo

1.2. Cấu trúc của một hệ thống phản hồi yêu cầu (chatbot)

1.3. Nhận dạng giọng nói

1.4. Văn bản sang giọng nói

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Cấu trúc của một hệ thống phản hồi yêu cầu (chatbot)

2.2. Tổng quan hệ thống nhận dạng giọng nói

2.2.1. Phân loại hệ thống nhận dạng giọng nói

2.2.2. Phân tích giọng nói

2.2.3. Các giải pháp cho nhận dạng giọng nói phổ biến

2.3. Tổng quan hệ thống chuyển văn bản sang giọng nói

2.3.1. Mô hình Transformer trong Text To Speech

3. CHƯƠNG 3: XÂY DỰNG TRỢ LÝ ẢO TƯ VẤN TUYỂN SINH

3.1. Bài toán đề tài

3.2. Xây dựng hệ thống nhận dạng giọng nói End-to-End

3.2.1. Chuẩn bị dữ liệu

3.3. Xây dựng chatbot tư vấn tuyển sinh

3.4. Xây dựng hệ thống chuyển văn bản sang giọng nói Transformer và MelGAN

3.4.1. Chuẩn bị dữ liệu

4. CHƯƠNG 4: KẾT QUẢ - ĐÁNH GIÁ THỰC NGHIỆM

4.1. Kết quả thực nghiệm

4.1.1. Kết quả thực nghiệm từng mô-đun

4.1.2. Kết quả thực nghiệm tổng thể trên board nhúng TX1

4.2. Định hướng nghiên cứu tiếp theo

TÀI LIỆU THAM KHẢO

DANH MỤC HÌNH VẼ

DANH MỤC TỪ VIẾT TẮT

I. Hệ thống trợ lý ảo

1.1. Cấu trúc hệ thống

1.2. Ứng dụng thực tế

II. Thiết kế hệ thống nhúng

2.1. Phần cứng và phần mềm

2.2. Tối ưu hóa hệ thống

III. Công nghệ nhận diện giọng nói

3.1. Mô hình End to End

3.2. Độ chính xác và thử nghiệm

IV. Tương tác ngôn ngữ tự nhiên

4.1. Xử lý ngôn ngữ tự nhiên

4.2. Hiểu ngôn ngữ tự nhiên

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Pham Tan Khoa

Người hướng dẫn: ThS. Pham Minh Quan

Trường học: Đại học Quốc gia TP. Hồ Chí Minh - Trường Đại học Công nghệ Thông tin

Chuyên ngành: Kỹ thuật máy tính

Đề tài: Nghiên cứu và thiết kế hệ thống trợ lý ảo tiếng Việt offline trên nền tảng nhúng

Loại tài liệu: Khóa luận tốt nghiệp

Năm xuất bản: 2021

Địa điểm: TP. Hồ Chí Minh