Luận văn thạc sĩ: Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android

Trường đại học

Đại học Bách Khoa - ĐHQG - HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

67
4
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu tổng quan

Trong bối cảnh công nghệ phát triển nhanh chóng, công nghệ nhận dạng giọng nói đang trở thành một lĩnh vực nghiên cứu quan trọng. Nghiên cứu này tập trung vào việc phát triển một hệ thống nhận dạng giọng nói tiếng Việt sử dụng học máy, với mục tiêu tối ưu hóa khả năng điều khiển thiết bị thông minh qua nền tảng Android. Hệ thống sẽ giúp người dùng tương tác với thiết bị thông minh một cách tự nhiên hơn thông qua giao tiếp qua giọng nói. Theo đó, nghiên cứu sẽ sử dụng phương pháp Connectionist Temporal Classification (CTC), một kỹ thuật mới trong lĩnh vực học máy, nhằm cải thiện độ chính xác trong việc nhận diện giọng nói tiếng Việt. Mục tiêu cuối cùng là xây dựng một ứng dụng có khả năng nhận diện giọng nói chính xác trên 80% cho các lệnh điều khiển thiết bị trong nhà.

1.1. Tình hình nghiên cứu

Nghiên cứu về nhận dạng giọng nói trên thế giới đã có lịch sử lâu dài, từ những năm 1920 cho đến nay. Trên thế giới, các công nghệ như trí tuệ nhân tạorobot thông minh đã được áp dụng rộng rãi. Tuy nhiên, tại Việt Nam, nhận dạng giọng nói tiếng Việt vẫn còn nhiều hạn chế. Các nghiên cứu trong nước chủ yếu tập trung vào việc phát triển các mô hình nhận dạng cơ bản mà chưa khai thác hết tiềm năng của công nghệ. Đặc biệt, việc áp dụng các phương pháp học sâu như mạng nơ-ron hồi quy (RNN) và LSTM trong nhận dạng tiếng Việt vẫn còn mới mẻ và cần được nghiên cứu sâu hơn.

II. Công nghệ và phương pháp nghiên cứu

Nghiên cứu này sẽ áp dụng phương pháp trích rút đặc trưng giọng nói MFCC (Mel-frequency cepstral coefficients) để cải thiện khả năng nhận dạng giọng nói. MFCC là một phương pháp phổ biến trong lĩnh vực nhận dạng giọng nói nhờ vào khả năng phản ánh tốt các đặc trưng âm thanh của giọng nói con người. Quá trình nhận dạng sẽ trải qua các bước như trích rút đặc trưng, nhận dạng và xử lý kết quả. Việc sử dụng giải thuật CTC sẽ giúp tối ưu hóa quá trình huấn luyện mô hình, từ đó nâng cao độ chính xác của hệ thống. Hệ thống sẽ được phát triển trên nền tảng Android, cho phép người dùng dễ dàng điều khiển các thiết bị thông minh trong nhà thông qua các lệnh giọng nói đơn giản.

2.1. Xây dựng hệ thống điều khiển

Hệ thống điều khiển thiết bị thông minh sẽ được xây dựng với các khối chức năng rõ ràng. Đầu tiên, tín hiệu giọng nói sẽ được thu nhận và xử lý qua các bước tiền xử lý để loại bỏ nhiễu và nâng cao chất lượng âm thanh. Sau đó, các đặc trưng giọng nói sẽ được trích rút bằng phương pháp MFCC. Kết quả sẽ được đưa vào mô hình học máy để nhận diện và xử lý lệnh điều khiển. Hệ thống sẽ cho phép người dùng thực hiện các lệnh như tắt/mở đèn, đóng/mở cửa một cách nhanh chóng và chính xác, từ đó nâng cao trải nghiệm người dùng trong việc tương tác với các thiết bị thông minh.

III. Kết quả và ứng dụng thực tiễn

Kết quả nghiên cứu cho thấy rằng việc áp dụng công nghệ nhận dạng giọng nói tiếng Việt sử dụng học máy có thể mang lại nhiều lợi ích cho người dùng. Hệ thống đã đạt được độ chính xác trên 80% trong việc nhận diện các lệnh giọng nói cơ bản. Điều này mở ra hướng đi mới cho việc phát triển các ứng dụng thông minh, giúp người dùng có thể tương tác với thiết bị một cách tự nhiên hơn. Các ứng dụng tiềm năng bao gồm việc điều khiển các thiết bị gia dụng, hệ thống an ninh thông minh, và các trợ lý ảo. Nghiên cứu cũng chỉ ra rằng, việc phát triển và tối ưu hóa các mô hình nhận dạng giọng nói sẽ là chìa khóa để nâng cao trải nghiệm người dùng trong thời đại công nghệ 4.0.

3.1. Hướng phát triển tiếp theo

Trong tương lai, nghiên cứu có thể mở rộng ra nhiều lĩnh vực khác như giao tiếp qua giọng nói trong các ứng dụng y tế, giáo dục và giải trí. Việc cải tiến mô hình nhận dạng giọng nói để xử lý các ngữ điệu và giọng nói địa phương sẽ là một thách thức lớn nhưng cũng là cơ hội để phát triển. Hệ thống cũng có thể được tích hợp với các công nghệ AI tiên tiến hơn để cải thiện khả năng nhận diện và phản hồi, tạo ra một trải nghiệm tương tác hoàn hảo hơn cho người dùng.

05/01/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android

để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Luận văn thạc sĩ: Nghiên cứu công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng điều khiển thiết bị thông minh qua điện thoại Android là một công trình nghiên cứu về công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong điều khiển thiết bị thông minh qua điện thoại Android. Công trình này được thực hiện bởi Bùi Thanh Phong dưới sự hướng dẫn của PGS. Quản Thành Thơ tại Đại học Bách Khoa - ĐHQG - HCM vào năm 2019. Mục tiêu của công trình là nghiên cứu và phát triển công nghệ nhận dạng giọng nói tiếng Việt để điều khiển thiết bị thông minh qua điện thoại Android.

Công trình này có thể mang lại lợi ích cho người đọc trong việc hiểu rõ hơn về công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế. Ngoài ra, công trình này cũng có thể là một nguồn tham khảo hữu ích cho những người muốn nghiên cứu và phát triển công nghệ nhận dạng giọng nói tiếng Việt.

Nếu bạn muốn tìm hiểu thêm về công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó, bạn có thể tham khảo các công trình nghiên cứu sau:

Luận văn thạc sĩ: Nghiên cứu kỹ thuật học sâu để biểu diễn đô thị không đồng nhất là một công trình nghiên cứu về kỹ thuật học sâu để biểu diễn đô thị không đồng nhất, được thực hiện bởi Nguyễn Thanh Toàn dưới sự hướng dẫn của PGS. Quản Thành Thơ tại Đại học Bách Khoa - ĐHQG-HCM vào năm 2019. Công trình này có liên quan đến công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế.

Luận văn thạc sĩ: Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính là một công trình nghiên cứu về phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính, được thực hiện bởi Từ Lãng Phiêu dưới sự hướng dẫn của PGS. Quản Thành Thơ tại Đại học Quốc gia TP.HCM vào năm 2021. Công trình này có liên quan đến công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế.

Luận văn thạc sĩ: Nghiên cứu trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính là một công trình nghiên cứu về trích xuất thông tin từ ảnh tài liệu trong khoa học máy tính, được thực hiện tại Trường Đại Học Khoa Học Công Nghệ vào năm 2021. Công trình này có liên quan đến công nghệ nhận dạng giọng nói tiếng Việt và ứng dụng của nó trong thực tế.

Tải xuống (67 Trang - 1.81 MB )