Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp tại HCMUTE

Trường đại học

Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành

Kỹ Thuật Điện Tử

Người đăng

Ẩn danh

Thể loại

luận văn

2014

103

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước

1.2. ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT

1.3. TỔNG QUAN VỀ TIẾNG NÓI

1.4. MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

3. CHƯƠNG 3: Voice Activation Detection (VAD)

4. CHƯƠNG 4: MÔ HÌNH MARKOV ẨN HMM

5. CHƯƠNG 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT

6. CHƯƠNG 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG

7. CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về nhận dạng giọng nói và ứng dụng tại HCMUTE

Luận văn Thạc sĩ "Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp" của Nguyễn Thành Chung (2014) tại Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh (HCMUTE) tập trung vào ứng dụng nhận dạng tiếng nói trong điều khiển công nghiệp. Luận văn khảo sát kỹ thuật nhận dạng tiếng nói, đặc biệt là ứng dụng trong ngữ cảnh tiếng Việt, một lĩnh vực còn nhiều thách thức do tính đa dạng và phức tạp của ngôn ngữ. Nghiên cứu tập trung vào việc thiết kế và triển khai một hệ thống nhận dạng tiếng nói quy mô nhỏ, sử dụng Mô hình Markov ẩn (HMM) và mạng nơ-ron nhân tạo (ANN) để nhận dạng các lệnh đơn giản. Đây là một đóng góp quan trọng cho lĩnh vực ứng dụng công nghệ nhận dạng tiếng nói trong công nghiệp tại Việt Nam, đặc biệt là trong bối cảnh Công nghiệp 4.0. Nghiên cứu đề cập đến những thách thức của xử lý ngôn ngữ tự nhiên (NLP) trong tiếng Việt, bao gồm việc xử lý các đặc điểm ngữ âm và thanh điệu.

1.1. Công nghệ nhận dạng giọng nói và các thách thức

Luận văn nhấn mạnh vào sự khác biệt giữa việc nhận dạng tiếng nói trong tiếng Anh và tiếng Việt. Tiếng Việt, với hệ thống thanh điệu phức tạp, đặt ra những thách thức đặc biệt cho kỹ thuật nhận dạng tiếng nói. Việc sử dụng các công cụ nhận dạng tiếng nói tiếng Anh sẵn có cho tiếng Việt cho hiệu quả thấp. Luận văn đề cập đến các phương pháp trích xuất đặc trưng như MFCC, FFT, và thuật toán K-means nhằm khắc phục những khó khăn này. Công nghệ nhận dạng giọng nói đòi hỏi việc xử lý tín hiệu, trích xuất đặc trưng, và xây dựng mô hình nhận dạng phù hợp với đặc điểm của tiếng Việt. Hệ thống nhận dạng tiếng nói cần tính đến các yếu tố như tiếng ồn môi trường, tốc độ nói, và giọng nói của người dùng. An ninh mạng và bảo mật dữ liệu cũng là những yếu tố cần quan tâm khi triển khai các hệ thống nhận dạng tiếng nói trong môi trường công nghiệp.

1.2. Ứng dụng nhận dạng tiếng nói trong công nghiệp

Luận văn tập trung vào ứng dụng nhận dạng tiếng nói trong điều khiển thiết bị công nghiệp, cụ thể là điều khiển thông qua board Arduino Mega 2560. Hệ thống được thiết kế để nhận dạng 5 từ lệnh đơn giản. Ứng dụng nhận dạng tiếng nói trong sản xuất, quản lý, và bảo trì được đề cập. Kết quả thử nghiệm đạt độ chính xác trên 90% trong điều kiện lý tưởng. Ứng dụng công nghiệp của nhận dạng tiếng nói có tiềm năng lớn trong việc tăng năng suất, cải thiện an toàn, và giảm chi phí lao động. Tuy nhiên, việc triển khai rộng rãi còn phụ thuộc vào việc giải quyết các vấn đề về độ chính xác, tính ổn định, và chi phí của hệ thống. Ứng dụng nhận dạng tiếng nói trong công nghiệp 4.0 mở ra nhiều cơ hội mới, đặc biệt là trong các hệ thống tự động hoá.

II. Phân tích kỹ thuật nhận dạng tiếng nói và phát triển ứng dụng

Luận văn sử dụng mô hình Markov ẩn (HMM) kết hợp với mạng nơ-ron (Neural Networks), một kỹ thuật trí tuệ nhân tạo (AI) phổ biến trong nhận dạng tiếng nói. Thu thập dữ liệu giọng nói và đào tạo mô hình là những bước quan trọng trong quá trình phát triển. Đánh giá hiệu quả nhận dạng tiếng nói được thực hiện thông qua các thử nghiệm thực tế. Giải pháp nhận dạng tiếng nói được đề xuất trong luận văn cung cấp một nền tảng cho việc nghiên cứu và phát triển các ứng dụng nhận dạng tiếng nói tiên tiến hơn trong tương lai. Luận văn cũng đề cập đến các phương pháp xử lý tín hiệu và trích xuất đặc trưng cần thiết cho việc xây dựng một hệ thống nhận dạng tiếng nói hiệu quả.

2.1. Mô hình Markov ẩn HMM và mạng nơ ron ANN

Luận văn ứng dụng Mô hình Markov ẩn (HMM), một kỹ thuật học máy (machine learning) mạnh mẽ trong nhận dạng mẫu. HMM được sử dụng để mô hình hóa chuỗi tín hiệu tiếng nói và dự đoán các từ lệnh. Mạng nơ-ron (ANN), cụ thể là mạng nơ-ron sâu (deep learning), có thể được tích hợp để cải thiện độ chính xác của phân loại. Việc lựa chọn và tối ưu hóa các tham số của HMM và ANN là rất quan trọng để đạt được hiệu quả cao. Machine learning và deep learning đang là những xu hướng nghiên cứu hàng đầu trong lĩnh vực nhận dạng tiếng nói. Các mô hình ngôn ngữ lớn (LLM) cũng có thể được tích hợp vào hệ thống để cải thiện khả năng hiểu ngữ cảnh.

2.2. Thực trạng ứng dụng và xu hướng phát triển

Luận văn đánh giá thực trạng ứng dụng nhận dạng tiếng nói trong công nghiệp tại Việt Nam. Thách thức chính là việc thiếu các hệ thống nhận dạng tiếng nói tiếng Việt chất lượng cao. Xu hướng ứng dụng nhận dạng tiếng nói đang ngày càng tăng, đặc biệt trong bối cảnh Công nghiệp 4.0. Tương lai nhận dạng tiếng nói hứa hẹn nhiều ứng dụng mới, bao gồm tự động hóa, điều khiển từ xa, và tương tác người-máy. Cơ hội nghề nghiệp nhận dạng tiếng nói cũng đang mở rộng. Việc phát triển ứng dụng nhận dạng tiếng nói cần sự hợp tác giữa các nhà nghiên cứu, doanh nghiệp, và các cơ quan quản lý.

01/02/2025

Bạn đang xem trước tài liệu:

Hcmute kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Nhận dạng tiếng nói là một lĩnh vực nghiên cứu quan trọng trong ngành kỹ thuật điện tử và xử lý tín hiệu, với mục tiêu giúp máy tính có thể hiểu và phản hồi ngôn ngữ nói của con người. Theo báo cáo của ngành, công nghệ nhận dạng tiếng nói đã phát triển hơn 4 thập kỷ với các hệ thống tiếng Anh đạt độ chính xác từ 90% đến 95%. Tuy nhiên, đối với tiếng Việt, lĩnh vực này còn khá mới mẻ và chưa có phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trường. Tiếng Việt có đặc điểm ngôn ngữ riêng biệt như thanh điệu, âm tiết rõ ràng, không nối âm, gây khó khăn cho việc nhận dạng tự động.

Luận văn thạc sĩ này tập trung nghiên cứu kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp, với phạm vi nghiên cứu từ năm 2012 đến 2014 tại thành phố Hồ Chí Minh. Mục tiêu chính là xây dựng mô hình nhận dạng tiếng Việt sử dụng thuật toán trích đặc trưng MFCC, lượng tử vector VQ và mô hình Markov ẩn HMM, đồng thời thiết kế hệ thống điều khiển robot mặt người thể hiện cảm xúc qua Board Arduino Mega 2560. Bộ từ vựng thử nghiệm gồm 5 từ đơn: "vui", "buồn", "mệt", "giận", "hiền". Kết quả thử nghiệm cho thấy độ chính xác nhận dạng đạt khoảng hơn 90% trong điều kiện môi trường bình thường.

Nghiên cứu có ý nghĩa thực tiễn lớn trong việc phát triển các hệ thống điều khiển bằng giọng nói trong công nghiệp và dân dụng, đồng thời góp phần thúc đẩy lĩnh vực nhận dạng tiếng Việt, vốn còn nhiều hạn chế về bộ từ vựng và độ chính xác. Đây cũng là tài liệu tham khảo quý giá cho các nhà nghiên cứu và sinh viên ngành điện tử viễn thông, kỹ thuật điện tử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Mô hình Markov ẩn (Hidden Markov Model - HMM): Đây là mô hình thống kê được sử dụng phổ biến trong nhận dạng tiếng nói, giúp mô phỏng quá trình phát âm và biến thiên của tín hiệu tiếng nói theo thời gian. HMM giải quyết ba bài toán cơ bản: tính xác suất quan sát, tìm chuỗi trạng thái tối ưu và ước lượng tham số mô hình.
Thuật toán trích đặc trưng MFCC (Mel-Frequency Cepstral Coefficients): Phương pháp trích xuất đặc trưng âm học dựa trên thang tần số Mel, mô phỏng cách tai người cảm nhận âm thanh. MFCC giúp chuyển đổi tín hiệu âm thanh thành các vector đặc trưng có ý nghĩa cho việc nhận dạng.
Phương pháp lượng tử vector (Vector Quantization - VQ): Kỹ thuật giảm số lượng vector đặc trưng bằng cách phân nhóm và gán nhãn, giúp giảm không gian lưu trữ và thời gian tính toán trong quá trình huấn luyện và nhận dạng.
Các khái niệm chính: âm tiết tiếng Việt, thanh điệu, âm vị, tách tiếng nói khỏi khoảng lặng (Voice Activation Detection - VAD), tiền xử lý tín hiệu, cửa sổ hóa tín hiệu (windowing), biến đổi Fourier nhanh (FFT).

Phương pháp nghiên cứu

Nguồn dữ liệu: Tín hiệu tiếng nói tiếng Việt được thu âm với tần số lấy mẫu 8 kHz, mỗi lần thu khoảng 2 giây, tập trung vào bộ từ vựng gồm 5 từ đơn.
Phương pháp phân tích: Sử dụng thuật toán MFCC để trích đặc trưng âm học, áp dụng VQ để lượng tử hóa vector đặc trưng, sau đó huấn luyện và nhận dạng bằng mô hình HMM. Quá trình tiền xử lý bao gồm lọc nhiễu, tách tiếng nói khỏi khoảng lặng bằng VAD, chia khung và cửa sổ hóa tín hiệu bằng cửa sổ Hamming.
Timeline nghiên cứu: Nghiên cứu và phát triển từ năm 2012 đến 2014, bao gồm giai đoạn thu thập dữ liệu, xây dựng mô hình, thiết kế phần cứng và phần mềm, thử nghiệm và đánh giá kết quả.
Cỡ mẫu và chọn mẫu: Dữ liệu thu thập từ nhiều người nói khác nhau nhằm đảm bảo tính đa dạng giọng nói, tuy nhiên tập trung vào nhận dạng từ đơn để giảm độ phức tạp do đặc trưng tiếng Việt có nhiều thanh điệu và âm tiết.
Lý do lựa chọn phương pháp: MFCC được chọn vì độ tin cậy cao và tốc độ tính toán nhanh; VQ giúp giảm tải tính toán; HMM là mô hình hiệu quả trong nhận dạng chuỗi tín hiệu biến thiên theo thời gian.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng: Hệ thống nhận dạng tiếng Việt với bộ từ vựng 5 từ đạt độ chính xác khoảng 90% trong điều kiện môi trường yên tĩnh và hơn 90% trong điều kiện bình thường. Kết quả này tương đương với các hệ thống nhận dạng tiếng Anh hiện đại, cho thấy tính khả thi của mô hình.
Ảnh hưởng của môi trường: Độ chính xác giảm nhẹ khi có tạp âm nền, từ 92% trong môi trường không nhiễu xuống còn khoảng 90% trong môi trường có nhiễu. Điều này phản ánh tính nhạy cảm của hệ thống với chất lượng tín hiệu đầu vào.
Hiệu quả của thuật toán MFCC và VQ: Việc sử dụng MFCC kết hợp với lượng tử vector VQ giúp giảm đáng kể số lượng vector đặc trưng cần xử lý, từ đó giảm thời gian tính toán mà vẫn giữ được độ chính xác cao.
Ứng dụng phần cứng: Board Arduino Mega 2560 được sử dụng thành công để điều khiển robot mặt người thể hiện cảm xúc dựa trên lệnh nhận dạng, chứng minh khả năng ứng dụng thực tế của hệ thống trong công nghiệp.

Thảo luận kết quả

Nguyên nhân chính của độ chính xác cao là do việc áp dụng mô hình Markov ẩn HMM, vốn phù hợp với đặc tính biến thiên theo thời gian của tín hiệu tiếng nói. Thuật toán MFCC giúp trích xuất đặc trưng âm học hiệu quả, trong khi VQ giảm thiểu dữ liệu đầu vào cho mô hình, tăng tốc độ xử lý.

So với các nghiên cứu trước đây trong nước, kết quả này có sự cải thiện rõ rệt về độ chính xác và tính ổn định. Ví dụ, một nghiên cứu trước đó với bộ từ vựng 4 từ đạt độ chính xác trên 90%, trong khi luận văn này mở rộng bộ từ vựng và vẫn duy trì độ chính xác tương đương.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác nhận dạng trong các môi trường khác nhau, hoặc bảng thống kê kết quả thử nghiệm từng từ trong bộ từ vựng. Điều này giúp minh họa rõ ràng hiệu quả của hệ thống và các yếu tố ảnh hưởng.

Hạn chế của nghiên cứu là chỉ tập trung nhận dạng từ đơn, chưa mở rộng sang nhận dạng câu liên tục do đặc trưng phức tạp của tiếng Việt và giới hạn về thời gian nghiên cứu. Tuy nhiên, kết quả đạt được là nền tảng quan trọng cho các nghiên cứu tiếp theo.

Đề xuất và khuyến nghị

Mở rộng bộ từ vựng: Tăng số lượng từ đơn và phát triển nhận dạng từ ghép, câu liên tục để nâng cao khả năng ứng dụng trong thực tế. Thời gian thực hiện dự kiến 1-2 năm, do các nhóm nghiên cứu chuyên ngành điện tử và xử lý tín hiệu đảm nhiệm.
Cải thiện khả năng chống nhiễu: Nghiên cứu và tích hợp các thuật toán lọc nhiễu thích nghi, nâng cao độ chính xác trong môi trường công nghiệp nhiều tạp âm. Mục tiêu tăng độ chính xác lên trên 95% trong môi trường thực tế, thực hiện trong vòng 1 năm.
Phát triển phần cứng chuyên dụng: Thiết kế và sản xuất chip nhận dạng tiếng nói tích hợp, tối ưu hóa tài nguyên phần cứng và tốc độ xử lý, phù hợp cho các thiết bị di động và robot công nghiệp. Chủ thể thực hiện là các công ty công nghệ và viện nghiên cứu.
Xây dựng giao diện người dùng thân thiện: Phát triển phần mềm giao diện nhận dạng tiếng nói dễ sử dụng, hỗ trợ đa nền tảng và tích hợp với các hệ thống điều khiển tự động. Thời gian phát triển khoảng 6-12 tháng, do nhóm phát triển phần mềm đảm nhận.

Đối tượng nên tham khảo luận văn

Sinh viên và nghiên cứu sinh ngành kỹ thuật điện tử, viễn thông: Luận văn cung cấp kiến thức chuyên sâu về nhận dạng tiếng nói tiếng Việt, thuật toán MFCC, VQ và HMM, hỗ trợ học tập và nghiên cứu.
Kỹ sư phát triển phần mềm và phần cứng: Tài liệu hữu ích cho việc thiết kế hệ thống nhận dạng tiếng nói, phát triển ứng dụng điều khiển bằng giọng nói trong công nghiệp và dân dụng.
Doanh nghiệp công nghệ và robot: Các công ty sản xuất thiết bị điều khiển tự động, robot dịch vụ có thể áp dụng mô hình và giải pháp trong luận văn để nâng cao tính năng sản phẩm.
Nhà quản lý và hoạch định chính sách: Tham khảo để định hướng phát triển công nghệ nhận dạng tiếng nói trong nước, thúc đẩy nghiên cứu và ứng dụng công nghệ cao phù hợp với đặc thù tiếng Việt.

Câu hỏi thường gặp

Nhận dạng tiếng nói tiếng Việt có khó hơn tiếng Anh không?
Có, do tiếng Việt là ngôn ngữ có thanh điệu và âm tiết rõ ràng, không nối âm, nên việc nhận dạng đòi hỏi mô hình phức tạp hơn để xử lý các biến thiên về âm điệu và phát âm.
Tại sao chọn thuật toán MFCC trong trích đặc trưng?
MFCC mô phỏng cách tai người cảm nhận âm thanh, có độ tin cậy cao và tốc độ tính toán nhanh, phù hợp với các hệ thống nhận dạng tiếng nói hiện đại.
Lượng tử vector (VQ) giúp gì cho hệ thống?
VQ giảm số lượng vector đặc trưng cần xử lý bằng cách phân nhóm và gán nhãn, giúp giảm không gian lưu trữ và tăng tốc độ tính toán mà vẫn giữ được độ chính xác.
Mô hình Markov ẩn (HMM) có ưu điểm gì?
HMM mô hình hóa tốt các chuỗi tín hiệu biến thiên theo thời gian như tiếng nói, giúp nhận dạng chính xác các mẫu âm thanh phức tạp.
Hệ thống có thể áp dụng trong môi trường công nghiệp thực tế không?
Có thể, tuy nhiên cần cải thiện khả năng chống nhiễu và mở rộng bộ từ vựng để phù hợp với môi trường nhiều tạp âm và các lệnh phức tạp hơn.

Kết luận

Luận văn đã xây dựng thành công mô hình nhận dạng tiếng nói tiếng Việt thành lệnh với độ chính xác trên 90% trong điều kiện bình thường.
Áp dụng thuật toán MFCC, lượng tử vector VQ và mô hình Markov ẩn HMM cho kết quả hiệu quả, phù hợp với đặc trưng tiếng Việt.
Thiết kế phần cứng điều khiển robot mặt người thể hiện cảm xúc qua Board Arduino Mega 2560 chứng minh khả năng ứng dụng thực tế.
Hạn chế hiện tại là chỉ nhận dạng từ đơn và chưa tối ưu hoàn toàn trong môi trường nhiễu.
Đề xuất mở rộng bộ từ vựng, cải thiện chống nhiễu và phát triển phần cứng chuyên dụng trong các nghiên cứu tiếp theo.

Các nhà nghiên cứu và kỹ sư được khuyến khích áp dụng và phát triển mô hình này để nâng cao hiệu quả nhận dạng tiếng Việt, đồng thời mở rộng ứng dụng trong công nghiệp và đời sống.

Bài viết "Ứng dụng kỹ thuật nhận dạng tiếng nói trong công nghiệp tại HCMUTE" khám phá những tiến bộ trong việc áp dụng công nghệ nhận dạng tiếng nói vào các quy trình công nghiệp tại Trường Đại học Công nghệ TP.HCM (HCMUTE). Tác giả trình bày cách mà công nghệ này không chỉ giúp tăng cường hiệu suất làm việc mà còn cải thiện độ chính xác trong việc xử lý thông tin. Đặc biệt, bài viết nhấn mạnh những lợi ích mà nhận dạng tiếng nói mang lại, như giảm thiểu thời gian thao tác và nâng cao trải nghiệm người dùng trong môi trường công nghiệp.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ tiên tiến khác, bạn có thể tham khảo bài viết "Hcmute nghiên cứu và ứng dụng kĩ thuật deep learning vào xe tự hành", nơi mà deep learning được áp dụng để phát triển các phương tiện tự hành. Ngoài ra, bài viết "Giải pháp thu thập dữ liệu giao thông bằng kỹ thuật giọng nói" cũng sẽ cung cấp cái nhìn sâu sắc về việc sử dụng công nghệ giọng nói trong việc thu thập và phân tích dữ liệu giao thông. Cuối cùng, bạn có thể tìm hiểu thêm về "Luận văn thạc sĩ nghiên cứu học sâu trong nhận dạng khuôn mặt ứng dụng cho bài toán điểm danh tự động học sinh", một ứng dụng khác của công nghệ nhận dạng trong giáo dục. Những bài viết này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng công nghệ hiện đại trong nhiều lĩnh vực khác nhau.

#tự động hóa

#trí tuệ nhân tạo

#nhận dạng tiếng nói

#ứng dụng công nghiệp

#công nghệ giọng nói

#kỹ thuật nhận dạng

Chủ đề

Tự động hóa và robot

Trí tuệ nhân tạo và ứng dụng

Phát Triển Công Nghệ tại HCMUTE

Công nghệ thông tin trong công nghiệp

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp tại HCMUTE

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước

1.2. ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT

1.3. TỔNG QUAN VỀ TIẾNG NÓI

1.4. MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

3. CHƯƠNG 3: Voice Activation Detection (VAD)

4. CHƯƠNG 4: MÔ HÌNH MARKOV ẨN HMM

5. CHƯƠNG 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT

6. CHƯƠNG 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG

7. CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

I. Giới thiệu về nhận dạng giọng nói và ứng dụng tại HCMUTE

1.1. Công nghệ nhận dạng giọng nói và các thách thức

1.2. Ứng dụng nhận dạng tiếng nói trong công nghiệp

II. Phân tích kỹ thuật nhận dạng tiếng nói và phát triển ứng dụng

2.1. Mô hình Markov ẩn HMM và mạng nơ ron ANN

2.2. Thực trạng ứng dụng và xu hướng phát triển

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thành Chung

Người hướng dẫn: PGS. Trần Thu Hà

Trường học: Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành: Kỹ Thuật Điện Tử

Đề tài: Kỹ Thuật Nhận Dạng Tiếng Nói Thành Lệnh Ứng Dụng Trong Công Nghiệp

Loại tài liệu: luận văn

Năm xuất bản: 2014

Địa điểm: Tp. Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp tại HCMUTE

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước

1.2. ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT

1.3. TỔNG QUAN VỀ TIẾNG NÓI

1.4. MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

3. CHƯƠNG 3: Voice Activation Detection (VAD)

4. CHƯƠNG 4: MÔ HÌNH MARKOV ẨN HMM

5. CHƯƠNG 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT

6. CHƯƠNG 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG

7. CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

I. Giới thiệu về nhận dạng giọng nói và ứng dụng tại HCMUTE

1.1. Công nghệ nhận dạng giọng nói và các thách thức

1.2. Ứng dụng nhận dạng tiếng nói trong công nghiệp

II. Phân tích kỹ thuật nhận dạng tiếng nói và phát triển ứng dụng

2.1. Mô hình Markov ẩn HMM và mạng nơ ron ANN

2.2. Thực trạng ứng dụng và xu hướng phát triển

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thành Chung

Người hướng dẫn: PGS. Trần Thu Hà

Trường học: Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh

Chuyên ngành: Kỹ Thuật Điện Tử

Đề tài: Kỹ Thuật Nhận Dạng Tiếng Nói Thành Lệnh Ứng Dụng Trong Công Nghiệp

Loại tài liệu: luận văn

Năm xuất bản: 2014

Địa điểm: Tp. Hồ Chí Minh

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận