Ứng Dụng Mạng Nơ-ron Sâu (DNN) Nhận Dạng Người Trong Nhà Qua Giọng Nói

Luận văn thạc sĩ kỹ thuật phân tích công nghệ thông tin ứng dụng deep neural network dnn nhận dạng người trong nhà thông qua sinh trắc, đánh giá thực trạng, chỉ ra hạn chế, đề

Trường đại học

Đại Học Quốc Gia Thành Phố Hồ Chí Minh

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

114

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. GIỚI THIỆU ĐỀ TÀI

1.2. LÝ DO CHỌN ĐỀ TÀI

1.3. MỤC TIÊU TỔNG QUÁT

1.4. MỤC TIÊU CỤ THỂ

1.5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

2. CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ HƯỚNG TIẾP CẬN LIÊN QUAN

2.1. TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ TRONG NƯỚC

2.2. TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ NƯỚC NGOÀI

2.3. NHỮNG VẤN ĐỀ CẦN NGHIÊN CỨU GIẢI QUYẾT

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. CÁC ĐẶC TRƯNG CỦA TIẾNG NÓI

3.2. CÁC MÔ HÌNH NHẬN DẠNG GIỌNG NÓI

3.2.1. Mô hình Markov ẩn (HMM)

3.2.2. Mô hình mạng nơ-ron

3.3. CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG GIỌNG NÓI

3.3.1. Trích xuất đặc trưng giọng nói sử dụng MFCC (Mel Frequency Cepstral Coefficients)

3.3.2. Phương pháp mã dự đoán

3.3.3. Đặc trưng PLP

3.4. BỘ DỮ LIỆU THỰC NGHIỆM

4. CHƯƠNG 4: SƠ ĐỒ THIẾT KẾ HỆ THỐNG

4.1. XỬ LÝ LOẠI BỎ NHIỄU BẰNG GIẢI THUẬT PNCC

4.2. TIỀN XỬ LÝ

4.3. PHÂN KHUNG DỮ LIỆU

4.4. NHỮNG CẢI TIẾN CỦA KĨ THUẬT PNCC

4.5. XÂY DỰNG MÔ HÌNH HUẤN LUYỆN DỮ LIỆU BẰNG GIẢI THUẬT ANN VÀ CÁC KỊCH BẢN THỰC NGHIỆM

4.6. GIAI ĐOẠN HUẤN LUYỆN MÔ HÌNH

4.7. KỊCH BẢN NHẬN DIỆN CHỦ NHÀ VÀ ĐIỀU KHIỂN THIẾT BỊ

4.8. KỊCH BẢN KIỂM THỬ SẢN PHẨM

5. CHƯƠNG 5: KẾT QUẢ THỰC NGHIỆM

5.1. THỰC NGHIỆM GIẢI THUẬT PNCC LỌC NHIỄU ÂM THANH

5.2. TÍNH PHỨC TẠP

5.3. KẾT QUẢ NHẬN DIỆN CHỦ NHÀ VỚI TỪ KHÓA LÀ “NGUYÊN”

5.4. KẾT QUẢ ĐIỀU KHIỂN THIẾT BỊ TRONG MÔI TRƯỜNG NHIỄU

5.5. NHỮNG CẢI TIẾN TRONG THIẾT KẾ

6. CHƯƠNG 6: KẾT LUẬN VÀ KIẾN NGHỊ

6.1. VỀ NỘI DUNG NGHIÊN CỨU

6.2. VỀ KẾT QUẢ KHOA HỌC

6.3. VỀ KẾT QUẢ THỰC TIỄN

6.4. HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN

TÀI LIỆU THAM KHẢO

PHỤ LỤC

I. Board respeaker V2 mic array - Đặc trưng - Thông số kĩ thuật

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Tóm tắt

I. Tổng Quan Ứng Dụng Mạng Nơ ron Sâu Nhận Dạng Giọng Nói

Trong kỷ nguyên nhà thông minh, việc nhận biết ai đang tương tác với hệ thống là vô cùng quan trọng. Điều khiển bằng giọng nói mang lại hiệu quả cao trong môi trường yên tĩnh. Tuy nhiên, hiệu suất giảm sút đáng kể khi có nhiều người hoặc tiếng ồn. Vì vậy, hệ thống nhà thông minh cần xác định chính xác người dùng. Nhận dạng người nói sử dụng đặc điểm giọng nói, hay còn gọi là sinh trắc học giọng nói, để xác minh danh tính. Nghiên cứu này tập trung xây dựng mô hình trên nền tảng IoT, khai thác sinh trắc học giọng nói để điều khiển các thiết bị thông minh trong môi trường ồn ào.

1.1. Giới thiệu bài toán nhận dạng người bằng giọng nói

Bài toán nhận dạng người bằng giọng nói đặt ra thách thức lớn, đặc biệt trong môi trường nhà thông minh. Việc phân biệt các thành viên trong gia đình, đồng thời loại bỏ ảnh hưởng của tiếng ồn, đòi hỏi những thuật toán và mô hình mạnh mẽ. Các phương pháp truyền thống thường gặp khó khăn khi đối diện với sự phức tạp của âm thanh trong môi trường thực tế. Nghiên cứu này hướng đến việc giải quyết vấn đề này bằng cách sử dụng các kỹ thuật tiên tiến của mạng nơ-ron sâu.

1.2. Tầm quan trọng của nhận dạng giọng nói trong nhà thông minh

Nhận dạng giọng nói đóng vai trò then chốt trong việc cá nhân hóa trải nghiệm người dùng trong nhà thông minh. Khả năng xác định người dùng cho phép hệ thống điều chỉnh cài đặt, đưa ra gợi ý và cung cấp dịch vụ phù hợp với từng cá nhân. Điều này không chỉ tăng cường sự tiện lợi mà còn nâng cao tính bảo mật và an toàn cho ngôi nhà. Theo tài liệu tham khảo, "Tự động hóa nhà với điều khiển bằng giọng nói có thể đạt được hiệu suất cao trong môi trường không có tiếng ồn".

II. Thách Thức Vấn Đề Nhận Dạng Giọng Nói Trong Thực Tế

Những ngôi nhà thông minh hiện đại đối mặt với thách thức tạo ra môi trường thông minh cho nhiều cư dân. Việc xác định từng cá nhân trở nên phức tạp. Một giải pháp khả thi là sử dụng sinh trắc học giọng nói. Nghiên cứu này cho phép hệ thống đưa ra quyết định thông minh và điều khiển thiết bị dựa trên cư dân hiện tại. Tuy nhiên, thực hiện các hoạt động trong môi trường nhiều người mà không có xác nhận cụ thể cá nhân là khó khăn.

2.1. Ảnh hưởng của nhiễu đến độ chính xác nhận dạng

Môi trường nhiều tiếng ồn, như tiếng TV, tiếng nói chuyện, hoặc tiếng thiết bị gia dụng, gây ảnh hưởng lớn đến độ chính xác của hệ thống nhận dạng giọng nói. Các thuật toán cần có khả năng lọc bỏ nhiễu và trích xuất đặc trưng giọng nói một cách chính xác. Việc sử dụng các kỹ thuật tiền xử lý tín hiệu và các mô hình học sâu có khả năng chống nhiễu là rất quan trọng. Theo tài liệu, hiệu suất của điều khiển bằng giọng nói giảm đáng kể khi có nhiều cư dân hoặc trong môi trường ồn ào.

2.2. Khó khăn trong việc phân biệt giọng nói của nhiều người

Khi nhiều người cùng nói chuyện, hệ thống cần có khả năng phân biệt và xác định từng người một cách chính xác. Điều này đòi hỏi các thuật toán có khả năng xử lý tín hiệu âm thanh phức tạp và phân tách các nguồn âm thanh khác nhau. Các mô hình mạng nơ-ron sâu có thể được huấn luyện để nhận diện các đặc trưng riêng biệt của từng người nói, ngay cả trong môi trường hỗn tạp. Cần phải có các biện pháp thích hợp để xác định các cư dân.

III. Phương Pháp Mạng Nơ ron Sâu Cho Nhận Dạng Người Nói

Nghiên cứu tập trung vào việc sử dụng mạng nơ-ron sâu (DNN) để giải quyết các thách thức trong nhận dạng giọng nói. DNN có khả năng học các biểu diễn phức tạp của dữ liệu âm thanh, từ đó cải thiện độ chính xác và khả năng chống nhiễu. Các kiến trúc mạng như Convolutional Neural Networks (CNNs) và Recurrent Neural Networks (RNNs), đặc biệt là Long Short-Term Memory (LSTM), được sử dụng để trích xuất các đặc trưng giọng nói quan trọng.

3.1. Ưu điểm của Deep Learning so với phương pháp truyền thống

Deep Learning vượt trội hơn các phương pháp truyền thống nhờ khả năng tự động học các biểu diễn đặc trưng từ dữ liệu thô. Trong khi các phương pháp truyền thống yêu cầu kỹ sư phải thiết kế thủ công các đặc trưng, mạng nơ-ron sâu có thể tự động khám phá các mẫu và cấu trúc quan trọng trong dữ liệu âm thanh. Điều này giúp cải thiện độ chính xác và giảm thiểu công sức phát triển.

3.2. Các kiến trúc mạng nơ ron sâu phổ biến cho nhận dạng giọng nói

CNNs được sử dụng để trích xuất các đặc trưng cục bộ từ spectrogram của âm thanh, trong khi RNNs (đặc biệt là LSTMs) có khả năng xử lý các chuỗi thời gian và nắm bắt thông tin ngữ cảnh. Sự kết hợp của các kiến trúc này, cùng với các kỹ thuật như transfer learning, mang lại hiệu quả cao trong nhận dạng giọng nói. Các kiến trúc mạng nơ-ron sâu (DNN) được chứng minh hoạt động tốt hơn các mô hình HMM - GMM.

3.3. Kỹ thuật trích xuất đặc trưng Feature Extraction sử dụng MFCC PNCC

MFCC (Mel-Frequency Cepstral Coefficients) và PNCC (Power-Normalized Cepstral Coefficients) là hai kỹ thuật phổ biến để trích xuất đặc trưng từ tín hiệu giọng nói. MFCC tập trung vào các đặc trưng liên quan đến cảm nhận âm thanh của con người, trong khi PNCC được thiết kế để chống lại nhiễu. Việc lựa chọn và kết hợp các đặc trưng phù hợp có thể cải thiện đáng kể hiệu suất của hệ thống nhận dạng giọng nói.

IV. Ứng Dụng Kết Quả Nhận Dạng Người Qua Giọng Nói Thực Tế

Nghiên cứu đã xây dựng một hệ thống nhà thông minh sử dụng sinh trắc học giọng nói để xác định cá nhân. Hệ thống được huấn luyện với cơ sở dữ liệu giọng nói thu thập từ 350 người Việt Nam. Kết quả cho thấy mô hình mạng nơ-ron nhân tạo (ANN) cải thiện đáng kể độ chính xác nhận dạng trong môi trường nhiều người. Độ chính xác của nhận diện người trong nhà đạt trên 90%.

4.1. Xây dựng cơ sở dữ liệu giọng nói tiếng Việt cho huấn luyện

Việc xây dựng một cơ sở dữ liệu giọng nói chất lượng cao là yếu tố then chốt để huấn luyện các mô hình nhận dạng giọng nói hiệu quả. Cơ sở dữ liệu cần bao gồm giọng nói của nhiều người, với các điều kiện môi trường khác nhau và các biến thể ngôn ngữ khác nhau. Việc sử dụng các kỹ thuật tăng cường dữ liệu có thể giúp tăng tính đa dạng và độ mạnh mẽ của mô hình.

4.2. Huấn luyện mô hình ANN và đánh giá hiệu suất thực nghiệm

Mô hình ANN được huấn luyện trên cơ sở dữ liệu giọng nói đã xây dựng. Hiệu suất của mô hình được đánh giá bằng các metrics như độ chính xác, độ nhạy và độ đặc hiệu. Các thử nghiệm được thực hiện trong môi trường thực tế, với các mức độ nhiễu khác nhau, để đánh giá khả năng chống nhiễu của mô hình. Độ chính xác của nhận diện người trong nhà trên 90%.

4.3. Ứng dụng thực tế trong điều khiển thiết bị và xác thực sinh trắc học

Hệ thống nhận dạng giọng nói có thể được ứng dụng trong nhiều lĩnh vực, bao gồm điều khiển thiết bị gia dụng, xác thực sinh trắc học và hỗ trợ người khuyết tật. Trong môi trường nhà thông minh, hệ thống có thể cho phép người dùng điều khiển đèn, TV, máy lạnh và các thiết bị khác bằng giọng nói. Trong lĩnh vực bảo mật, hệ thống có thể được sử dụng để xác thực danh tính của người dùng trước khi truy cập vào các hệ thống quan trọng. Các thiết bị điều khiển thông minh bằng tiếng Việt có độ chính xác trên 90%.

V. Kết Luận Tương Lai Phát Triển Nhận Dạng Giọng Nói AI

Nghiên cứu này đã chứng minh tiềm năng của mạng nơ-ron sâu trong việc cải thiện nhận dạng giọng nói trong môi trường nhà thông minh. Các kết quả đạt được mở ra nhiều hướng nghiên cứu mới, bao gồm việc phát triển các thuật toán chống nhiễu mạnh mẽ hơn, cải thiện khả năng phân biệt giọng nói của nhiều người và tích hợp hệ thống nhận dạng giọng nói vào các ứng dụng IoT khác.

5.1. Các hướng nghiên cứu tiếp theo để nâng cao độ chính xác

Các hướng nghiên cứu tiềm năng bao gồm việc sử dụng các kiến trúc mạng phức tạp hơn, như Transformers và Attention Mechanisms, để cải thiện khả năng nắm bắt thông tin ngữ cảnh. Nghiên cứu về transfer learning và domain adaptation có thể giúp cải thiện hiệu suất của mô hình trên các cơ sở dữ liệu giọng nói khác nhau.

5.2. Tích hợp nhận dạng giọng nói vào các hệ thống IoT và AI

Hệ thống nhận dạng giọng nói có thể được tích hợp vào các hệ thống IoT để tạo ra các giải pháp nhà thông minh toàn diện. Ví dụ, hệ thống có thể kết hợp với các cảm biến để theo dõi hoạt động của người dùng và tự động điều chỉnh các thiết bị trong nhà. Hệ thống cũng có thể được tích hợp với các trợ lý ảo để cung cấp trải nghiệm người dùng tự nhiên và trực quan hơn.

5.3. Triển vọng và ứng dụng của công nghệ trong tương lai gần

Công nghệ nhận dạng giọng nói có tiềm năng cách mạng hóa cách chúng ta tương tác với các thiết bị và hệ thống xung quanh. Trong tương lai, chúng ta có thể mong đợi thấy các ứng dụng mới trong lĩnh vực y tế, giáo dục và giải trí. Các thiết bị đeo được, như đồng hồ thông minh và tai nghe, có thể sử dụng nhận dạng giọng nói để cung cấp các dịch vụ cá nhân hóa và hỗ trợ người dùng trong các hoạt động hàng ngày.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin ứng dụng deep neural network dnn nhận dạng người trong nhà thông qua sinh trắc học bằng giọng nói

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ nhà thông minh, việc nhận dạng chính xác cư dân trong môi trường nhiều người và có tiếng ồn là một thách thức lớn. Theo ước tính, hệ thống nhận dạng giọng nói truyền thống đạt hiệu suất trên 90% trong môi trường không có nhiễu, nhưng hiệu suất này giảm đáng kể khi có nhiều cư dân hoặc tiếng ồn nền. Luận văn tập trung vào việc ứng dụng mạng nơ-ron sâu (Deep Neural Network - DNN) kết hợp với sinh trắc học giọng nói để nhận dạng người trong nhà thông qua giọng nói, nhằm nâng cao độ chính xác trong môi trường thực tế có nhiều tiếng ồn.

Mục tiêu cụ thể của nghiên cứu là xây dựng một hệ thống nhà thông minh dựa trên nền tảng IoT, sử dụng sinh trắc học giọng nói để xác định cá nhân và điều khiển thiết bị thông minh bằng tiếng Việt. Phạm vi nghiên cứu bao gồm thu thập dữ liệu giọng nói từ khoảng 350 người Việt Nam tại Bình Thuận, với độ tuổi từ 15 đến 17, trong điều kiện môi trường ít nhiễu. Hệ thống được huấn luyện và thử nghiệm trên tập dữ liệu gồm hơn 6200 file âm thanh với các câu lệnh điều khiển thiết bị và từ khóa nhận dạng chủ nhà.

Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các giải pháp nhà thông minh phù hợp với đặc thù tiếng Việt và môi trường thực tế tại Việt Nam, góp phần nâng cao trải nghiệm người dùng và tăng cường an ninh trong nhà thông minh. Độ chính xác nhận dạng người trong nhà đạt trên 90%, đồng thời hệ thống điều khiển thiết bị thông minh qua giọng nói cũng đạt hiệu suất tương tự, mở ra hướng phát triển ứng dụng rộng rãi trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: mạng nơ-ron sâu (DNN) và sinh trắc học giọng nói. DNN là mô hình mạng nơ-ron nhân tạo có nhiều lớp ẩn, cho phép học các đặc trưng phức tạp từ dữ liệu giọng nói, vượt trội hơn các mô hình truyền thống như HMM-GMM. Sinh trắc học giọng nói sử dụng các đặc điểm âm học độc đáo của từng cá nhân để nhận dạng, bao gồm các tham số như hệ số Mel-frequency cepstral coefficients (MFCC) và hệ số Power-Normalized Cepstral Coefficients (PNCC).

Ba khái niệm chính được sử dụng trong nghiên cứu gồm:

PNCC (Power-Normalized Cepstral Coefficients): Thuật toán trích xuất đặc trưng giọng nói có khả năng khử nhiễu hiệu quả, cải thiện độ chính xác nhận dạng trong môi trường ồn ào.
Mạng nơ-ron nhân tạo (ANN): Mô hình học máy được huấn luyện để phân loại và nhận dạng giọng nói dựa trên đặc trưng đầu vào.
Mạng nơ-ron sâu (DNN): Mạng ANN nhiều lớp ẩn, giúp mô hình hóa các đặc trưng phức tạp và tăng cường khả năng nhận dạng trong môi trường đa người và nhiễu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu giọng nói thu thập từ 350 người Việt Nam, gồm 140 nam và 160 nữ, độ tuổi 15-17, tại Bình Thuận. Dữ liệu ghi âm bằng điện thoại di động trong môi trường ít nhiễu, với tổng số hơn 6200 file âm thanh, bao gồm từ khóa nhận dạng chủ nhà và các câu lệnh điều khiển thiết bị trong nhà.

Phương pháp phân tích sử dụng thuật toán trích xuất đặc trưng PNCC để xử lý và lọc nhiễu âm thanh, kết hợp với mô hình mạng nơ-ron nhân tạo (ANN) và mạng nơ-ron sâu (DNN) để huấn luyện và nhận dạng giọng nói. Tập dữ liệu được chia thành 80% dùng để huấn luyện, 10% để đánh giá và 10% để thử nghiệm, đảm bảo tính khách quan và độ tin cậy của kết quả.

Quá trình nghiên cứu kéo dài trong năm 2022, bao gồm các bước: thu thập dữ liệu, xử lý và trích xuất đặc trưng, xây dựng mô hình DNN, huấn luyện và đánh giá mô hình trên thiết bị nhúng, thử nghiệm trong môi trường thực tế với các kịch bản điều khiển thiết bị thông minh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng người trong nhà đạt trên 90% trong môi trường ít nhiễu, thể hiện qua kết quả thử nghiệm với từ khóa "Nguyên" và các câu lệnh điều khiển thiết bị. So với các phương pháp truyền thống như MFCC, PNCC cải thiện độ chính xác nhận dạng lên khoảng 15-20%.
Hiệu quả lọc nhiễu của thuật toán PNCC vượt trội hơn MFCC và PLP, giúp duy trì độ chính xác nhận dạng trên 85% trong môi trường có tiếng ồn trung bình và trên 80% trong môi trường tiếng ồn cao, theo các bảng kết quả thử nghiệm.
Mô hình DNN cho kết quả nhận dạng tốt hơn mô hình HMM-GMM truyền thống, giảm tỷ lệ lỗi nhận dạng xuống dưới 10%, tương đương giảm 30-40% so với các mô hình cũ. Điều này được thể hiện qua các chỉ số EER (Equal Error Rate) và DCF (Detection Cost Function) trong các thử nghiệm.
Hệ thống điều khiển thiết bị thông minh qua giọng nói đạt độ chính xác trên 90%, cho phép nhận dạng chính xác người dùng và thực hiện các lệnh bật/tắt thiết bị trong nhà như đèn, quạt, máy lạnh, tivi.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác là do việc áp dụng thuật toán PNCC giúp xử lý hiệu quả các tạp âm và nhiễu nền, đồng thời mô hình DNN có khả năng học các đặc trưng phức tạp của giọng nói tiếng Việt trong môi trường đa người. Kết quả này phù hợp với các nghiên cứu quốc tế về ứng dụng DNN trong nhận dạng giọng nói, đồng thời khẳng định tính khả thi của việc áp dụng sinh trắc học giọng nói trong nhà thông minh tại Việt Nam.

So sánh với các nghiên cứu trong nước sử dụng bộ công cụ Kaldi và MFCC kết hợp DTW, nghiên cứu này nâng cao đáng kể độ chính xác và khả năng ứng dụng trong môi trường thực tế có tiếng ồn. Các biểu đồ so sánh độ chính xác nhận dạng trong các môi trường nhiễu khác nhau minh họa rõ sự vượt trội của PNCC và DNN.

Ý nghĩa của kết quả là mở ra hướng phát triển các hệ thống nhà thông minh có khả năng nhận dạng cá nhân chính xác, tăng cường an ninh và tiện ích cho người dùng, đồng thời tạo nền tảng cho các nghiên cứu dự đoán hành vi con người dựa trên giọng nói.

Đề xuất và khuyến nghị

Triển khai rộng rãi hệ thống nhận dạng giọng nói sử dụng PNCC và DNN trong các nhà thông minh tại Việt Nam nhằm nâng cao độ chính xác nhận dạng cá nhân, đặc biệt trong môi trường nhiều người và tiếng ồn. Thời gian thực hiện dự kiến trong 1-2 năm, chủ thể là các doanh nghiệp công nghệ và nhà phát triển IoT.
Phát triển thiết bị đầu cuối tích hợp mô hình DNN tối ưu cho xử lý nhúng, giúp giảm độ trễ và tăng tính bảo mật khi xử lý giọng nói tại chỗ, không truyền dữ liệu ra ngoài. Khuyến nghị nghiên cứu và phát triển trong vòng 12 tháng bởi các trung tâm nghiên cứu và công ty phần cứng.
Mở rộng tập dữ liệu giọng nói đa dạng về độ tuổi, vùng miền và điều kiện môi trường, nhằm cải thiện khả năng tổng quát hóa của mô hình, giảm thiểu sai số nhận dạng. Đây là nhiệm vụ liên tục, cần sự phối hợp của các tổ chức nghiên cứu và cộng đồng người dùng.
Tích hợp hệ thống nhận dạng giọng nói với các giải pháp an ninh và quản lý nhà thông minh, như camera nhận dạng khuôn mặt, cảm biến chuyển động để tăng cường độ chính xác và bảo mật. Thời gian triển khai 1-3 năm, chủ thể là các nhà cung cấp giải pháp nhà thông minh.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Khoa học Máy tính: Nghiên cứu cung cấp kiến thức chuyên sâu về ứng dụng DNN và sinh trắc học giọng nói trong nhận dạng người, hỗ trợ phát triển các đề tài liên quan.
Doanh nghiệp phát triển sản phẩm nhà thông minh và IoT: Tham khảo để áp dụng các thuật toán xử lý giọng nói và mô hình học sâu nâng cao hiệu quả sản phẩm, đặc biệt trong môi trường tiếng Việt.
Chuyên gia an ninh mạng và bảo mật: Tìm hiểu về các phương pháp xác thực sinh trắc học giọng nói, góp phần xây dựng hệ thống an ninh thông minh, bảo vệ quyền riêng tư người dùng.
Cơ quan quản lý và hoạch định chính sách công nghệ: Đánh giá tiềm năng và thách thức của công nghệ nhận dạng giọng nói trong nhà thông minh, từ đó xây dựng các quy định và hướng dẫn phù hợp.

Câu hỏi thường gặp

Mạng nơ-ron sâu (DNN) là gì và tại sao lại được sử dụng trong nhận dạng giọng nói?
DNN là mạng nơ-ron nhân tạo có nhiều lớp ẩn, giúp học các đặc trưng phức tạp từ dữ liệu giọng nói. Nó vượt trội hơn các mô hình truyền thống như HMM-GMM nhờ khả năng mô hình hóa phi tuyến và trích xuất đặc trưng sâu, từ đó nâng cao độ chính xác nhận dạng.
PNCC khác gì so với MFCC trong trích xuất đặc trưng giọng nói?
PNCC sử dụng luật phi tuyến của lũy thừa và kỹ thuật lọc không đối xứng để khử nhiễu hiệu quả hơn MFCC, giúp duy trì độ chính xác nhận dạng trong môi trường có nhiều tạp âm và tiếng ồn.
Hệ thống nhận dạng giọng nói có thể hoạt động tốt trong môi trường nhiều người và tiếng ồn không?
Theo kết quả nghiên cứu, hệ thống sử dụng PNCC và DNN đạt độ chính xác trên 85% trong môi trường tiếng ồn trung bình và vẫn duy trì trên 80% trong môi trường tiếng ồn cao, cho thấy khả năng ứng dụng thực tế cao.
Tập dữ liệu giọng nói được thu thập như thế nào?
Dữ liệu được thu thập từ khoảng 350 người Việt Nam, độ tuổi 15-17, tại Bình Thuận, ghi âm bằng điện thoại di động trong môi trường ít nhiễu, với hơn 6200 file âm thanh gồm từ khóa nhận dạng và câu lệnh điều khiển thiết bị.
Làm thế nào để hệ thống điều khiển thiết bị thông minh qua giọng nói?
Sau khi nhận dạng chính xác người nói, hệ thống sẽ phân tích câu lệnh điều khiển (ví dụ: bật/tắt đèn, quạt) và gửi tín hiệu điều khiển thiết bị tương ứng qua nền tảng IoT, đảm bảo thao tác nhanh chóng và chính xác.

Kết luận

Nghiên cứu đã xây dựng thành công hệ thống nhận dạng người trong nhà thông qua sinh trắc học giọng nói sử dụng mạng nơ-ron sâu (DNN) và thuật toán PNCC, đạt độ chính xác trên 90% trong môi trường ít nhiễu.
Thuật toán PNCC giúp cải thiện đáng kể khả năng lọc nhiễu so với các phương pháp truyền thống như MFCC và PLP, duy trì hiệu suất trong môi trường tiếng ồn.
Mô hình DNN vượt trội hơn các mô hình HMM-GMM truyền thống, giảm tỷ lệ lỗi nhận dạng và tăng tính ổn định trong môi trường đa người.
Hệ thống điều khiển thiết bị thông minh qua giọng nói bằng tiếng Việt được thực hiện hiệu quả, mở rộng ứng dụng trong nhà thông minh tại Việt Nam.
Các bước tiếp theo bao gồm mở rộng tập dữ liệu, tối ưu mô hình cho thiết bị nhúng và tích hợp hệ thống với các giải pháp an ninh để nâng cao tính ứng dụng thực tiễn.

Khuyến khích các nhà nghiên cứu và doanh nghiệp công nghệ tiếp tục phát triển và ứng dụng các giải pháp nhận dạng giọng nói dựa trên DNN và sinh trắc học giọng nói để nâng cao trải nghiệm người dùng trong nhà thông minh.

Trích đoạn nội dung tài liệu

CHƯƠNG 1: TONG QUAN 1. GIỚI THIỆU ĐÈ TÀI Tự động hóa nhà với điều khiển bằng giọng nói có thể đạt được hiệu suất cao trong môi trường không có tiếng ồn. Tuy nhiên, hiệu suất như vậy giảm đáng kể trong tình trạng nhiều cư dân hoặc trong môi trường ồn ào nói chung. Trong trường hợp này, nhà thông minh cần giải quyết các van đề xác định cư dân theo một cách nào đó.

Nó đòi hỏi t số cách tiếp cận thích hợp cho các ứng dụng nhà thông minh đề giải quyết vấn đề xác định các cư dân. Nhận dạng giọng nói là một phương thức sinh trắc học sử dụng các đặc điêm của giọng nói (sinh trắc học giọng nói) để xác định một người trong ngôi nhà thông minh. Do đó, nghiên cứu này xây dựng một mô hình trên nền tảng IoT sử dụng sinh trắc học giọng nói như một phương tiện xác định các cá nhân dé điều khién các thiết bị thông minh trong môi trường én ào. Đồng thời kết quả của nghiên cứu này sẽ cung cấp nền tảng cho việc nghiên cứu và dự đoán hành vi của con người.

LY DO CHỌN DE TÀI Thách thức của những ngôi nhà thông minh hiện đại là làm thé nào dé tạo ra một môi trường thông minh cho nhiều cư dân, điều này là vô cùng khó khăn do sự phức tạp của việc xác định các cá nhân [26]. Một trong những giải pháp khả thi là sử dụng sinh trắc học giọng nói duy nhất giữa mọi người dé xác định cư dân bên trong môi trường nhà thông minh. Hơn thế nữa, nghiên cứu cho phép hệ thống đưa ra các quyết định thông minh và điều khiển các thiết bị cuối dựa trên cư dan hiện tại. Tuy nhiên, điều này thực sự khó khăn khi thực hiện các hoạt động trong môi trường có nhiều người mà không có xác nhận cụ thẻ cá nhân.

Đã có một số nghiên cứu thông minh trong môi trường nhiều người. Dé nhận ra hoạt động của nhiều cư dan, các mô hình trình tự được sử dụng. để thực hiện dự đoán theo thời gian, được gọi là mô hình thời gian. Các thuật toán trí tuệ nhân tạo trong học máy như mạng Bayes và mạng nơ-ron được nghiên cứu.

Các mô hình 11 đã được nghiên cứu như Mô hình Markov an (Hidden Markov Model - HMM) va truong ngẫu nhiên có điều kiện (Conditional Random Field). Bên cạnh đó, các mô hình phi thời gian cũng được giới thiệu để xác định các hoạt động được mô hình hóa của nhiều cư dân. Cách tiếp cận này khám phá các tập dữ liệu về ảnh được thu thập từ các gia đình trong một khoảng thời gian nhất định để ngụ ý dự đoán hoạt động. Cả hai phương pháp tiếp cận theo thời gian và phi thời gian đều sử dụng các đặc trưng thời gian làm đầu vào.

Tuy nhiên, vì các mô hình này được kiểm tra bằng cách sử dụng các bộ dữ liệu khác nhau, nên rất khó đề đạt được so sánh về hiệu.MỤC TIÊU TỎNG QUÁT Đề xuất một hệ thống nhà thông minh sử dụng sinh trắc học giọng nói dé xác định cá nhân. Nghiên cứu hiện thực một thiết bị nhận dạng giọng nói để điều khiển các thiết bị thông minh. Nghiên cứu ứng dụng mô hình mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) nâng cao tính chính xác của nhận dạng trong môi trường nhiều người.MỤC TIÊU CỤ THÊ Nghiên cứu đề xuất một giải pháp nhà thông minh ứng dụng công nghệ IoT sử dụng sinh trắc học giọng nói để xác định cá nhân: - Giải pháp IoT cho nhà thông minh - Giải pháp cho thiết bị đầu cuối điều khiển bằng giọng nói. Nghiên cứu thiết kế và tích hợp giải thuật hệ số công suất cepstral (Power- Normalized Cepstral Coefficients - PNCC) có thể xác định người sử dụng nhà thông minh bằng cách sử dụng sinh trắc học bằng giọng nói.

Cụ thé: xử lý lọc nhiễu môi trường âm thanh giọng nói của người trong nhà thông minh đê xác minh từ word work trước khi điều khiển (trong luận văn này là từ Nguyên) 12 Xây dựng tập dữ liệu giọng nói với các từ sử dụng trong nhà thông minh và thực hiện huấn luyện dữ liệu bằng mô hình ANN hiện thực trên thiết bị nhúng. “Thực hiện rút trích đặc trưng giọng nói của người sử dụng nhà thông minh sử dụng giải thuật PNCC và mô hình ANN. Nhận dạng giọng nói tiếng Việt ứng dụng trong nhà thông minh. Có thể điều khiển các thiết bị thông minh bằng tiếng Việt.

Độ chính xác của nhận diện người trong nhà trên 90%. Nhận dang các lệnh dé điều khiển các thiết bị trong nhà qua hệ thống nhúng có độ chính xác trên 90% 1. ĐÓI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU Nghiên cứu này giới thiệu sử dụng sinh trắc học giọng nói như một phương tiện nhận dang cho các ứng dụng nhà thông minh. Cu thể, cơ sở dữ liệu được học viên thu thập dữ liệu bằng cách ghi âm từ 350 người Việt Nam đọc khác nhau.

Gồm 140 người đọc là nam và 160 người đọc là nữ, độ tuổi từ 15 đến 17 tuổi, đến từ Bình Thuận. Mỗi người đọc ghi âm bằng điện thoại di động của các hãng khác nhau, ghi âm trong điều kiện môi trường không có nhiễu hoặc nhiễu ít. Mỗi file chứa các câu lệnh điều khién thiết bị và tên của chủ nhà như sau: Loại từ Tên Dữ liệu Thời gian Từ đơn Nguyên 370 file 370 giây Từ điều khién | Bật đèn phòng ngủ 310 file mỗi câu | 12400 giây. thiết bị Tắt đèn phòng ngủ Tổng: 6200 file Bật đèn phòng khách Tắt đèn phòng khách Bật đèn nhà bếp Tắt đèn nhà bếp Bật tivi phòng khách Tắt tivi phòng khách 13 Bật tivi phòng ngủ Tắt tivi phòng ngủ Bật quạt phòng ngủ Tắt quạt phòng ngủ Bật quạt phòng khách Tắt quạt phòng khách Bật máy lạnh phòng ngủ Tat máy lạnh phòng ngủ.

Bật máy lạnh phòng khách Tắt máy lạnh phòng khách Tập dữ liệu được phân chia thành các thư mục khác nhau với các mục đích khác nhau. Hệ thống được huấn luyện với các mục đích: xác định người trong nhà và cho phép người trong nhà sau khi được xác định điều khién thiết bị trong nhà. Sau đó tập dit liệu được chia thành ba phần, bao gồm 80% tập huấn luyện, 10% tập đánh giá, 10% thử nghiệm. Mỗi tập con của một tập âm thanh được phân loại là từ khóa đã xác định trước được gán các nhãn tương ứng.

14 CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ HƯỚNG TIẾP CẬN LIÊN QUAN 2. TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ TRONG NƯỚC 2. Nghiên cứu nhận dạng giọng nói Tiếng Việt sử dụng bộ công cụ Kaldi Hệ thống nhận dạng giọng nói tiếng Việt [12] sử dụng bộ công cụ Kaldi. Trong nghiên cứu này, nhóm tác giả đã thu thập một kho ngữ liệu trong hơn mười lăm giờ từ khoảng năm mươi người Việt Nam và sử dụng nó đề kiểm tra tính khả thi của nghiên cứu.

Tác giả đề xuất một từ điển phát âm dựa trên giọng nói. Dé đơn giản hóa công thức, tác giả bỏ qua vai trò và vị trí của mỗi thành phan trong âm tiết và chỉ xác định hai loại âm vị: phụ âm và nguyên âm. Một phụ âm có thể là một hoặc tối đa ba ký tự (thay vì một ký tự như bộ điện thoại grapheme) trong khi một nguyên âm là một nguyên âm chuẩn với một âm tương ứng. Trong cách thiết lập này, mỗi biến thể âm sắc của một nguyên âm được coi là các âm vị khác nhau không có mối liên hệ nào.

Đề lấy lại thông tin về âm, có thể sử dụng thêm các câu hỏi để xây dựng cây quyết định ngữ âm. Nhận dạng người trong nhà thông minh bằng Sinh trắc học giọng nói Nghiên cứu này giới thiệu việc sử dụng sinh trắc học giọng nói [22] như một phương tiện dé xác định các cá nhân. Tự động hóa nhà với điều khiển bằng giọng nói có thể đạt được mức hiệu suất cao trong môi trường thực tế. Tuy nhiên, hiệu suất như vậy giảm đáng ké trong tình huống nhiều cư dan.

Trong trường hợp này, ngôi nhà thông minh cần giải quyết các vấn đề về xác định cư dân theo cách nảo đó. Nhận dạng người nói hoặc nhận dạng giọng nói là một phương thức sinh trắc học sử dụng các đặc điểm của giọng nói (sinh trắc học giọng nói) để xác định một người. Nhận dạng giọng nói là một lựa chọn phô biên dé xác định các cá nhân do sự sẵn có của các công cụ để thu thập các mẫu giọng nói và tính dễ tích hợp của nó. Thách thức của những ngôi nhà thông minh hiện đại là làm thế nào dé tạo ra một môi trường thông minh cho.

nhiều cư dân, điều này là vô cùng khó khăn do sự phức tap của việc xác định các cá nhân. Một trong những giải pháp khả thi là sử dụng sinh 15 trắc học giọng nói duy nhất giữa mọi người để xác định cư dân bên trong môi trường nhà thông minh. Do đó, nghiên cứu này giới thiệu việc sử dụng sinh trắc học giọng nói như một phương tiện để xác định cư dân trong nhà thông minh. Trong nghiên cứu này, việc xác định người nói không phụ thuộc vào văn bản và tập hợp mở với ngưỡng thích ứng sẽ được đề xuất và đánh giá.

Nhận dạng giọng nói tiếng Việt cho Tự động hóa tại nhà sử dụng phương pháp trích xuất đặc trưng MECC và kĩ thuật DTW Tự động hóa nhà với nhận dạng giọng nói có thể đạt được mức hiệu suất cao trong môi trường thế giới thực [23]. Tuy nhiên, hiệu suất như vậy giảm đáng kẻ trong điều kiện nhiễu không phù hợp. Dé giải quyết van dé này, tác giả và cộng sự đề xuất một phương pháp cải tiến dé chiết xuất Hệ số bề mặt tần số Mel giúp tăng độ chính xác lên đến 20% so với phương pháp truyền thống. Bài báo này mô tả một cách tiếp cận nhận dạng giọng nói để tự động hóa gia đình bằng tiếng Việt bằng cách sử dụng cải tiến hệ số Mel (Mel-frequency cepstral coefficients - MFCC) và phương pháp lập trình động (Dynamic Time Warping - DTW).

Nhận dang giọng nói là quá trình tự động nhận dang lời nói của một người dựa trên thông tin trong tín hiệu giọng nói. Tham s6 dựa trên quang phô phổ biến nhất được sử dụng trong phương pháp tiếp cận nhận dạng là Hệ số quang phỏ tần số Mel được gọi là MFCC. MFCC là các hệ , được trích xuất từ tín hiệu giọng nói của lời nói. Để đối phó với các tốc độ nói khác nhau trong nhận dạng giọng nói Dynamic Time Warping (DTW) được sử dụng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Ứng Dụng Mạng Nơ-ron Sâu Trong Nhận Dạng Người Qua Giọng Nói" khám phá cách mà công nghệ mạng nơ-ron sâu có thể được áp dụng để nhận diện người qua giọng nói. Tác giả trình bày các phương pháp và kỹ thuật hiện đại, nhấn mạnh lợi ích của việc sử dụng mạng nơ-ron sâu trong việc cải thiện độ chính xác và hiệu suất của hệ thống nhận diện giọng nói. Đặc biệt, tài liệu này không chỉ cung cấp cái nhìn tổng quan về công nghệ mà còn chỉ ra những ứng dụng thực tiễn trong cuộc sống hàng ngày, từ việc điều khiển thiết bị thông minh đến các ứng dụng trong lĩnh vực an ninh.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính nghiên cứu công nghệ nhận dạng giọng nói tiếng việt sử dụng học máy và ứng dụng vào việc điều khiển thiết bị trong nhà bằng điện thoại android, nơi bạn sẽ tìm thấy thông tin về việc ứng dụng công nghệ nhận diện giọng nói trong việc điều khiển thiết bị thông minh. Bên cạnh đó, tài liệu Luận văn thạc sĩ khoa học máy tính kết hợp học sâu và mô hình ngôn ngữ để nhận dạng giọng nói tiếng việt sẽ giúp bạn hiểu rõ hơn về sự kết hợp giữa học sâu và mô hình ngôn ngữ trong nhận diện giọng nói. Cuối cùng, tài liệu Mô hình markov ẩn và ứng dụng xây dựng hệ thống nhận dạng tiếng nói sẽ cung cấp cho bạn cái nhìn sâu sắc về các mô hình thống kê trong nhận diện giọng nói. Những tài liệu này sẽ là cơ hội tuyệt vời để bạn khám phá thêm về công nghệ nhận diện giọng nói và ứng dụng của nó trong thực tiễn.

#công nghệ AI

#nhận dạng giọng nói

#phân tích giọng nói

#Mạng nơ-ron sâu

#ứng dụng mạng nơ-ron

#học sâu trong AI

Chủ đề

Công nghệ nhận dạng giọng nói

tương lai của nhận diện giọng nói

Học Máy và AI

ứng dụng của mạng nơ-ron sâu