Nhận Dạng Cảm Xúc Người Nói Trong Kỹ Thuật Viễn Thông Bằng Học Sâu

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: LÝ DO CHỌN ĐỀ TÀI

1.1. ĐẶT VẤN ĐỀ

1.2. MỤC TIÊU NGHIÊN CỨU

1.3. CẤU TRÚC NGHIÊN CỨU

2. CHƯƠNG 2: LÝ THUYẾT VỀ XỬ LÝ TÍN HIỆU TIẾNG NÓI VÀ MÁY HỌC

2.1. Tổng quan về nhận dạng cảm xúc qua lời nói

2.2. Các đặc trưng âm thanh

2.2.1. Đặc trưng phổ âm thanh

2.2.2. Đặc trưng thời gian

2.3. Mạng nơ-ron học sâu

2.3.1. Lan truyền tiến

2.3.2. Mạng nơ-ron tích chập

3. CHƯƠNG 3: XÂY DỰNG GIẢI THUẬT NHẬN DẠNG CẢM XÚC LỜI NÓI

3.1. Xây dựng mô hình nhận dạng cảm xúc lời nói

3.1.1. Thiết kế hệ thống phát hiện lời nói thời gian thực

3.1.2. Thiết kế hệ thống nhận dạng giới tính qua tín hiệu lời nói

3.1.3. Thiết kế hệ thống nhận dạng cảm xúc qua tín hiệu lời nói

4. CHƯƠNG 4: THIẾT KẾ VÀ THỰC HIỆN ỨNG DỤNG LÊN MÁY TÍNH NHÚNG

4.1. Giới thiệu phần cứng

4.1.1. Máy tính nhúng NVIDIA® Jetson Nano

4.1.2. Giới thiệu phần mềm

4.2. Hiện thực thiết kế

4.2.1. Quá trình huấn luyện

4.2.2. Quá trình thực thi trên phần cứng

5. CHƯƠNG 5: KẾT QUẢ THỰC HIỆN

5.1. Kết quả huấn luyện

5.1.1. Kết quả nhận dạng giới tính

5.1.2. Kết quả nhận dạng cảm xúc

5.1.3. So sánh kết quả huấn luyện với các công trình nghiên cứu

5.2. Kết quả thực nghiệm trên phần cứng

5.3. Giải hạn và hướng phát triển

5.3.1. Giới hạn phát triển

5.3.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Giới thiệu

Trong bối cảnh hiện đại, nhận dạng cảm xúc người nói (SER) đã trở thành một lĩnh vực nghiên cứu quan trọng trong kỹ thuật viễn thông. Việc phát triển các hệ thống có khả năng nhận diện cảm xúc thông qua giọng nói không chỉ giúp cải thiện trí tuệ nhân tạo mà còn có ứng dụng rộng rãi trong các lĩnh vực như chăm sóc sức khỏe, giải trí thông minh và nhà thông minh. Theo thống kê, cảm xúc người nói có thể cung cấp thông tin giá trị giúp máy tính có thể đưa ra quyết định chính xác hơn trong việc tương tác với con người. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh, trong khi nghiên cứu về tiếng Việt còn hạn chế, tạo ra cơ hội cho việc phát triển các mô hình phù hợp với ngôn ngữ này.

1.1 Tầm quan trọng của SER

Nhận dạng cảm xúc qua giọng nói giúp nâng cao trải nghiệm người dùng trong các ứng dụng thông minh. Các hệ thống SER có khả năng phát hiện và phân loại các trạng thái cảm xúc như vui vẻ, buồn bã, tức giận và sợ hãi. Điều này không chỉ giúp cải thiện chất lượng dịch vụ khách hàng mà còn tạo ra những trải nghiệm cá nhân hóa cho người dùng. Theo một nghiên cứu gần đây, việc sử dụng SER trong các ứng dụng chăm sóc sức khỏe có thể giúp theo dõi trạng thái tâm lý của bệnh nhân và cung cấp hỗ trợ kịp thời, góp phần cải thiện sức khỏe tâm thần.

II. Phương pháp nghiên cứu

Nghiên cứu này sử dụng các phương pháp học sâu để phát triển mô hình nhận diện cảm xúc từ giọng nói. Đầu tiên, các đặc trưng âm thanh sẽ được trích xuất từ tín hiệu giọng nói thông qua các phương pháp như MFCC (Mel Frequency Cepstral Coefficients) và GFCC (Gammatone Frequency Cepstral Coefficients). Các phương pháp này giúp tăng cường khả năng phân loại của mô hình bằng cách tối ưu hóa các đặc trưng âm thanh. Sau đó, mô hình machine learning sẽ được huấn luyện trên tập dữ liệu lớn, bao gồm nhiều loại cảm xúc khác nhau. Việc sử dụng trí tuệ nhân tạo trong nghiên cứu này không chỉ giúp cải thiện độ chính xác mà còn giúp mô hình học hỏi từ các dữ liệu mới để nâng cao khả năng nhận diện.

2.1 Thiết kế mô hình học sâu

Mô hình học sâu được thiết kế để nhận diện cảm xúc dựa trên giọng nói sẽ bao gồm nhiều lớp neural network khác nhau, với các lớp tích chập (convolutional layers) được sử dụng để phát hiện các đặc trưng âm thanh phức tạp. Mô hình này sẽ được huấn luyện trên dữ liệu âm thanh đã được xử lý để nhận diện cảm xúc từ giọng nói. Kết quả thử nghiệm cho thấy mô hình đạt được độ chính xác lên đến 93% cho bốn loại cảm xúc chính: trung tính, giận dữ, buồn bã và sợ hãi. Sự thành công của mô hình này mở ra hướng đi mới cho việc áp dụng SER trong nhiều lĩnh vực khác nhau.

III. Ứng dụng thực tiễn

Các ứng dụng của nhận dạng cảm xúc người nói rất đa dạng và phong phú. Trong lĩnh vực chăm sóc sức khỏe, SER có thể được sử dụng để theo dõi và phân tích tâm trạng của bệnh nhân, từ đó giúp bác sĩ đưa ra những quyết định điều trị phù hợp. Ngoài ra, trong lĩnh vực giải trí, SER có thể giúp tạo ra các trò chơi tương tác, nơi mà cảm xúc của người chơi được ghi nhận và phản hồi lại một cách tự nhiên. Hơn nữa, trong các hệ thống nhà thông minh, SER có thể giúp điều chỉnh môi trường sống dựa trên cảm xúc của người sử dụng, từ đó tạo ra một không gian sống thoải mái hơn.

3.1 Tương lai của SER

Với sự phát triển không ngừng của công nghệ học sâu và machine learning, tương lai của SER hứa hẹn sẽ còn nhiều tiềm năng hơn nữa. Việc nghiên cứu và phát triển các mô hình SER cho tiếng Việt sẽ góp phần nâng cao khả năng tương tác giữa con người và máy móc, mở ra nhiều cơ hội mới trong các lĩnh vực như dịch vụ khách hàng, giải trí và chăm sóc sức khỏe. Các nghiên cứu tiếp theo có thể tập trung vào việc cải thiện độ chính xác của mô hình và mở rộng khả năng nhận diện cảm xúc cho nhiều ngôn ngữ và văn hóa khác nhau.

05/01/2025

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ trí tuệ nhân tạo và giao tiếp người-máy, nhận dạng cảm xúc qua giọng nói (Speech Emotion Recognition - SER) ngày càng trở nên quan trọng. Theo báo cáo của ngành, tỷ lệ chính xác của các hệ thống SER hiện đại trên tiếng Anh đạt trên 90%, tuy nhiên nghiên cứu về SER cho tiếng Việt còn khá hạn chế do thiếu dữ liệu chuẩn và đặc thù ngôn ngữ. Luận văn tập trung nghiên cứu nhận dạng cảm xúc qua giọng nói tiếng Việt, với mục tiêu xây dựng mô hình học sâu phù hợp, đồng thời khai thác đặc trưng giới tính người nói để nâng cao độ chính xác.

Phạm vi nghiên cứu bao gồm dữ liệu giọng nói tiếng Việt được phân chia theo giới tính, tập trung vào 4 loại cảm xúc chính: trung tính, giận dữ, buồn và hoảng sợ. Thời gian nghiên cứu từ đầu năm 2021 đến giữa năm 2021, thực hiện tại Trường Đại học Bách Khoa, TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác nhận dạng cảm xúc lên đến 93% trên tập kiểm thử, góp phần phát triển các ứng dụng thông minh như chăm sóc sức khỏe tâm lý, giải trí thông minh và nhà thông minh tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Lý thuyết xử lý tín hiệu âm thanh: Bao gồm các khái niệm về sóng âm, tần số, biên độ, và các phương pháp trích xuất đặc trưng âm thanh như MFCC (Mel Frequency Cepstral Coefficients), GFCC (Gammatone Frequency Cepstral Coefficients) và log-mel spectrogram. MFCC và GFCC là các phương pháp trích xuất đặc trưng phổ biến, giúp mô hình học sâu nhận diện các đặc điểm riêng biệt của cảm xúc trong giọng nói.
Mô hình học sâu (Deep Learning): Sử dụng mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) để xử lý dữ liệu âm thanh đã được trích xuất đặc trưng. CNN giúp tự động học các đặc trưng phức tạp từ dữ liệu đầu vào, tăng khả năng phân loại chính xác cảm xúc.
Mô hình nhận dạng giới tính: Phân chia dữ liệu theo giới tính người nói để xây dựng mô hình riêng biệt cho từng giới, từ đó nâng cao hiệu quả nhận dạng cảm xúc.

Các khái niệm chính bao gồm: Zero Crossing Rate (ZCR), Short Time Energy (STE), Pre-emphasis, Framing, Windowing, Discrete Fourier Transform (DFT), Mel Filter Bank, Inverse DFT (IDFT), hàm kích hoạt ReLU, hàm mất mát softmax, và kỹ thuật Dropout để tránh overfitting.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng bộ dữ liệu RAVDESS gồm 1440 file âm thanh tiếng Anh có gán nhãn cảm xúc, đồng thời thu thập và xây dựng bộ dữ liệu tiếng Việt phân chia theo giới tính với các cảm xúc trung tính, giận dữ, buồn và hoảng sợ.
Phương pháp phân tích: Áp dụng song song các phương pháp trích xuất đặc trưng MFCC, GFCC và log-mel trên dữ liệu âm thanh. Dữ liệu được chia thành hai tập con dựa trên nhãn giới tính người nói. Mô hình CNN được huấn luyện riêng biệt cho từng giới tính để nhận dạng cảm xúc.
Timeline nghiên cứu: Quá trình thu thập dữ liệu và tiền xử lý diễn ra trong 2 tháng đầu năm 2021. Giai đoạn xây dựng và huấn luyện mô hình kéo dài 3 tháng tiếp theo. Tháng cuối cùng dành cho kiểm thử, đánh giá và triển khai trên phần cứng thực tế.
Cỡ mẫu và chọn mẫu: Bộ dữ liệu tiếng Việt gồm khoảng 5000 mẫu âm thanh, được chọn ngẫu nhiên từ các nguồn thu âm tại một số địa phương, đảm bảo cân bằng giới tính và cảm xúc.
Triển khai phần cứng: Mô hình được triển khai trên máy tính nhúng NVIDIA Jetson Nano sử dụng Python 3 và thư viện TensorFlow, nhằm đánh giá tính khả thi trong ứng dụng thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả trích xuất đặc trưng: So sánh ba phương pháp MFCC, GFCC và log-mel cho thấy GFCC và MFCC có hiệu suất tương đương, với độ chính xác nhận dạng cảm xúc đạt khoảng 90-92%, trong khi log-mel thấp hơn khoảng 5%. Việc áp dụng song song các phương pháp giúp tăng tính đa dạng đặc trưng, cải thiện độ chính xác tổng thể.
Ảnh hưởng của giới tính người nói: Mô hình nhận dạng cảm xúc riêng biệt theo giới tính đạt độ chính xác 93% trên tập kiểm thử, cao hơn khoảng 4% so với mô hình chung không phân biệt giới tính. Điều này chứng tỏ việc khai thác đặc trưng giới tính là yếu tố quan trọng trong SER tiếng Việt.
Độ chính xác mô hình CNN: Mạng CNN được thiết kế với các lớp tích chập, pooling và fully connected, sử dụng hàm kích hoạt ReLU và kỹ thuật Dropout giúp tránh overfitting, đạt độ chính xác 93% cho 4 loại cảm xúc trung tính, giận dữ, buồn và hoảng sợ.
Triển khai trên phần cứng thực tế: Hệ thống SER chạy trên máy tính nhúng NVIDIA Jetson Nano xử lý nhanh, đáp ứng thời gian thực với độ chính xác tương đương trên tập kiểm thử, chứng minh tính khả thi ứng dụng trong các thiết bị thông minh.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện độ chính xác khi phân chia theo giới tính là do đặc trưng âm thanh và cách phát âm của nam và nữ có sự khác biệt rõ rệt, ảnh hưởng đến đặc trưng cảm xúc trong giọng nói. Kết quả này phù hợp với các nghiên cứu quốc tế về SER trên tiếng Anh và tiếng Trung, đồng thời khẳng định tính đặc thù của ngôn ngữ tiếng Việt.

Việc sử dụng mạng CNN giúp mô hình tự động học các đặc trưng phức tạp từ dữ liệu âm thanh, vượt trội hơn các phương pháp truyền thống như SVM hay GMM. Kết quả triển khai trên Jetson Nano cho thấy mô hình có thể ứng dụng trong các thiết bị nhúng, mở rộng khả năng ứng dụng trong thực tế như nhà thông minh, chăm sóc sức khỏe tâm lý.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các phương pháp trích xuất đặc trưng, biểu đồ so sánh mô hình chung và mô hình phân biệt giới tính, cũng như bảng kết quả kiểm thử trên phần cứng.

Đề xuất và khuyến nghị

Phát triển bộ dữ liệu chuẩn tiếng Việt: Tăng cường thu thập và xây dựng bộ dữ liệu cảm xúc tiếng Việt đa dạng về giới tính, độ tuổi và vùng miền nhằm nâng cao khả năng tổng quát hóa của mô hình. Thời gian thực hiện dự kiến 12 tháng, do các viện nghiên cứu và trường đại học chủ trì.
Tối ưu mô hình học sâu: Nghiên cứu và áp dụng các kiến trúc mạng nơ-ron mới như LSTM, Transformer kết hợp CNN để cải thiện khả năng nhận dạng cảm xúc phức tạp hơn. Thời gian 6-9 tháng, do nhóm nghiên cứu AI chuyên sâu thực hiện.
Triển khai ứng dụng thực tế: Phát triển các ứng dụng chăm sóc sức khỏe tâm lý, giải trí thông minh và nhà thông minh tích hợp hệ thống SER trên thiết bị nhúng như Jetson Nano, Raspberry Pi. Thời gian 6 tháng, phối hợp giữa doanh nghiệp công nghệ và viện nghiên cứu.
Đào tạo và nâng cao nhận thức: Tổ chức các khóa đào tạo, hội thảo về SER và ứng dụng AI trong giao tiếp người-máy cho sinh viên, kỹ sư và nhà quản lý nhằm thúc đẩy ứng dụng rộng rãi. Thời gian liên tục, do các trường đại học và tổ chức chuyên ngành thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật Viễn thông, Trí tuệ nhân tạo: Nắm bắt kiến thức chuyên sâu về xử lý tín hiệu âm thanh, học sâu và ứng dụng SER tiếng Việt, phục vụ nghiên cứu và phát triển đề tài.
Doanh nghiệp công nghệ phát triển sản phẩm thông minh: Áp dụng mô hình SER để nâng cao trải nghiệm người dùng trong các thiết bị nhà thông minh, chăm sóc sức khỏe và giải trí.
Chuyên gia tâm lý và y tế: Sử dụng hệ thống nhận dạng cảm xúc để theo dõi và đánh giá trạng thái tâm lý bệnh nhân, hỗ trợ điều trị và tư vấn.
Nhà quản lý và hoạch định chính sách: Tham khảo để xây dựng các chính sách phát triển công nghệ AI phục vụ cộng đồng, đặc biệt trong lĩnh vực sức khỏe và giáo dục.

Câu hỏi thường gặp

SER là gì và tại sao quan trọng?
SER là công nghệ nhận dạng cảm xúc từ giọng nói, giúp máy tính hiểu được trạng thái tâm lý người dùng. Ví dụ, trong nhà thông minh, hệ thống có thể điều chỉnh ánh sáng, âm nhạc phù hợp với cảm xúc chủ nhà, nâng cao trải nghiệm.
Tại sao phải phân biệt giới tính trong SER?
Giới tính ảnh hưởng đến đặc trưng âm thanh và cách phát âm, do đó phân biệt giúp mô hình học sâu nhận dạng cảm xúc chính xác hơn. Nghiên cứu cho thấy mô hình riêng biệt cho nam và nữ tăng độ chính xác lên 93%.
Các phương pháp trích xuất đặc trưng nào được sử dụng?
MFCC, GFCC và log-mel là các phương pháp phổ biến. Trong đó, MFCC và GFCC cho kết quả tốt hơn, giúp mô hình phân biệt cảm xúc dựa trên đặc trưng tần số và âm sắc.
Mô hình học sâu nào được áp dụng?
Mạng nơ-ron tích chập (CNN) được sử dụng do khả năng tự động học đặc trưng phức tạp từ dữ liệu âm thanh, kết hợp hàm kích hoạt ReLU và kỹ thuật Dropout để tránh overfitting.
Hệ thống có thể ứng dụng trên thiết bị nào?
Hệ thống đã được triển khai thành công trên máy tính nhúng NVIDIA Jetson Nano, cho phép xử lý thời gian thực với độ chính xác cao, phù hợp cho các thiết bị thông minh và di động.

Kết luận

Xây dựng thành công mô hình học sâu nhận dạng cảm xúc qua giọng nói tiếng Việt với độ chính xác 93% cho 4 loại cảm xúc chính.
Khẳng định vai trò quan trọng của đặc trưng giới tính trong nâng cao hiệu quả nhận dạng cảm xúc.
Triển khai hệ thống trên máy tính nhúng NVIDIA Jetson Nano, chứng minh tính khả thi ứng dụng thực tế.
Đề xuất phát triển bộ dữ liệu chuẩn và tối ưu mô hình để mở rộng ứng dụng trong các lĩnh vực chăm sóc sức khỏe, giải trí và nhà thông minh.
Khuyến khích các nhà nghiên cứu, doanh nghiệp và chuyên gia tâm lý tham khảo và ứng dụng kết quả nghiên cứu để thúc đẩy phát triển công nghệ AI tại Việt Nam.

Hành động tiếp theo: Khởi động dự án mở rộng bộ dữ liệu tiếng Việt đa dạng hơn và phát triển ứng dụng SER tích hợp trong các thiết bị thông minh. Đăng ký tham gia các khóa đào tạo chuyên sâu về SER và học sâu để nâng cao năng lực nghiên cứu và ứng dụng.

Tài liệu "Nhận Dạng Cảm Xúc Người Nói Trong Kỹ Thuật Viễn Thông Bằng Học Sâu" khám phá cách mà công nghệ học sâu có thể được áp dụng để nhận diện cảm xúc của người nói trong lĩnh vực viễn thông. Bài viết nhấn mạnh tầm quan trọng của việc hiểu cảm xúc trong giao tiếp, từ đó cải thiện trải nghiệm người dùng và tối ưu hóa các dịch vụ viễn thông. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng công nghệ này, bao gồm khả năng nâng cao chất lượng dịch vụ và tạo ra các giải pháp giao tiếp thông minh hơn.

Để mở rộng kiến thức về chủ đề này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ mạng nơron và ứng dụng mạng nơron trong nhận dạng cảm xúc trên khuôn mặt người luận văn ths công nghệ thông tin 1 01 10, nơi cung cấp cái nhìn sâu sắc về ứng dụng mạng nơron trong nhận diện cảm xúc. Ngoài ra, tài liệu Luận văn thạc sĩ khoa học máy tính supporting voice communication in chatbot sẽ giúp bạn hiểu rõ hơn về cách giao tiếp giọng nói trong các hệ thống chatbot. Cuối cùng, tài liệu Luận văn thạc sĩ tự động hóa nhận dạng cảm xúc mặt người theo thời gian thực sẽ mang đến những thông tin bổ ích về nhận diện cảm xúc trong thời gian thực, một lĩnh vực đang phát triển mạnh mẽ. Những tài liệu này sẽ giúp bạn mở rộng hiểu biết và khám phá sâu hơn về công nghệ nhận diện cảm xúc.

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#kỹ thuật viễn thông

#nhận dạng cảm xúc

#phân tích giọng nói

#cảm xúc người nói

Chủ đề

Công nghệ nhận dạng cảm xúc

Ứng dụng học sâu trong viễn thông

Phân tích giọng nói và cảm xúc

Trí tuệ nhân tạo trong giao tiếp

Luận Văn Thạc Sĩ Về Nhận Dạng Cảm Xúc Người Nói Dựa Trên Học Sâu