Tổng quan nghiên cứu
Trong bối cảnh phát triển nhanh chóng của công nghệ trí tuệ nhân tạo và giao tiếp người-máy, nhận dạng cảm xúc qua giọng nói (Speech Emotion Recognition - SER) ngày càng trở nên quan trọng. Theo báo cáo của ngành, tỷ lệ chính xác của các hệ thống SER hiện đại trên tiếng Anh đạt trên 90%, tuy nhiên nghiên cứu về SER cho tiếng Việt còn khá hạn chế do thiếu dữ liệu chuẩn và đặc thù ngôn ngữ. Luận văn tập trung nghiên cứu nhận dạng cảm xúc qua giọng nói tiếng Việt, với mục tiêu xây dựng mô hình học sâu phù hợp, đồng thời khai thác đặc trưng giới tính người nói để nâng cao độ chính xác.
Phạm vi nghiên cứu bao gồm dữ liệu giọng nói tiếng Việt được phân chia theo giới tính, tập trung vào 4 loại cảm xúc chính: trung tính, giận dữ, buồn và hoảng sợ. Thời gian nghiên cứu từ đầu năm 2021 đến giữa năm 2021, thực hiện tại Trường Đại học Bách Khoa, TP. Hồ Chí Minh. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác nhận dạng cảm xúc lên đến 93% trên tập kiểm thử, góp phần phát triển các ứng dụng thông minh như chăm sóc sức khỏe tâm lý, giải trí thông minh và nhà thông minh tại Việt Nam.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
Lý thuyết xử lý tín hiệu âm thanh: Bao gồm các khái niệm về sóng âm, tần số, biên độ, và các phương pháp trích xuất đặc trưng âm thanh như MFCC (Mel Frequency Cepstral Coefficients), GFCC (Gammatone Frequency Cepstral Coefficients) và log-mel spectrogram. MFCC và GFCC là các phương pháp trích xuất đặc trưng phổ biến, giúp mô hình học sâu nhận diện các đặc điểm riêng biệt của cảm xúc trong giọng nói.
Mô hình học sâu (Deep Learning): Sử dụng mạng nơ-ron tích chập (Convolutional Neural Networks - CNN) để xử lý dữ liệu âm thanh đã được trích xuất đặc trưng. CNN giúp tự động học các đặc trưng phức tạp từ dữ liệu đầu vào, tăng khả năng phân loại chính xác cảm xúc.
Mô hình nhận dạng giới tính: Phân chia dữ liệu theo giới tính người nói để xây dựng mô hình riêng biệt cho từng giới, từ đó nâng cao hiệu quả nhận dạng cảm xúc.
Các khái niệm chính bao gồm: Zero Crossing Rate (ZCR), Short Time Energy (STE), Pre-emphasis, Framing, Windowing, Discrete Fourier Transform (DFT), Mel Filter Bank, Inverse DFT (IDFT), hàm kích hoạt ReLU, hàm mất mát softmax, và kỹ thuật Dropout để tránh overfitting.
Phương pháp nghiên cứu
Nguồn dữ liệu: Sử dụng bộ dữ liệu RAVDESS gồm 1440 file âm thanh tiếng Anh có gán nhãn cảm xúc, đồng thời thu thập và xây dựng bộ dữ liệu tiếng Việt phân chia theo giới tính với các cảm xúc trung tính, giận dữ, buồn và hoảng sợ.
Phương pháp phân tích: Áp dụng song song các phương pháp trích xuất đặc trưng MFCC, GFCC và log-mel trên dữ liệu âm thanh. Dữ liệu được chia thành hai tập con dựa trên nhãn giới tính người nói. Mô hình CNN được huấn luyện riêng biệt cho từng giới tính để nhận dạng cảm xúc.
Timeline nghiên cứu: Quá trình thu thập dữ liệu và tiền xử lý diễn ra trong 2 tháng đầu năm 2021. Giai đoạn xây dựng và huấn luyện mô hình kéo dài 3 tháng tiếp theo. Tháng cuối cùng dành cho kiểm thử, đánh giá và triển khai trên phần cứng thực tế.
Cỡ mẫu và chọn mẫu: Bộ dữ liệu tiếng Việt gồm khoảng 5000 mẫu âm thanh, được chọn ngẫu nhiên từ các nguồn thu âm tại một số địa phương, đảm bảo cân bằng giới tính và cảm xúc.
Triển khai phần cứng: Mô hình được triển khai trên máy tính nhúng NVIDIA Jetson Nano sử dụng Python 3 và thư viện TensorFlow, nhằm đánh giá tính khả thi trong ứng dụng thực tế.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu quả trích xuất đặc trưng: So sánh ba phương pháp MFCC, GFCC và log-mel cho thấy GFCC và MFCC có hiệu suất tương đương, với độ chính xác nhận dạng cảm xúc đạt khoảng 90-92%, trong khi log-mel thấp hơn khoảng 5%. Việc áp dụng song song các phương pháp giúp tăng tính đa dạng đặc trưng, cải thiện độ chính xác tổng thể.
Ảnh hưởng của giới tính người nói: Mô hình nhận dạng cảm xúc riêng biệt theo giới tính đạt độ chính xác 93% trên tập kiểm thử, cao hơn khoảng 4% so với mô hình chung không phân biệt giới tính. Điều này chứng tỏ việc khai thác đặc trưng giới tính là yếu tố quan trọng trong SER tiếng Việt.
Độ chính xác mô hình CNN: Mạng CNN được thiết kế với các lớp tích chập, pooling và fully connected, sử dụng hàm kích hoạt ReLU và kỹ thuật Dropout giúp tránh overfitting, đạt độ chính xác 93% cho 4 loại cảm xúc trung tính, giận dữ, buồn và hoảng sợ.
Triển khai trên phần cứng thực tế: Hệ thống SER chạy trên máy tính nhúng NVIDIA Jetson Nano xử lý nhanh, đáp ứng thời gian thực với độ chính xác tương đương trên tập kiểm thử, chứng minh tính khả thi ứng dụng trong các thiết bị thông minh.
Thảo luận kết quả
Nguyên nhân chính của sự cải thiện độ chính xác khi phân chia theo giới tính là do đặc trưng âm thanh và cách phát âm của nam và nữ có sự khác biệt rõ rệt, ảnh hưởng đến đặc trưng cảm xúc trong giọng nói. Kết quả này phù hợp với các nghiên cứu quốc tế về SER trên tiếng Anh và tiếng Trung, đồng thời khẳng định tính đặc thù của ngôn ngữ tiếng Việt.
Việc sử dụng mạng CNN giúp mô hình tự động học các đặc trưng phức tạp từ dữ liệu âm thanh, vượt trội hơn các phương pháp truyền thống như SVM hay GMM. Kết quả triển khai trên Jetson Nano cho thấy mô hình có thể ứng dụng trong các thiết bị nhúng, mở rộng khả năng ứng dụng trong thực tế như nhà thông minh, chăm sóc sức khỏe tâm lý.
Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác giữa các phương pháp trích xuất đặc trưng, biểu đồ so sánh mô hình chung và mô hình phân biệt giới tính, cũng như bảng kết quả kiểm thử trên phần cứng.
Đề xuất và khuyến nghị
Phát triển bộ dữ liệu chuẩn tiếng Việt: Tăng cường thu thập và xây dựng bộ dữ liệu cảm xúc tiếng Việt đa dạng về giới tính, độ tuổi và vùng miền nhằm nâng cao khả năng tổng quát hóa của mô hình. Thời gian thực hiện dự kiến 12 tháng, do các viện nghiên cứu và trường đại học chủ trì.
Tối ưu mô hình học sâu: Nghiên cứu và áp dụng các kiến trúc mạng nơ-ron mới như LSTM, Transformer kết hợp CNN để cải thiện khả năng nhận dạng cảm xúc phức tạp hơn. Thời gian 6-9 tháng, do nhóm nghiên cứu AI chuyên sâu thực hiện.
Triển khai ứng dụng thực tế: Phát triển các ứng dụng chăm sóc sức khỏe tâm lý, giải trí thông minh và nhà thông minh tích hợp hệ thống SER trên thiết bị nhúng như Jetson Nano, Raspberry Pi. Thời gian 6 tháng, phối hợp giữa doanh nghiệp công nghệ và viện nghiên cứu.
Đào tạo và nâng cao nhận thức: Tổ chức các khóa đào tạo, hội thảo về SER và ứng dụng AI trong giao tiếp người-máy cho sinh viên, kỹ sư và nhà quản lý nhằm thúc đẩy ứng dụng rộng rãi. Thời gian liên tục, do các trường đại học và tổ chức chuyên ngành thực hiện.
Đối tượng nên tham khảo luận văn
Nhà nghiên cứu và sinh viên ngành Kỹ thuật Viễn thông, Trí tuệ nhân tạo: Nắm bắt kiến thức chuyên sâu về xử lý tín hiệu âm thanh, học sâu và ứng dụng SER tiếng Việt, phục vụ nghiên cứu và phát triển đề tài.
Doanh nghiệp công nghệ phát triển sản phẩm thông minh: Áp dụng mô hình SER để nâng cao trải nghiệm người dùng trong các thiết bị nhà thông minh, chăm sóc sức khỏe và giải trí.
Chuyên gia tâm lý và y tế: Sử dụng hệ thống nhận dạng cảm xúc để theo dõi và đánh giá trạng thái tâm lý bệnh nhân, hỗ trợ điều trị và tư vấn.
Nhà quản lý và hoạch định chính sách: Tham khảo để xây dựng các chính sách phát triển công nghệ AI phục vụ cộng đồng, đặc biệt trong lĩnh vực sức khỏe và giáo dục.
Câu hỏi thường gặp
SER là gì và tại sao quan trọng?
SER là công nghệ nhận dạng cảm xúc từ giọng nói, giúp máy tính hiểu được trạng thái tâm lý người dùng. Ví dụ, trong nhà thông minh, hệ thống có thể điều chỉnh ánh sáng, âm nhạc phù hợp với cảm xúc chủ nhà, nâng cao trải nghiệm.Tại sao phải phân biệt giới tính trong SER?
Giới tính ảnh hưởng đến đặc trưng âm thanh và cách phát âm, do đó phân biệt giúp mô hình học sâu nhận dạng cảm xúc chính xác hơn. Nghiên cứu cho thấy mô hình riêng biệt cho nam và nữ tăng độ chính xác lên 93%.Các phương pháp trích xuất đặc trưng nào được sử dụng?
MFCC, GFCC và log-mel là các phương pháp phổ biến. Trong đó, MFCC và GFCC cho kết quả tốt hơn, giúp mô hình phân biệt cảm xúc dựa trên đặc trưng tần số và âm sắc.Mô hình học sâu nào được áp dụng?
Mạng nơ-ron tích chập (CNN) được sử dụng do khả năng tự động học đặc trưng phức tạp từ dữ liệu âm thanh, kết hợp hàm kích hoạt ReLU và kỹ thuật Dropout để tránh overfitting.Hệ thống có thể ứng dụng trên thiết bị nào?
Hệ thống đã được triển khai thành công trên máy tính nhúng NVIDIA Jetson Nano, cho phép xử lý thời gian thực với độ chính xác cao, phù hợp cho các thiết bị thông minh và di động.
Kết luận
- Xây dựng thành công mô hình học sâu nhận dạng cảm xúc qua giọng nói tiếng Việt với độ chính xác 93% cho 4 loại cảm xúc chính.
- Khẳng định vai trò quan trọng của đặc trưng giới tính trong nâng cao hiệu quả nhận dạng cảm xúc.
- Triển khai hệ thống trên máy tính nhúng NVIDIA Jetson Nano, chứng minh tính khả thi ứng dụng thực tế.
- Đề xuất phát triển bộ dữ liệu chuẩn và tối ưu mô hình để mở rộng ứng dụng trong các lĩnh vực chăm sóc sức khỏe, giải trí và nhà thông minh.
- Khuyến khích các nhà nghiên cứu, doanh nghiệp và chuyên gia tâm lý tham khảo và ứng dụng kết quả nghiên cứu để thúc đẩy phát triển công nghệ AI tại Việt Nam.
Hành động tiếp theo: Khởi động dự án mở rộng bộ dữ liệu tiếng Việt đa dạng hơn và phát triển ứng dụng SER tích hợp trong các thiết bị thông minh. Đăng ký tham gia các khóa đào tạo chuyên sâu về SER và học sâu để nâng cao năng lực nghiên cứu và ứng dụng.