Luận Văn Thạc Sĩ Về Nhận Dạng Cảm Xúc Người Nói Dựa Trên Học Sâu

Người đăng

Ẩn danh

Thể loại

luận văn

2021

93
2
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu

Trong bối cảnh hiện đại, nhận dạng cảm xúc người nói (SER) đã trở thành một lĩnh vực nghiên cứu quan trọng trong kỹ thuật viễn thông. Việc phát triển các hệ thống có khả năng nhận diện cảm xúc thông qua giọng nói không chỉ giúp cải thiện trí tuệ nhân tạo mà còn có ứng dụng rộng rãi trong các lĩnh vực như chăm sóc sức khỏe, giải trí thông minh và nhà thông minh. Theo thống kê, cảm xúc người nói có thể cung cấp thông tin giá trị giúp máy tính có thể đưa ra quyết định chính xác hơn trong việc tương tác với con người. Các nghiên cứu trước đây chủ yếu tập trung vào tiếng Anh, trong khi nghiên cứu về tiếng Việt còn hạn chế, tạo ra cơ hội cho việc phát triển các mô hình phù hợp với ngôn ngữ này.

1.1 Tầm quan trọng của SER

Nhận dạng cảm xúc qua giọng nói giúp nâng cao trải nghiệm người dùng trong các ứng dụng thông minh. Các hệ thống SER có khả năng phát hiện và phân loại các trạng thái cảm xúc như vui vẻ, buồn bã, tức giận và sợ hãi. Điều này không chỉ giúp cải thiện chất lượng dịch vụ khách hàng mà còn tạo ra những trải nghiệm cá nhân hóa cho người dùng. Theo một nghiên cứu gần đây, việc sử dụng SER trong các ứng dụng chăm sóc sức khỏe có thể giúp theo dõi trạng thái tâm lý của bệnh nhân và cung cấp hỗ trợ kịp thời, góp phần cải thiện sức khỏe tâm thần.

II. Phương pháp nghiên cứu

Nghiên cứu này sử dụng các phương pháp học sâu để phát triển mô hình nhận diện cảm xúc từ giọng nói. Đầu tiên, các đặc trưng âm thanh sẽ được trích xuất từ tín hiệu giọng nói thông qua các phương pháp như MFCC (Mel Frequency Cepstral Coefficients) và GFCC (Gammatone Frequency Cepstral Coefficients). Các phương pháp này giúp tăng cường khả năng phân loại của mô hình bằng cách tối ưu hóa các đặc trưng âm thanh. Sau đó, mô hình machine learning sẽ được huấn luyện trên tập dữ liệu lớn, bao gồm nhiều loại cảm xúc khác nhau. Việc sử dụng trí tuệ nhân tạo trong nghiên cứu này không chỉ giúp cải thiện độ chính xác mà còn giúp mô hình học hỏi từ các dữ liệu mới để nâng cao khả năng nhận diện.

2.1 Thiết kế mô hình học sâu

Mô hình học sâu được thiết kế để nhận diện cảm xúc dựa trên giọng nói sẽ bao gồm nhiều lớp neural network khác nhau, với các lớp tích chập (convolutional layers) được sử dụng để phát hiện các đặc trưng âm thanh phức tạp. Mô hình này sẽ được huấn luyện trên dữ liệu âm thanh đã được xử lý để nhận diện cảm xúc từ giọng nói. Kết quả thử nghiệm cho thấy mô hình đạt được độ chính xác lên đến 93% cho bốn loại cảm xúc chính: trung tính, giận dữ, buồn bã và sợ hãi. Sự thành công của mô hình này mở ra hướng đi mới cho việc áp dụng SER trong nhiều lĩnh vực khác nhau.

III. Ứng dụng thực tiễn

Các ứng dụng của nhận dạng cảm xúc người nói rất đa dạng và phong phú. Trong lĩnh vực chăm sóc sức khỏe, SER có thể được sử dụng để theo dõi và phân tích tâm trạng của bệnh nhân, từ đó giúp bác sĩ đưa ra những quyết định điều trị phù hợp. Ngoài ra, trong lĩnh vực giải trí, SER có thể giúp tạo ra các trò chơi tương tác, nơi mà cảm xúc của người chơi được ghi nhận và phản hồi lại một cách tự nhiên. Hơn nữa, trong các hệ thống nhà thông minh, SER có thể giúp điều chỉnh môi trường sống dựa trên cảm xúc của người sử dụng, từ đó tạo ra một không gian sống thoải mái hơn.

3.1 Tương lai của SER

Với sự phát triển không ngừng của công nghệ học sâumachine learning, tương lai của SER hứa hẹn sẽ còn nhiều tiềm năng hơn nữa. Việc nghiên cứu và phát triển các mô hình SER cho tiếng Việt sẽ góp phần nâng cao khả năng tương tác giữa con người và máy móc, mở ra nhiều cơ hội mới trong các lĩnh vực như dịch vụ khách hàng, giải trí và chăm sóc sức khỏe. Các nghiên cứu tiếp theo có thể tập trung vào việc cải thiện độ chính xác của mô hình và mở rộng khả năng nhận diện cảm xúc cho nhiều ngôn ngữ và văn hóa khác nhau.

05/01/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ kỹ thuật viễn thông nhận dạng cảm xúc người nói dựa trên học sâu
Bạn đang xem trước tài liệu : Luận văn thạc sĩ kỹ thuật viễn thông nhận dạng cảm xúc người nói dựa trên học sâu

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài luận văn thạc sĩ mang tựa đề Luận Văn Thạc Sĩ Về Nhận Dạng Cảm Xúc Người Nói Dựa Trên Học Sâu của tác giả Cao Xuân Thiên, dưới sự hướng dẫn của PGS. Hà Hoàng Kha, được thực hiện tại Trường Đại Học Bách Khoa TP. HCM vào năm 2021. Nghiên cứu này tập trung vào việc áp dụng các kỹ thuật học sâu để nhận diện cảm xúc của người nói trong lĩnh vực kỹ thuật viễn thông. Bài viết không chỉ cung cấp những kiến thức lý thuyết về học sâu mà còn nêu bật ứng dụng thực tiễn của công nghệ này trong việc cải thiện giao tiếp và tương tác giữa con người và máy móc.

Để mở rộng kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo thêm các bài viết như Phân loại bản tin online sử dụng máy học trong kỹ thuật viễn thông, nơi bạn sẽ tìm hiểu về ứng dụng của máy học trong việc phân loại thông tin. Bên cạnh đó, Tối ưu hóa hiệu năng hệ thống thông tin vô tuyến đa người dùng MIMO và Massive MIMO cũng là một tài liệu giá trị, giúp bạn hiểu rõ hơn về các công nghệ tiên tiến trong lĩnh vực viễn thông. Cuối cùng, Nâng cao chất lượng dịch vụ thời gian thực trong mạng LTE bằng thuật toán MLWDF sẽ cung cấp thêm thông tin về cải thiện chất lượng dịch vụ trong các hệ thống viễn thông hiện đại. Những tài liệu này không chỉ bổ sung thông tin mà còn mở ra nhiều góc nhìn mới cho bạn trong lĩnh vực này.

Tải xuống (93 Trang - 1.68 MB)