Luận văn tốt nghiệp: Phát triển hệ thống nhận diện cảm xúc qua giọng nói

Trường đại học

Trường Đại Học Bách Khoa - Đại Học Quốc Gia TP.HCM

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

luận văn tốt nghiệp

2022

Phí lưu trữ

35 Point

Mục lục chi tiết

Lời cam đoan

Lời cảm ơn / Lời ngỏ

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Mục tiêu của đề tài

1.2. Đối tượng và phạm vi nghiên cứu đề tài

1.3. Phương pháp nghiên cứu

1.4. Cấu trúc báo cáo luận văn

2. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Những nghiên cứu về mối liên kết giữa âm nhạc và cảm xúc con người

2.1.1. Nguồn gốc âm nhạc

2.1.2. Hoạt động của não người khi nghe nhạc

2.1.3. Mối liên hệ giữa âm nhạc và cảm xúc con người

2.2. Các phương pháp nhận diện cảm xúc không sử dụng Deep learning

2.3. Các phương pháp nhận diện cảm xúc sử dụng Deep-learning

2.3.1. Phân loại cảm xúc dựa trên đặc điểm âm thanh

2.3.2. Phân loại cảm xúc kết hợp âm thanh và ngữ nghĩa

2.4. Tổng kết chương 2

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG

3.1. Xây dựng mô hình nhận diện cảm xúc qua giọng nói

3.1.1. Tập dữ liệu

3.1.2. Tiền xử lý dữ liệu

3.2. Các website âm nhạc phổ biến hiện nay và đánh giá chung

3.3. Công nghệ sử dụng

3.3.1. Mô hình nhận diện cảm xúc qua giọng nói

3.4. Thiết kế hệ thống

3.4.1. Kiến trúc của hệ thống

3.4.2. Các chức năng của hệ thống

3.4.3. Giao diện của hệ thống (wireframe)

3.4.4. Cơ sở dữ liệu

3.4.5. Tương tác với mô hình nhận diện cảm xúc qua giọng nói

3.4.6. Các luồng hoạt động của hệ thống

3.4.6.1. Đăng nhập/ đăng ký

3.4.6.5. Xem thông tin chi tiết của một bài hát, một playlist hoặc một nghệ sĩ

3.4.6.6. Yêu thích một bài hát, một playlist hoặc một nghệ sĩ

3.4.6.7. Tạo một playlist

3.4.6.8. Thêm/xóa một bài hát khỏi một playlist

3.4.6.10. Nhận diện cảm xúc của người dùng qua giọng nói

3.4.7. Giao diện hoàn chỉnh (mockup) của hệ thống

3.4.7.1. Các trang chính của hệ thống

3.4.7.2. Các trang thông tin chi tiết của hệ thống

3.4.7.3. Các thành phần khác của hệ thống

3.7. Zing MP3 API

3.7.1. Cấu trúc request url của Zing MP3 API

3.7.2. Khai thác Zing MP3 API

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Mô hình phân loại cảm xúc qua giọng nói

4.1.1. Tiêu chí và phương pháp đánh giá

4.1.2. Mạng CNN-DNN chỉ sử dụng quang phổ âm

4.1.3. Mạng CNN-DNN kết hợp

4.2. Hệ thống đã đề xuất

4.2.1. Các chức năng của hệ thống

4.2.2. Mô hình nhận diện cảm xúc qua giọng nói khi được tích hợp vào hệ thống

5. CHƯƠNG 5: TỔNG KẾT

5.1. Kết quả đạt được

5.2. Những hạn chế

5.3. Những khó khăn, thách thức trong quá trình làm luận văn

5.4. Hướng cải tiến và mở rộng trong tương lai

Tài liệu tham khảo

Tóm tắt

I. Tổng quan đề tài

Đề tài luận văn tốt nghiệp này tập trung vào việc phát triển một hệ thống nhận diện cảm xúc qua giọng nói và ứng dụng vào website nghe nhạc. Mục tiêu chính là nghiên cứu và xây dựng một mô hình học máy có khả năng nhận diện cảm xúc của người dùng thông qua giọng nói, từ đó đề xuất nội dung âm nhạc phù hợp. Lựa chọn giọng nói làm yếu tố đầu vào vì cảm xúc thường được giải tỏa qua lời nói, giúp người dùng giải tỏa cảm xúc tiêu cực và thúc đẩy cảm xúc tích cực. Đề tài xoay quanh việc nghiên cứu các phương pháp học sâu và học máy trong phân loại cảm xúc qua giọng nói, thiết kế hệ thống tích hợp mô hình này và ứng dụng vào website nghe nhạc. Phương pháp nghiên cứu bao gồm phân tích lý thuyết về cảm xúc, giọng nói và học máy, thiết kế ngược từ các sản phẩm hiện có và phân tích tổng kết thí nghiệm để đánh giá độ chính xác và chất lượng sản phẩm.

II. Nghiên cứu liên quan và ứng dụng

Luận văn tìm hiểu về mối liên hệ giữa âm nhạc và cảm xúc con người, từ nguồn gốc âm nhạc đến hoạt động của não bộ khi nghe nhạc. Đề tài cũng khảo sát các phương pháp nhận diện cảm xúc, bao gồm các phương pháp không sử dụng Deep Learning và các phương pháp sử dụng Deep Learning như phân loại cảm xúc dựa trên đặc điểm âm thanh và kết hợp âm thanh với ngữ nghĩa. Việc nhận dạng cảm xúc trong giọng nói có nhiều ứng dụng thực tiễn, ví dụ như trong hệ thống tổng đài chăm sóc khách hàng, tương tác người - robot, và hỗ trợ quá trình học tập bằng cách đánh giá tâm lý người học. "SER sẽ hỗ trợ và trích xuất thông tin giúp cải thiện dịch vụ đó" - cho thấy tiềm năng ứng dụng của hệ thống nhận diện cảm xúc trong việc nâng cao chất lượng dịch vụ khách hàng.

III. Thiết kế và xây dựng hệ thống

Hệ thống được thiết kế bao gồm mô hình nhận diện cảm xúc qua giọng nói và website nghe nhạc tích hợp mô hình này. Mô hình nhận diện cảm xúc được xây dựng dựa trên các kỹ thuật học sâu, sử dụng tập dữ liệu RAVDESS và tiền xử lý dữ liệu để tăng độ chính xác. Website nghe nhạc được thiết kế với các chức năng như đăng nhập/đăng ký, phát nhạc, tải nhạc, hát karaoke, xem thông tin chi tiết, tạo playlist, yêu thích bài hát và đặc biệt là chức năng đề xuất nhạc dựa trên cảm xúc. Luận văn trình bày chi tiết kiến trúc hệ thống, cơ sở dữ liệu, giao diện người dùng (wireframe và mockup), luồng hoạt động của các chức năng và cách thức tương tác với mô hình nhận diện cảm xúc. Việc sử dụng Zing MP3 API giúp hệ thống khai thác nguồn nhạc phong phú và đa dạng. "Các sinh viên kết hợp giữa việc phát triển ứng dụng và giải thuật học máy cho một bài toán thực tế" - nhận xét của giảng viên hướng dẫn cho thấy tính ứng dụng cao của đề tài.

IV. Thực nghiệm đánh giá và kết luận

Đề tài thực hiện thực nghiệm và đánh giá mô hình phân loại cảm xúc qua giọng nói dựa trên các tiêu chí như độ chính xác. Kết quả cho thấy mô hình đạt hiệu quả tốt, đặc biệt khi kết hợp nhiều đặc trưng âm thanh. Hệ thống website nghe nhạc cũng được đánh giá về tính đầy đủ chức năng và hiệu quả của mô hình nhận diện cảm xúc khi tích hợp vào hệ thống. Mặc dù đạt được kết quả khả quan, luận văn cũng thẳng thắn nhìn nhận những hạn chế như chưa đánh giá mô hình với dữ liệu thực tế, phần ứng dụng website còn gượng ép. "Nhóm chỉ đánh giá được độ chính xác của mô hình trên tập benchmark, chưa đánh giá được với dữ liệu thực tế" - đây là một hạn chế cần được khắc phục trong tương lai. Luận văn đề xuất hướng phát triển trong tương lai, bao gồm việc cải thiện mô hình, mở rộng ứng dụng và đánh giá trên dữ liệu thực tế để nâng cao tính thực tiễn.

27/11/2024

Bạn đang xem trước tài liệu:

Luận văn tốt nghiệp khoa học máy tính phát triển hệ thống nhận diện cảm xúc qua giọng nói

Tải đầy đủ

Bài viết "Luận văn tốt nghiệp khoa học máy tính phát triển hệ thống nhận diện cảm xúc qua giọng nói" của các tác giả Trần Đình Đức và Trương Đình Đức, dưới sự hướng dẫn của các giảng viên tại Trường Đại Học Bách Khoa - Đại Học Quốc Gia TP.HCM, trình bày một nghiên cứu sâu sắc về việc phát triển hệ thống nhận diện cảm xúc thông qua giọng nói. Nghiên cứu này không chỉ mang lại cái nhìn mới về công nghệ nhận diện giọng nói mà còn mở ra hướng đi mới trong việc ứng dụng trí tuệ nhân tạo vào các lĩnh vực như tâm lý học và giao tiếp con người. Độc giả sẽ tìm thấy giá trị trong việc hiểu rõ hơn về cách mà công nghệ có thể cải thiện trải nghiệm tương tác và giao tiếp trong xã hội hiện đại.

Nếu bạn quan tâm đến các nghiên cứu và ứng dụng trong lĩnh vực công nghệ thông tin, bạn có thể tham khảo thêm bài viết Nghiên cứu kiểm thử phần mềm và sử dụng công cụ postman để test api cho website, nơi tìm hiểu về kiểm thử phần mềm và ứng dụng công cụ trong phát triển hệ thống. Ngoài ra, bài viết Đồ án tốt nghiệp mô hình phân loại sản phẩm bằng mã qr code cũng có thể thu hút bạn, với cách tiếp cận ứng dụng công nghệ vào thực tiễn. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các xu hướng công nghệ hiện nay.