I. Tổng quan đề tài
Đề tài luận văn tốt nghiệp này tập trung vào việc phát triển một hệ thống nhận diện cảm xúc qua giọng nói và ứng dụng vào website nghe nhạc. Mục tiêu chính là nghiên cứu và xây dựng một mô hình học máy có khả năng nhận diện cảm xúc của người dùng thông qua giọng nói, từ đó đề xuất nội dung âm nhạc phù hợp. Lựa chọn giọng nói làm yếu tố đầu vào vì cảm xúc thường được giải tỏa qua lời nói, giúp người dùng giải tỏa cảm xúc tiêu cực và thúc đẩy cảm xúc tích cực. Đề tài xoay quanh việc nghiên cứu các phương pháp học sâu và học máy trong phân loại cảm xúc qua giọng nói, thiết kế hệ thống tích hợp mô hình này và ứng dụng vào website nghe nhạc. Phương pháp nghiên cứu bao gồm phân tích lý thuyết về cảm xúc, giọng nói và học máy, thiết kế ngược từ các sản phẩm hiện có và phân tích tổng kết thí nghiệm để đánh giá độ chính xác và chất lượng sản phẩm.
II. Nghiên cứu liên quan và ứng dụng
Luận văn tìm hiểu về mối liên hệ giữa âm nhạc và cảm xúc con người, từ nguồn gốc âm nhạc đến hoạt động của não bộ khi nghe nhạc. Đề tài cũng khảo sát các phương pháp nhận diện cảm xúc, bao gồm các phương pháp không sử dụng Deep Learning và các phương pháp sử dụng Deep Learning như phân loại cảm xúc dựa trên đặc điểm âm thanh và kết hợp âm thanh với ngữ nghĩa. Việc nhận dạng cảm xúc trong giọng nói có nhiều ứng dụng thực tiễn, ví dụ như trong hệ thống tổng đài chăm sóc khách hàng, tương tác người - robot, và hỗ trợ quá trình học tập bằng cách đánh giá tâm lý người học. "SER sẽ hỗ trợ và trích xuất thông tin giúp cải thiện dịch vụ đó" - cho thấy tiềm năng ứng dụng của hệ thống nhận diện cảm xúc trong việc nâng cao chất lượng dịch vụ khách hàng.
III. Thiết kế và xây dựng hệ thống
Hệ thống được thiết kế bao gồm mô hình nhận diện cảm xúc qua giọng nói và website nghe nhạc tích hợp mô hình này. Mô hình nhận diện cảm xúc được xây dựng dựa trên các kỹ thuật học sâu, sử dụng tập dữ liệu RAVDESS và tiền xử lý dữ liệu để tăng độ chính xác. Website nghe nhạc được thiết kế với các chức năng như đăng nhập/đăng ký, phát nhạc, tải nhạc, hát karaoke, xem thông tin chi tiết, tạo playlist, yêu thích bài hát và đặc biệt là chức năng đề xuất nhạc dựa trên cảm xúc. Luận văn trình bày chi tiết kiến trúc hệ thống, cơ sở dữ liệu, giao diện người dùng (wireframe và mockup), luồng hoạt động của các chức năng và cách thức tương tác với mô hình nhận diện cảm xúc. Việc sử dụng Zing MP3 API giúp hệ thống khai thác nguồn nhạc phong phú và đa dạng. "Các sinh viên kết hợp giữa việc phát triển ứng dụng và giải thuật học máy cho một bài toán thực tế" - nhận xét của giảng viên hướng dẫn cho thấy tính ứng dụng cao của đề tài.
IV. Thực nghiệm đánh giá và kết luận
Đề tài thực hiện thực nghiệm và đánh giá mô hình phân loại cảm xúc qua giọng nói dựa trên các tiêu chí như độ chính xác. Kết quả cho thấy mô hình đạt hiệu quả tốt, đặc biệt khi kết hợp nhiều đặc trưng âm thanh. Hệ thống website nghe nhạc cũng được đánh giá về tính đầy đủ chức năng và hiệu quả của mô hình nhận diện cảm xúc khi tích hợp vào hệ thống. Mặc dù đạt được kết quả khả quan, luận văn cũng thẳng thắn nhìn nhận những hạn chế như chưa đánh giá mô hình với dữ liệu thực tế, phần ứng dụng website còn gượng ép. "Nhóm chỉ đánh giá được độ chính xác của mô hình trên tập benchmark, chưa đánh giá được với dữ liệu thực tế" - đây là một hạn chế cần được khắc phục trong tương lai. Luận văn đề xuất hướng phát triển trong tương lai, bao gồm việc cải thiện mô hình, mở rộng ứng dụng và đánh giá trên dữ liệu thực tế để nâng cao tính thực tiễn.