Phân Tích Phản Hồi Bình Luận Sinh Viên Sử Dụng Học Sâu

Luận văn thạc sĩ công nghệ thông tin phân tích phản hồi bình luận sinh viên bằng học sâu, khám phá ứng dụng và hiệu quả trong giáo dục.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CÁM ƠN

1. CHƯƠNG 1: TONG QUAN LUẬN VĂN

1.1. Động lực nghiên cứu luận văn

1.2. Mục tiêu và phạm vi của luận văn

1.3. Các cách thức nghiên cứu

1.4. Ý nghĩa bài nghiên cứu

1.5. Nội dung luận văn

2. CHƯƠNG 2: CƠ SỞ LÝ LUẬN VÀ CÁC NGHIÊN CỨU TRƯỚC ĐÓ

2.1. Natural Language Processing

2.2. Machine Learning

3. CHƯƠNG 3: DE XUẤT MÔ HÌNH DEEP LEARNING

3.1. Phương pháp xây dựng mô hình

3.2. Phương pháp đánh giá mô hình

4. CHƯƠNG 4: TIẾN HÀNH THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng dataSet, thu thập

4.2. Đánh giá kết quả thực nghiệm

4.3. Xây dựng ứng dụng

4.4. Giao diện và chức năng ứng dụng

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI

5.1. Hướng phát triển tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Phân Tích Phản Hồi Sinh Viên Với Học Sâu

Trong bối cảnh giáo dục hiện đại, việc thu thập và phân tích phản hồi sinh viên đóng vai trò then chốt trong việc đánh giá chất lượng đào tạo và cải thiện chương trình học. Tuy nhiên, việc xử lý thủ công khối lượng lớn phản hồi này tốn kém thời gian và nguồn lực. Sự trỗi dậy của Học Sâu (Deep Learning) mang đến giải pháp tiềm năng để tự động hóa và nâng cao hiệu quả quá trình này. Học sâu, một nhánh của Học máy (Machine Learning), cho phép phân tích dữ liệu phức tạp như văn bản với độ chính xác cao. Luận văn này tập trung vào ứng dụng Học Sâu để phân tích phản hồi bình luận sinh viên, giúp các nhà quản lý giáo dục và giảng viên hiểu rõ hơn về trải nghiệm học tập của sinh viên. Từ đó, có cơ sở để đưa ra các quyết định sáng suốt nhằm cải thiện chất lượng đào tạo.

1.1. Tầm quan trọng của Phân tích phản hồi ẩn danh cho cải tiến

Phân tích phản hồi một cách hiệu quả, đặc biệt là phản hồi ẩn danh, giúp nhà trường xác định chính xác điểm mạnh và điểm yếu của chương trình. Các công cụ phân tích văn bản (Text Analysis) và khai phá dữ liệu văn bản (Text Mining) có thể được sử dụng để trích xuất thông tin quan trọng từ phản hồi không cấu trúc, từ đó, đưa ra những điều chỉnh phù hợp. Điều này đặc biệt quan trọng trong việc đánh giá khóa học và độ hài lòng của sinh viên.

1.2. Ứng dụng công cụ Phân tích phản hồi trực tuyến hiệu quả nhất

Các công cụ phân tích phản hồi trực tuyến cho phép thu thập và xử lý dữ liệu một cách nhanh chóng và hiệu quả. Các công cụ này thường tích hợp các kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) và Phân tích cảm xúc (Sentiment Analysis) để tự động phân loại và đánh giá phản hồi sinh viên theo các chủ đề và mức độ cảm xúc khác nhau.

II. Thách Thức Phân Tích Cảm Xúc Từ Phản Hồi Sinh Viên Tiếng Việt

Mặc dù Học Sâu mang lại nhiều tiềm năng, việc áp dụng nó để phân tích phản hồi sinh viên bằng tiếng Việt vẫn đối mặt với nhiều thách thức. Tiếng Việt là ngôn ngữ giàu sắc thái, biến đổi ngữ nghĩa và sự phức tạp trong cấu trúc câu có thể gây khó khăn cho các mô hình Xử lý ngôn ngữ tự nhiên (NLP). Việc thiếu hụt bộ dữ liệu được gán nhãn chất lượng cao cho tiếng Việt cũng là một rào cản lớn. Ngoài ra, việc xử lý các lỗi chính tả, từ viết tắt và ngôn ngữ địa phương trong phản hồi trực tuyến đòi hỏi các kỹ thuật tiền xử lý dữ liệu phức tạp. Theo nghiên cứu của Trần Ngọc Khánh Vinh, việc thu thập và làm sạch dữ liệu giáo dục tiếng Việt cần được thực hiện cẩn thận để đảm bảo tính chính xác và tin cậy.

2.1. Vấn đề đa nghĩa và sắc thái trong phân tích văn bản Tiếng Việt

Các mô hình Học Sâu cần được huấn luyện với dữ liệu tiếng Việt phong phú để có thể hiểu được sự đa dạng và phức tạp của ngôn ngữ. Cần chú trọng đến việc xử lý các yếu tố như thành ngữ, tục ngữ và cách diễn đạt ẩn dụ để đảm bảo tính chính xác của Phân tích cảm xúc (Sentiment Analysis).

2.2. Xử lý Phản hồi không cấu trúc và lỗi chính tả thường gặp

Các kỹ thuật tiền xử lý dữ liệu như sửa lỗi chính tả, chuẩn hóa từ ngữ và loại bỏ các ký tự đặc biệt là rất quan trọng để cải thiện hiệu suất của các mô hình Học Sâu. Cần sử dụng các thư viện và công cụ hỗ trợ tiếng Việt để thực hiện các tác vụ này một cách hiệu quả.

III. Phương Pháp Học Sâu Cho Phân Tích Phản Hồi Dựa Trên BERT

Luận văn này đề xuất sử dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) đã được huấn luyện trước trên tiếng Việt (ví dụ: PhoBERT) để phân tích phản hồi bình luận sinh viên. BERT là một mô hình biến đổi ngôn ngữ dựa trên Transformer mạnh mẽ, có khả năng nắm bắt ngữ cảnh và quan hệ giữa các từ trong câu. Mô hình được tinh chỉnh để thực hiện các tác vụ như Phân loại văn bản (Text Classification) và Phân tích cảm xúc (Sentiment Analysis). Việc sử dụng BERT giúp tận dụng kiến thức ngôn ngữ đã được học trước, giảm thiểu nhu cầu về dữ liệu huấn luyện lớn và cải thiện độ chính xác của mô hình. Theo Trần Ngọc Khánh Vinh, việc sử dụng mô hình PhoBERT đã được chứng minh là hiệu quả trong việc phân tích phản hồi tiếng Việt.

3.1. Ứng dụng mô hình BERT cho phân loại khía cạnh và cảm xúc

Mô hình BERT có thể được điều chỉnh để phân loại phản hồi theo các khía cạnh khác nhau như chất lượng giảng dạy, cơ sở vật chất và nội dung khóa học. Đồng thời, mô hình có thể xác định cảm xúc (tích cực, tiêu cực, trung lập) liên quan đến từng khía cạnh này. Điều này cung cấp thông tin chi tiết về các yếu tố ảnh hưởng đến sự hài lòng của sinh viên.

3.2. Kỹ thuật tinh chỉnh và tối ưu mô hình để tăng độ chính xác

Việc tinh chỉnh mô hình BERT với dữ liệu phản hồi sinh viên cụ thể là rất quan trọng để đạt được độ chính xác cao nhất. Các kỹ thuật như điều chỉnh siêu tham số, sử dụng các hàm mất mát phù hợp và áp dụng các phương pháp chính quy hóa có thể giúp cải thiện hiệu suất của mô hình.

3.3 Đánh giá hiệu năng mô hình dựa trên F1 score và Accuracy

Sử dụng các chỉ số đánh giá như F1-score và Accuracy cho phép đánh giá hiệu năng của mô hình Học Sâu một cách toàn diện. F1-score đánh giá sự cân bằng giữa độ chính xác và độ phủ, trong khi Accuracy đo lường tỷ lệ dự đoán đúng. Việc so sánh các chỉ số này với các mô hình khác giúp đánh giá tính hiệu quả của phương pháp đề xuất.

IV. Ứng Dụng Xây Dựng Hệ Thống Phân Tích Phản Hồi Tự Động

Để triển khai kết quả nghiên cứu, luận văn này đề xuất xây dựng một hệ thống phân tích phản hồi tự động. Hệ thống này sẽ bao gồm các thành phần chính: thu thập dữ liệu, tiền xử lý dữ liệu, phân tích bằng mô hình BERT, và hiển thị kết quả. Hệ thống sẽ cung cấp giao diện trực quan cho phép người dùng tải lên phản hồi và xem kết quả phân tích theo các khía cạnh và cảm xúc khác nhau. Hệ thống này có thể được tích hợp vào các nền tảng quản lý học tập (LMS) để cung cấp thông tin phản hồi kịp thời cho giảng viên và nhà quản lý giáo dục. Dựa trên kinh nghiệm của Trần Ngọc Khánh Vinh, hệ thống cần được thiết kế để dễ sử dụng và có khả năng mở rộng để đáp ứng nhu cầu phân tích dữ liệu ngày càng tăng.

4.1. Thiết kế giao diện trực quan để hiển thị kết quả phân tích

Giao diện người dùng cần được thiết kế để dễ hiểu và trực quan, cho phép người dùng nhanh chóng nắm bắt thông tin quan trọng. Các biểu đồ, đồ thị và bảng biểu có thể được sử dụng để hiển thị kết quả phân tích cảm xúc và phân loại khía cạnh một cách rõ ràng.

4.2. Tích hợp hệ thống vào nền tảng quản lý học tập LMS

Việc tích hợp hệ thống vào LMS cho phép thu thập phản hồi một cách tự động và cung cấp thông tin phản hồi liên tục cho giảng viên. Điều này giúp giảng viên điều chỉnh phương pháp giảng dạy và nội dung khóa học một cách kịp thời để đáp ứng nhu cầu của sinh viên.

V. Kết Luận Triển Vọng Và Hướng Phát Triển Phân Tích Phản Hồi

Luận văn này đã trình bày phương pháp sử dụng Học Sâu để phân tích phản hồi bình luận sinh viên bằng tiếng Việt. Kết quả nghiên cứu cho thấy mô hình BERT có khả năng phân loại khía cạnh và phân tích cảm xúc với độ chính xác cao. Hệ thống phân tích tự động được đề xuất có tiềm năng giúp các nhà quản lý giáo dục và giảng viên hiểu rõ hơn về trải nghiệm học tập của sinh viên và đưa ra các quyết định sáng suốt để cải thiện chất lượng đào tạo. Hướng phát triển tương lai bao gồm việc mở rộng bộ dữ liệu huấn luyện, cải thiện hiệu suất của mô hình và tích hợp thêm các tính năng mới vào hệ thống. Nghiên cứu của Trần Ngọc Khánh Vinh đã mở ra nhiều cơ hội để ứng dụng Học Sâu trong lĩnh vực giáo dục.

5.1. Nghiên cứu sâu hơn về mô hình hóa chủ đề và khuyến nghị

Các kỹ thuật mô hình hóa chủ đề (Topic Modeling) có thể được sử dụng để tự động phát hiện các chủ đề chính trong phản hồi. Các hệ thống khuyến nghị (Recommender Systems) có thể được sử dụng để gợi ý các cải tiến chương trình học và phương pháp giảng dạy dựa trên phản hồi sinh viên.

5.2. Ứng dụng Phân tích dữ liệu giáo dục Educational Data Mining

Phân tích dữ liệu giáo dục (Educational Data Mining) có thể được sử dụng để khám phá các mối quan hệ giữa phản hồi sinh viên, kết quả học tập và các yếu tố khác. Điều này có thể giúp nhà trường xác định các sinh viên có nguy cơ gặp khó khăn và cung cấp hỗ trợ kịp thời.

28/05/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phân tích phản hồi bình luận sinh viên sử dụng học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của khoa học kỹ thuật và công nghệ thông tin, lĩnh vực giáo dục cũng đang trải qua những thay đổi sâu sắc nhằm nâng cao chất lượng đào tạo. Theo ước tính, việc thu thập và phân tích phản hồi của sinh viên về chất lượng giảng dạy và môi trường học tập ngày càng trở nên quan trọng để cải thiện hiệu quả giáo dục. Tuy nhiên, việc xử lý thủ công các bình luận phản hồi sinh viên thường tốn nhiều thời gian, nhân lực và chi phí, gây khó khăn trong việc khai thác triệt để dữ liệu phản hồi.

Luận văn thạc sĩ này tập trung vào việc ứng dụng học sâu (Deep Learning) để phân tích phản hồi bình luận của sinh viên, nhằm tự động hóa quá trình phân loại và đánh giá cảm xúc theo các khía cạnh (Aspect-Based Sentiment Analysis - ABSA). Mục tiêu cụ thể là xây dựng mô hình phân tích phản hồi sinh viên bằng tiếng Việt, phân loại các ý kiến theo các khía cạnh như chất lượng tài liệu, sự chuyên nghiệp của giảng viên, cơ sở vật chất và các ý kiến khác, đồng thời xác định trạng thái cảm xúc (tích cực, tiêu cực, trung lập) tương ứng. Nghiên cứu được thực hiện trên bộ dữ liệu thu thập từ các phản hồi sinh viên tại các cơ sở giáo dục ở Thành phố Hồ Chí Minh trong giai đoạn gần đây, với phạm vi tập trung vào các trường cao đẳng kỹ nghệ.

Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp một công cụ phân tích phản hồi tự động, giúp các nhà quản lý giáo dục và giảng viên có cái nhìn sâu sắc hơn về chất lượng giảng dạy và môi trường học tập, từ đó đưa ra các giải pháp cải tiến phù hợp. Đồng thời, nghiên cứu góp phần phát triển các ứng dụng học sâu trong lĩnh vực giáo dục, đặc biệt là xử lý ngôn ngữ tự nhiên cho tiếng Việt.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) và học máy (Machine Learning - ML), đặc biệt là học sâu (Deep Learning - DL).

Xử lý ngôn ngữ tự nhiên (NLP): Đây là lĩnh vực nghiên cứu các phương pháp để máy tính hiểu và xử lý ngôn ngữ con người. Trong nghiên cứu này, NLP được sử dụng để tiền xử lý dữ liệu văn bản, tách từ, chuẩn hóa và biểu diễn từ ngữ dưới dạng vector số thông qua kỹ thuật Word Embedding như Word2Vec và mô hình ngôn ngữ BERT.
Học sâu (Deep Learning): Sử dụng mạng nơ-ron nhân tạo nhiều lớp để tự động học các đặc trưng phức tạp từ dữ liệu. Luận văn áp dụng mô hình PhoBERT, một biến thể của BERT được huấn luyện chuyên biệt cho tiếng Việt, với kiến trúc Transformer và cơ chế Attention giúp hiểu ngữ cảnh và mối quan hệ giữa các từ trong câu.
Phân tích cảm xúc theo khía cạnh (Aspect-Based Sentiment Analysis - ABSA): Phương pháp phân tích phản hồi không chỉ dựa trên cảm xúc tổng thể mà còn phân loại theo các khía cạnh cụ thể như tài liệu học tập, giảng viên, cơ sở vật chất. Mô hình đa nhiệm (Multi-task) được đề xuất để đồng thời phát hiện khía cạnh và dự đoán cảm xúc.

Các khái niệm chính bao gồm:

Aspect (Khía cạnh): Các tiêu chí đánh giá trong phản hồi như chất lượng tài liệu, sự chuyên nghiệp của giảng viên, cơ sở vật chất, và các ý kiến khác.
Sentiment (Cảm xúc): Trạng thái cảm xúc của phản hồi, gồm ba loại: tích cực (positive), tiêu cực (negative), và trung lập (neutral).
Transformer: Kiến trúc mạng nơ-ron sử dụng cơ chế Attention, giúp mô hình học được mối quan hệ giữa các từ trong câu.
PhoBERT: Mô hình ngôn ngữ dựa trên BERT, được huấn luyện trên dữ liệu tiếng Việt đa dạng, có khả năng xử lý ngữ cảnh phức tạp.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ phản hồi bình luận của sinh viên thu thập từ các trường cao đẳng kỹ nghệ tại Thành phố Hồ Chí Minh. Bộ dữ liệu gồm khoảng 3.849 phản hồi được gán nhãn theo 4 khía cạnh và 3 trạng thái cảm xúc. Quá trình thu thập dữ liệu được thực hiện qua các bảng câu hỏi trực tuyến, sau đó dữ liệu được tiền xử lý kỹ lưỡng bao gồm chuẩn hóa Unicode, sửa lỗi chính tả, tách từ bằng công cụ VnCoreNLP, và loại bỏ ký tự dư thừa.

Phương pháp phân tích sử dụng mô hình học sâu PhoBERT-base với kiến trúc đa nhiệm, kết hợp 4 lớp cuối của BERT để tạo biểu diễn ngữ cảnh cho từng câu. Mô hình được huấn luyện trên tập dữ liệu đã gán nhãn với batch size 16, độ dài tối đa 256 token, và sử dụng kỹ thuật dừng sớm (Early Stopping) để tránh overfitting. Thuật toán tối ưu Adam với learning rate 1e-5 được áp dụng.

Quá trình nghiên cứu gồm các bước:

Xây dựng và tiền xử lý bộ dữ liệu.
Huấn luyện mô hình trên môi trường Google Colab sử dụng GPU T4.
Đánh giá mô hình bằng các chỉ số Accuracy, Precision, Recall và F1-score.
Phát triển ứng dụng phân tích phản hồi trực quan bằng Python, cho phép người dùng nhập câu hoặc file để phân tích và hiển thị kết quả.

Timeline nghiên cứu kéo dài trong năm 2023-2024, tập trung vào thu thập dữ liệu, phát triển mô hình, thực nghiệm và xây dựng ứng dụng hỗ trợ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất phát hiện khía cạnh (Aspect Detection): Mô hình đạt độ chính xác (Accuracy) 94,4%, với F1-score khoảng 89,3%. Trong đó, khía cạnh "Professionalism" chiếm 1.372 phản hồi, "Material" 947 phản hồi, "Facility" 337 phản hồi và "Others" 193 phản hồi. Kết quả cho thấy mô hình có khả năng phân loại chính xác các khía cạnh trong phản hồi sinh viên.
Hiệu suất phân tích cảm xúc (Sentiment Detection): Mô hình đạt độ chính xác 100% trong việc phân loại cảm xúc tích cực, tiêu cực và trung lập trên tập dữ liệu thử nghiệm. Tỷ lệ phân bố cảm xúc trong dữ liệu là khoảng 45% tích cực, 35% tiêu cực và 20% trung lập.
Hiệu quả mô hình đa nhiệm (Multi-task): Khi kết hợp đồng thời hai nhiệm vụ phát hiện khía cạnh và phân tích cảm xúc, mô hình đạt F1-score và Accuracy đều trên 90%, cho thấy khả năng xử lý đa nhiệm hiệu quả, tiết kiệm thời gian và tài nguyên so với các mô hình riêng biệt.
Ứng dụng thực tiễn: Ứng dụng phân tích phản hồi được xây dựng trên nền tảng Python với giao diện trực quan, cho phép người dùng nhập câu hoặc tải file phản hồi để phân tích nhanh chóng. Ứng dụng giúp giảm đáng kể thời gian và công sức so với phương pháp thủ công.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy mô hình PhoBERT với kiến trúc đa nhiệm phù hợp và hiệu quả trong việc phân tích phản hồi bình luận sinh viên bằng tiếng Việt. Việc sử dụng 4 lớp cuối của BERT để kết hợp biểu diễn ngữ cảnh giúp mô hình hiểu sâu sắc hơn về nội dung và cảm xúc trong từng câu phản hồi. So với các nghiên cứu trước đây tập trung vào phân tích cảm xúc tổng thể, nghiên cứu này mở rộng bằng cách phân loại theo khía cạnh, giúp nhà trường và giảng viên có cái nhìn chi tiết hơn về từng yếu tố ảnh hưởng đến chất lượng đào tạo.

So sánh với các mô hình truyền thống như KNN (Accuracy 42%) hay LSTM (Accuracy 37%), mô hình PhoBERT đạt độ chính xác cao hơn đáng kể (trên 90%), phù hợp với đặc thù ngôn ngữ tiếng Việt và dữ liệu phản hồi sinh viên. Kết quả cũng tương đồng với các nghiên cứu trong nước và quốc tế về ứng dụng BERT và Transformer trong phân tích cảm xúc.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố khía cạnh và cảm xúc, bảng so sánh các chỉ số đánh giá mô hình, giúp minh họa rõ ràng hiệu quả của phương pháp đề xuất. Ngoài ra, ứng dụng phân tích phản hồi giúp tự động hóa quy trình, giảm thiểu sai sót và tăng tính khách quan trong đánh giá chất lượng giáo dục.

Đề xuất và khuyến nghị

Triển khai hệ thống phân tích phản hồi tự động: Các trường đại học và cao đẳng nên áp dụng mô hình học sâu đa nhiệm để phân tích phản hồi sinh viên theo khía cạnh và cảm xúc, nhằm nâng cao hiệu quả quản lý chất lượng đào tạo. Thời gian triển khai dự kiến trong 6-12 tháng, do phòng công nghệ thông tin phối hợp với khoa đào tạo thực hiện.
Cập nhật và mở rộng bộ dữ liệu phản hồi: Khuyến khích thu thập phản hồi đa dạng từ nhiều khóa học và cơ sở đào tạo khác nhau để tăng tính đại diện và cải thiện độ chính xác mô hình. Việc này nên được thực hiện liên tục hàng năm nhằm cập nhật xu hướng và nhu cầu học tập của sinh viên.
Đào tạo giảng viên và cán bộ quản lý: Tổ chức các khóa đào tạo về ứng dụng công nghệ phân tích dữ liệu và học sâu trong giáo dục, giúp đội ngũ giảng viên và quản lý hiểu và sử dụng hiệu quả kết quả phân tích để điều chỉnh phương pháp giảng dạy và chính sách đào tạo. Thời gian đào tạo có thể kéo dài 3-6 tháng.
Phát triển ứng dụng phân tích phản hồi đa nền tảng: Nâng cấp ứng dụng hiện tại để hỗ trợ phân tích phản hồi trên nhiều thiết bị và tích hợp với hệ thống quản lý đào tạo (LMS), giúp người dùng dễ dàng truy cập và sử dụng. Dự kiến hoàn thành trong vòng 1 năm với sự phối hợp của các chuyên gia công nghệ và giáo dục.
Khuyến khích sinh viên tham gia phản hồi: Tạo môi trường khuyến khích sinh viên đóng góp ý kiến phản hồi một cách trung thực và thường xuyên, qua đó tăng cường sự kết nối giữa người học và nhà trường, đồng thời nâng cao chất lượng dữ liệu phân tích.

Đối tượng nên tham khảo luận văn

Giảng viên và cán bộ quản lý giáo dục: Luận văn cung cấp công cụ và phương pháp phân tích phản hồi sinh viên giúp họ đánh giá hiệu quả giảng dạy, nhận diện điểm mạnh, điểm yếu và điều chỉnh phương pháp phù hợp.
Nhà nghiên cứu trong lĩnh vực công nghệ thông tin và giáo dục: Nghiên cứu đóng góp mô hình học sâu ứng dụng trong xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt trong phân tích cảm xúc theo khía cạnh, là tài liệu tham khảo quý giá cho các đề tài tương tự.
Phòng công nghệ thông tin các trường đại học, cao đẳng: Có thể ứng dụng mô hình và ứng dụng được phát triển để xây dựng hệ thống phân tích phản hồi tự động, nâng cao hiệu quả quản lý dữ liệu và hỗ trợ ra quyết định.
Sinh viên và học viên ngành công nghệ thông tin, khoa học dữ liệu: Luận văn cung cấp ví dụ thực tiễn về ứng dụng học sâu, xử lý ngôn ngữ tự nhiên và phát triển ứng dụng, giúp nâng cao kiến thức và kỹ năng chuyên môn.

Câu hỏi thường gặp

Mô hình PhoBERT có ưu điểm gì so với các mô hình khác?
PhoBERT được huấn luyện chuyên biệt trên dữ liệu tiếng Việt đa dạng, giúp hiểu ngữ cảnh phức tạp và xử lý tốt các đặc trưng ngôn ngữ tiếng Việt, từ đó nâng cao độ chính xác phân tích cảm xúc và khía cạnh so với các mô hình chung như LSTM hay KNN.
Làm thế nào để mô hình phân biệt được các khía cạnh trong phản hồi?
Mô hình sử dụng kiến trúc đa nhiệm, trong đó mỗi khía cạnh được biểu diễn bằng một vector one-hot và được huấn luyện để nhận diện các đặc trưng ngôn ngữ liên quan đến từng khía cạnh, từ đó phân loại chính xác phản hồi theo từng tiêu chí.
Ứng dụng phân tích phản hồi có thể sử dụng cho các ngôn ngữ khác không?
Mô hình và ứng dụng được thiết kế cho tiếng Việt, tuy nhiên kiến trúc và phương pháp có thể được điều chỉnh và huấn luyện lại với dữ liệu phù hợp để áp dụng cho các ngôn ngữ khác.
Phản hồi trung lập (neutral) được xác định như thế nào?
Phản hồi trung lập là những câu không thể hiện rõ cảm xúc tích cực hay tiêu cực, thường là ngắn gọn hoặc không đầy đủ thông tin cảm xúc. Mô hình được huấn luyện để nhận diện các đặc điểm này dựa trên dữ liệu gán nhãn.
Làm sao để đảm bảo dữ liệu phản hồi chính xác và đầy đủ?
Cần xây dựng quy trình thu thập phản hồi bài bản, khuyến khích sinh viên cung cấp ý kiến chi tiết, đồng thời thực hiện tiền xử lý dữ liệu kỹ lưỡng để loại bỏ lỗi chính tả, ký tự thừa và chuẩn hóa ngôn ngữ trước khi đưa vào mô hình.

Kết luận

Luận văn đã xây dựng thành công mô hình học sâu đa nhiệm dựa trên PhoBERT để phân tích phản hồi bình luận sinh viên theo khía cạnh và cảm xúc với độ chính xác cao trên 90%.
Bộ dữ liệu thực nghiệm tiếng Việt được thu thập và gán nhãn chi tiết, góp phần bổ sung nguồn dữ liệu quý giá cho nghiên cứu trong nước.
Ứng dụng phân tích phản hồi được phát triển giúp tự động hóa quy trình, tiết kiệm thời gian và nâng cao hiệu quả phân tích.
Kết quả nghiên cứu có ý nghĩa thực tiễn lớn trong việc nâng cao chất lượng giảng dạy và quản lý giáo dục tại các cơ sở đào tạo.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, nâng cấp ứng dụng đa nền tảng và triển khai thực tế tại các trường học, đồng thời đào tạo cán bộ sử dụng công cụ hiệu quả.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển tiếp các kết quả này nhằm nâng cao chất lượng giáo dục và ứng dụng công nghệ trong lĩnh vực đào tạo.

Trích đoạn nội dung tài liệu

Chương 1: Tống quan luận văn: o Giới thiệu luận văn, đề tài nghiên cứu, động lực, mục tiêu, phạm vi, cách thức nghiên cứu, ý nghĩa khoa học và thực tiễn của luận văn e Chương 2: Cơ sở lý luận và các nghiên cứu trước đó o Trình bày cơ sở lý thuyết về các kiến thức nền tảng ứng dụng vào nghiên cứu và khái quát các nghiên cứu liên quan tại trong và ngoài nước. e Chương 3: Dé xuất mô hình Deep Learning o Giới thiệu về phương pháp xây dựng mô hình đề xuất và phương pháp đánh giá mô hình đã xây dựng e Chương 4: Tiến hành nghiên cứu thực nghiệm và đánh giá tổng quát o Giới thiệu tổng quan quá trình tiến hành thực nghiệm, chỉ tiết từng giai đoạn tiến hành, kết quả đánh giá và xây dựng ứng dụng. 16 e Chương 5: Kết luận và hướng phát triển tương lai o Khái quát lại một số thành tựu đạt được và hướng phát triển tương lai Sau này. e TÀI LIỆU THAM KHAO 17 CHƯƠNG 2: CƠ SỞ LÝ LUẬN VÀ CÁC NGHIÊN CỨU TRƯỚC ĐÓ Trong phân này, bài viét sẽ nêu lên cái nhìn tông quan cơ sở lý luận và các nội dung tương đồng sẵn có hiện nay liên quan đến luận văn nghiên cứu.

Natural Language Processing Nhu cầu được giao tiếp là điều tất yếu trong xã hội ngày nay, do đó tạo ra một số lượng lớn nguồn dit liệu văn bản mỗi ngày. Lượng thông tin này rất lớn không những từ mạng xã hội, các phương tiện truyền thông, các tài liệu nghiên cứu khoa học đến những đánh giá phản hồi hàng hóa tiêu dùng,. Tuy nhiên nó chưa tận dụng hết giá trị tiềm năng, máy tính giúp con người có thê khai thác nhiều giá trị hơn từ những đữ liệu, vì vậy để việc hỗ trợ máy tính hiểu được những thông tin đó là rất cần thiết. Xử lý ngôn ngữ tự nhiên (NLP) là một hướng phát triển vô cùng quan trọng của trí tuệ nhân tạo (Artificial Intelligence).

Từ sự thịnh hành của giao tiếp người và máy cũng như sự tiến bộ vượt trội, các giải pháp đám mây là động lực thúc day các ứng dụng NLP ra đời. NLP với nhiệm vụ tiếp nhận và phân tích một lượng lớn thông tin đê mô phỏng các tương tác giữa con người theo cách như con người. Word Embedding Word Embedding là một phương thức hữu hiệu trong việc biéu diễn từ, mà theo đó mỗi từ sẽ được đại diện bằng một vector số chứa về ý nghĩa của từ ngữ đó. Điều này cho phép việc xử lý từ vựng trở nên hiệu quả trên máy tính.

Có nhiều kỹ thuật Word Embedding đã được dé xuất như Word2vec, GloVe,. Tuy nhiên, những phương thức này đều cần tuân thủ hai điều kiện sau: e Mỗi từ chỉ có một biểu diễn duy nhất, có nghĩa là hai từ khác nhau sẽ được biểu diễn băng hai vector khác nhau. e_ Hai từ có ý nghĩa tương đương sẽ được biéu diễn bằng hai vector tương tự hoặc gần nhau trong không gian vector, có nghĩa là khoảng cách giữa chúng sẽ nhỏ.1 Mã hóa one - hot Mã hóa one — hot (OH) được biéu diễn dưới dạng vector nhị phân. Mỗi giá trị hạng mục được mã hóa băng một vector chỉ có một chiêu duy nhât băng có giá trị băng 1, còn các chiêu còn lại bang 0, vector nay còn được gọi là “ OH vector”.

Sô chiêu của OH vector băng sô từ. Mã hoá one-hot là một phương pháp dé chuyền đồi từng từ ở một từ điển thành một vecto số, và nó dùng nhiều trong NLP va DL , thường dùng cho trường hop từ vựng có kích thước nhỏ. Kỹ thuật này đảm bảo rằng mỗi từ khác nhau sẽ có một vectơ khác nhau. Tuy nhiên, khi sử dụng one-hot vector cân chú ý các nội dung sau: e Khi làm việc với từ vựng lớn, kỹ thuật này dẫn đến các vectơ thừa với số chiêu lớn, và gân như tât cả các chiêu của vectơ có giá trị 0.

e Ky thuật này không thé biểu diễn sự khác nhau về mặt ý nghĩa giữa các từ. Hai vectơ one-hot bất kỳ luôn có khoảng cách.2 Word2Vec Năm 2013, một nhóm các nhà nghiên cứu do Tomas Mikolov dẫn đầu đã công bố công khai mô hình Word2vec. Đây là mô hình phé biến dùng dé biểu diễn từ thành những vector từ trong không gian vector với số chiều thấp hơn trong tập dataset. Có 2 cách thức dé thiết lập mô hình trên: e Skip-gram: Thông qua các từ đích biết trước dự đoán những từ ngữ cảnh e Continuous Bags Words (CBOW): Dự đoán từ dich nếu biết trước những từ ngữ cảnh input projection output input projection output W-.

Wo Wo O W: Wi We O We CBOW Skip-gram Hình 2. 2 Mô hình Skip-gram và CBOW 2. Machine Learning Machine Learning (ML) là một lĩnh vực của AI, trải qua các thời kỳ phát triển, ML tập trung vào việc phát triển thuật toán và mô hình giúp máy tính có thể học từ data và tự động cải thiện hiệu suất trong trình giải quyết các nhiệm vụ được giao 20 MACHINE LEARNING DEEP Sử `⁄ LEARNING _= 1950's 1960's 1970's 1980's 1990's 2000's 2010's Hình 2. 3 Các thời điểm phát triển AI, ML, DL Một số ứng dụng hiện tại của ML được dùng phô biến ngày nay như: e Đưa ra đề cử sản phẩm: o Các công ty như Amazon va Netflix sử dung ML dé phân tích dit liệu về hành vi mua hàng và xem phim của người dùng.

o Dựa trên thông tin này, hệ thống ML đề xuất những nội dung phù hợp với sở thích cá nhân của người dùng, tăng trải nghiệm và tăng khả năng tiếp thị. e Dich máy: o Công nghệ dich máy sử dung ML dé tu động dich van ban từ một ngôn ngữ này sang ngôn ngữ khác. o Hệ thống ML học từ các bộ data đã được dịch trước đó và dùng các mô hình mục đích cho việc dự đoán và tạo ra các bản dịch chính xác. e Xe tự lái: o_ Các công ty /tập đoàn lớn trên thé giới như Waymo, Tesla,.

Ứng dụng Machine Learning sử dụng trong việc phát triển các thuật toán để xe tự lái có thé nhận diện và phan ứng với môi trường xung quanh. 21 o Hệ thống ML dựa trên data huấn luyện có thể hiểu từ data cảm biến như radar, camera và lidar để tự động lái xe, nhận biết biển báo giao thông, dự đoán hành vi người lái khác và đưa ra quyết định an toàn Phanh khẩn cdo Nhân dạng người di bộ Tránh dụng đệ Cảnh báo va chạm F we Redor ` Cảnh báo vạch kẻ .- - p đường bộ ` Short-Medium Range Radar Ultrasonic Sensor Hình 2. 4 Hình ảnh minh họa xe tự lái sử dụng hệ thống Machine Learning e Phân tích tín hiệu y tế: o Được dùng cho phân tích, chân đoán các tín hiệu y tế như hình ảnh chụp X-quang, dữ ligu ECG hoặc dữ liệu gen. o_ Khả năng học từ thông tin y tế và cung cấp dự đoán những bệnh lý, hỗ trợ việc chân đoán và điều trị.

e Nhận dạng giọng nói: o Được dùng chủ yếu trong các ứng dụng nhận dạng giọng nói như virtual assistant: Siri, Cortana, Alexa, Google Assistant, Bixby. 22 o Hệ thông học từ dữ liệu giọng nói và nhận diện và hiéu các lệnh và yêu câu từ người dùng. “Hey Siri” “Hey Cortana” “Alexa” “OK Google” “Hi Bixby” Bên cạnh đó, ML còn sử dụng trên đa dạng lĩnh vực khác ví dụ: Lĩnh vực quảng cáo, dự báo thời tiết, tài chính,. Dựa trên các cách thức xử lý vân đê giải khác nhau của từng bài toán khác nhau có thê chia Machine Learning thành bốn loại chính: e Học có giám sat (Supervised Learning) e Hoc không giám sat (Unsupervised Learning) e Hoc bán giám sát (Semi-supervised Learning) e Hoc tăng cường (Reinforcement Learning) Supervised Unsupervised Semi-Supervised Reinforcement Machine Learning Machine Learning Learning Learning Hình 2.

6 Bốn phương pháp chính của Machine Learning Trong đó: e Học có giám sat (Supervised Learning): o Mô hình hoc từ một tập dữ liệu huấn luyện mà đã được gán nhãn trước, mỗi mẫu data trong tập huấn luyện sẽ có data đầu vào (input) và một 23 Supervised Machine Learning Output for future inputs iis ® Strawberry awbecry G Apple Machine Learning Model Hinh 2. 7 Ung dung Supervised Learning nhãn (label) tương tng. Supervised Learning hướng tới mục tiêu là dat được nhiệm vụ dự đoán chính xác cho tập data mới có input ma nó chưa gặp trước đó dựa vào mô hình được thiết lập sẵn. Trong suốt quá trình huấn luyện của học có giám sát sẽ tiền hành tìm hiểu mối quan hệ giữa các đặc trưng cua dữ liệu input và nhãn label tương ứng.

Ví dụ khác như tập dữ liệu chứa các thông tin hình các ký tự số viết tay được gán nhãn rõ con số tương ứng. Sau khi hoàn tất quá trình huấn luyện, mô hình có khả năng nhận biết các hình dáng và cụm điểm ảnh tương ứng với các ký tự số như nhận biết chính xác các số dễ nhằm lẫn như cặp số 9 và 4 hoặc là § và 6. Ở học có giám sát có các thuật toán tiêu biểu như: Decision Trees, Support vector machines, linear regression,. được dùng trong các lĩnh vực, phân loại (Classification), dự đoán (Prediction), nhận dạng mẫu (recognition) và nhiêu lĩnh vực khác nữa.

Học không giám sát (Unsupervised Learning): 24 o Khác với học có giám sát, mô hình học không giám sát học từ một tập dữ liệu huấn luyện mà không được gán nhãn hoặc phân loại. Mô hình học không giám sát không được cung cấp thông tin về output đầu ra mong muốn mà chỉ có nhiệm vụ tìm ra các mô hình hoặc cấu trúc ân trong dữ liệu. Unsupervised Learning Supervised Learning o Mục tiêu của hoc không giám sát phố biến là khám phá thông tin ẩn, phân nhóm (clustering) hoặc giảm số chiều dữ liệu (dimensionality reduction). o Các thuật toán phô biến trong học không giám sát như: Phan cụm K- means (K-means clustering), (Agglomerative clustering), Gaussian Mixture Models (GMM), Principal Component Analysis (PCA), va t- SNE (t-Distributed Stochastic Neighbor Embedding).

o Ứng dụng của phương pháp: s* Phân cụm: Nhóm các tài liệu tương tự nhau trong khai thác van bản, phân loại khách hàng dựa trên sở thích và nhu cầu mua hàng và tô chức bộ dữ liệu hình ảnh. s* Giảm kích thước: Giảm số lượng tính năng trong dit liệu nhiều chiều, trực quan hóa các bộ dữ liệu phức tạp và nén hình ảnh mà không làm mất thông tin quan trọng. Học bán giám sát ( Semi-supervised Learning ) 25 o_ Sử dụng các thuật toán kết hợp các yếu tố của hai kỹ thuật học có giám sát và không giám sát. Mô hình sử dụng tập dữ liệu huấn luyện mà có data gan nhãn va data không có gan nhãn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phân Tích Phản Hồi Bình Luận Sinh Viên Sử Dụng Học Sâu" cung cấp cái nhìn sâu sắc về cách sinh viên tương tác và phản hồi khi sử dụng các phương pháp học sâu trong giáo dục. Tài liệu này không chỉ phân tích các yếu tố ảnh hưởng đến sự tham gia của sinh viên mà còn chỉ ra những lợi ích mà phương pháp học sâu mang lại, như tăng cường khả năng tư duy phản biện và cải thiện kết quả học tập. Độc giả sẽ tìm thấy những thông tin hữu ích giúp họ hiểu rõ hơn về cách thức áp dụng học sâu trong giảng dạy và học tập.

Để mở rộng kiến thức của bạn về các phương pháp giảng dạy và học tập hiệu quả, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ lý thuyết và phương pháp giảng dạy tiếng anh efl students perceptions and practices of using hot potatoes in reading lessons at nguyen du high school, nơi khám phá cách sử dụng công cụ Hot Potatoes trong giảng dạy tiếng Anh. Bên cạnh đó, tài liệu Luận văn thạc sĩ an investigation into online learners motivation of basic english 1 at tienganh123 com sẽ giúp bạn hiểu rõ hơn về động lực học tập của sinh viên trong môi trường trực tuyến. Cuối cùng, tài liệu Luận văn thạc sĩ lý thuyết và phương pháp giảng dạy tiếng anh efl teachers perceptions and practices of internetassisted language teaching ialt at high school in quy nhon city cung cấp cái nhìn về cách giáo viên EFL áp dụng công nghệ trong giảng dạy. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các phương pháp giảng dạy hiện đại và cách chúng ảnh hưởng đến quá trình học tập của sinh viên.

#công nghệ giáo dục

#đánh giá sinh viên

#phân tích dữ liệu giáo dục

#phản hồi trong giáo dục

#phân tích phản hồi sinh viên

#bình luận học sâu

Chủ đề

công nghệ trong giảng dạy

Đánh giá hiệu quả học tập

phân tích phản hồi trong giáo dục

vai trò của học sâu