Luận Văn: Xây Dựng Mô Hình Hỏi Đáp Hỗ Trợ Sinh Viên Trường Đại Học Xây Dựng

Chuyên khảo kỹ thuật phân tích Luận văn xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường đại học xây dựng, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ kỹ thuật

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN HỎI ĐÁP TỰ ĐỘNG

1.1. Bài toán trả lời tự động cho sinh viên trường Đại học Xây dựng

1.2. Khái quát hệ thống hỏi đáp tự động

1.3. Truy xuất và tìm kiếm thông tin (IR)

1.4. Mô hình dựa trên lý thuyết tập hợp

1.5. Mô hình đại số

1.6. Mô hình xác suất

1.7. Mô hình ngôn ngữ

1.8. Kết luận chương

2. CHƯƠNG 2: PHƯƠNG PHÁP TRẢ LỜI TỰ ĐỘNG

2.1. Kiến trúc mô hình

2.2. Phân loại ý định

2.3. Luồng xử lý phương pháp xác định ý định của câu hỏi

2.4. Tiền xử lý dữ liệu

2.5. Trích xuất đặc trưng

2.6. Mô hình phân lớp

2.7. Tăng cường dữ liệu để huấn luyện mô hình phân lớp ý định

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

3.1. Các bước cài đặt

3.2. Dữ liệu huấn luyện

3.3. Cài đặt module truy xuất thông tin

3.4. Tiền xử lý văn bản

3.5. Đánh chỉ mục tài liệu

3.6. Xếp hạng văn bản

3.7. Kết quả thực nghiệm

3.8. Cài đặt mô hình phân lớp ý định

3.9. Xây dựng mô hình phân lớp ý định. Tăng cường dữ liệu cho bài toán phân lớp ý định

3.10. Kết quả huấn luyện sau khi tăng cường dữ liệu

3.11. Kết quả thực hiện sau khi kết hợp IR và phân lớp ý định

3.12. So sánh với các hệ thống hỏi đáp tương tự

KẾT LUẬN VÀ KIẾN NGHỊ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Mô hình hỏi đáp

Mô hình hỏi đáp là một hệ thống tự động nhằm giải quyết các câu hỏi của sinh viên một cách nhanh chóng và hiệu quả. Tại trường Đại học Xây dựng, việc xây dựng mô hình hỏi đáp giúp giảm tải công việc cho các phòng ban, đồng thời cung cấp thông tin kịp thời cho sinh viên. Hệ thống này dựa trên công nghệ hỗ trợ như truy xuất thông tin (IR) và xử lý ngôn ngữ tự nhiên (NLP) để hiểu và trả lời các câu hỏi.

1.1. Hỗ trợ sinh viên

Hỗ trợ sinh viên là mục tiêu chính của mô hình hỏi đáp. Hệ thống này giúp sinh viên tiếp cận thông tin về lịch học, quy định, và các vấn đề liên quan đến học tập một cách dễ dàng. Thay vì phải gửi email và chờ đợi phản hồi, sinh viên có thể nhận câu trả lời ngay lập tức thông qua hệ thống hỏi đáp.

1.2. Giải pháp hiệu quả

Giải pháp hiệu quả được đề xuất là sử dụng công nghệ hỗ trợ để xây dựng hệ thống hỏi đáp. Hệ thống này không chỉ giảm thiểu thời gian chờ đợi mà còn đảm bảo tính chính xác của thông tin. Phần mềm hỏi đáp được thiết kế để xử lý hàng trăm câu hỏi mỗi ngày, đặc biệt trong các giai đoạn cao điểm như đăng ký môn học hoặc thi cử.

II. Xây dựng mô hình

Xây dựng mô hình hỏi đáp đòi hỏi sự kết hợp giữa công nghệ hỗ trợ và giáo dục đại học. Hệ thống này được phát triển dựa trên dữ liệu thực tế từ trường Đại học Xây dựng, bao gồm các câu hỏi và câu trả lời thường gặp. Mô hình giáo dục này không chỉ hỗ trợ sinh viên mà còn giúp nhà trường quản lý thông tin một cách hiệu quả hơn.

2.1. Hệ thống hỏi đáp

Hệ thống hỏi đáp được thiết kế để tự động hóa quá trình trả lời câu hỏi. Hệ thống sử dụng truy xuất thông tin (IR) để tìm kiếm và trích xuất câu trả lời từ cơ sở dữ liệu. Công cụ hỗ trợ như phần mềm hỏi đáp giúp tối ưu hóa quá trình này, đảm bảo tính chính xác và nhanh chóng.

2.2. Tư vấn sinh viên

Tư vấn sinh viên là một phần quan trọng của hệ thống hỏi đáp. Hệ thống này không chỉ cung cấp thông tin mà còn hỗ trợ sinh viên trong việc đưa ra quyết định học tập. Hệ thống tư vấn được tích hợp với mô hình hỏi đáp để đảm bảo sinh viên nhận được sự hỗ trợ toàn diện.

III. Giải pháp công nghệ

Giải pháp công nghệ được áp dụng trong mô hình hỏi đáp bao gồm truy xuất thông tin (IR), xử lý ngôn ngữ tự nhiên (NLP), và học máy. Những công nghệ này giúp hệ thống hiểu và trả lời các câu hỏi một cách chính xác. Hỗ trợ học tập được nâng cao thông qua việc sử dụng công cụ hỗ trợ hiện đại.

3.1. Công nghệ hỗ trợ

Công nghệ hỗ trợ là nền tảng của mô hình hỏi đáp. Hệ thống sử dụng các thuật toán truy xuất thông tin (IR) để tìm kiếm và xếp hạng câu trả lời. Phần mềm hỏi đáp được tích hợp với công nghệ hỗ trợ để đảm bảo tính hiệu quả và chính xác.

3.2. Hỗ trợ học tập

Hỗ trợ học tập là mục tiêu chính của giải pháp công nghệ. Hệ thống này giúp sinh viên tiếp cận thông tin một cách nhanh chóng và dễ dàng. Công cụ hỗ trợ như phần mềm hỏi đáp đóng vai trò quan trọng trong việc nâng cao chất lượng giáo dục.

13/02/2025

Bạn đang xem trước tài liệu:

Luận văn xây dựng mô hình hỏi đáp hỗ trợ sinh viên trường đại học xây dựng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trường Đại học Xây dựng hiện có khoảng hàng nghìn sinh viên và học viên theo học, với nhu cầu tra cứu thông tin về chương trình đào tạo, lịch học, lịch thi và các quy định nhà trường rất lớn. Theo khảo sát, 45% sinh viên thường hỏi bạn bè trong trường, 15% tự tìm hiểu trên website chính thức, 10% hỏi trực tiếp tại phòng ban, và 30% còn lại gửi câu hỏi qua email. Vào các đợt cao điểm như đăng ký môn học hay thi hết học phần, số lượng email hỏi đáp có thể lên tới vài trăm câu mỗi ngày, gây quá tải cho bộ phận hỗ trợ sinh viên và làm chậm trễ phản hồi, ảnh hưởng đến quá trình học tập.

Mục tiêu nghiên cứu là xây dựng một mô hình hỏi đáp tự động hỗ trợ sinh viên trường Đại học Xây dựng, giúp cung cấp câu trả lời nhanh chóng, chính xác dựa trên tập dữ liệu câu hỏi – câu trả lời có sẵn khoảng 3.500 cặp, giảm tải công việc cho các phòng ban và nâng cao hiệu quả hỗ trợ. Nghiên cứu tập trung vào giai đoạn 2020-2021, tại trường Đại học Xây dựng, với ý nghĩa thiết thực trong việc ứng dụng công nghệ thông tin, đặc biệt là kỹ thuật truy xuất thông tin (Information Retrieval - IR) và học sâu (Deep Learning) để phát triển hệ thống hỏi đáp tự động.

Việc xây dựng mô hình không chỉ giúp sinh viên tiếp cận thông tin nhanh hơn mà còn góp phần nâng cao chất lượng dịch vụ đào tạo, giảm thiểu sai sót trong truyền đạt thông tin và tăng cường tương tác giữa sinh viên và nhà trường.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình chính sau:

Mô hình truy xuất thông tin (Information Retrieval - IR): Là kỹ thuật tìm kiếm và trích xuất các tài liệu liên quan đến truy vấn người dùng. Các mô hình IR được phân loại thành mô hình dựa trên lý thuyết tập hợp, mô hình đại số (vector space model), mô hình xác suất và mô hình ngôn ngữ. Trong đó, mô hình vector space và mô hình xác suất (như BM25) được sử dụng phổ biến để đánh giá mức độ liên quan giữa câu hỏi và tài liệu.
Mô hình phân loại ý định câu hỏi (Intent Classification): Sử dụng mạng nơ-ron học sâu LSTM (Long Short-Term Memory) để phân loại câu hỏi theo các nhóm ý định khác nhau như điểm số, học bổng, đăng ký môn học, học phí, lịch học, thủ tục hành chính, tốt nghiệp, chứng chỉ tiếng Anh TOEIC, và các câu hỏi khác. Việc xác định chính xác ý định giúp lọc dữ liệu và nâng cao hiệu quả truy xuất thông tin.
Kỹ thuật tăng cường dữ liệu (Data Augmentation): Áp dụng mô hình BERT (Bidirectional Encoder Representations from Transformers) và biến thể PhoBERT được huấn luyện trên dữ liệu tiếng Việt để tạo thêm dữ liệu huấn luyện, khắc phục tình trạng mất cân bằng dữ liệu giữa các lớp ý định, từ đó cải thiện độ chính xác của mô hình phân loại.
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Bao gồm các bước tiền xử lý như chuẩn hóa văn bản, tách từ tiếng Việt, loại bỏ từ dừng, trích xuất đặc trưng bằng mô hình Skip-gram để biểu diễn từ dưới dạng vector, giúp mô hình học sâu hiểu được ngữ cảnh và ý nghĩa của câu hỏi.

Phương pháp nghiên cứu

Nguồn dữ liệu: Tập dữ liệu gồm khoảng 3.500 cặp câu hỏi – câu trả lời thực tế thu thập từ các phòng ban hỗ trợ sinh viên tại trường Đại học Xây dựng.
Phương pháp chọn mẫu: Dữ liệu được thu thập toàn bộ các câu hỏi gửi qua email và các kênh hỗ trợ khác trong năm học 2020-2021, đảm bảo tính đại diện cho các nhóm ý định phổ biến.
Phương pháp phân tích:
- Tiền xử lý dữ liệu: Chuẩn hóa, tách từ, loại bỏ từ dừng.
- Trích xuất đặc trưng: Sử dụng mô hình Skip-gram để biểu diễn từ.
- Phân loại ý định: Huấn luyện mô hình LSTM với kiến trúc gồm 1 lớp LSTM 128 đơn vị, dropout 0.2, dense 64 và dense 10 lớp đầu ra tương ứng với 10 nhóm ý định.
- Tăng cường dữ liệu: Fine-tune mô hình PhoBERT trên tập dữ liệu tiếng Việt để sinh thêm câu hỏi mới cho các lớp ít dữ liệu.
- Truy xuất thông tin: Áp dụng thuật toán BM25 để xếp hạng các câu hỏi trong tập dữ liệu theo mức độ tương đồng với câu hỏi đầu vào, kết hợp với kết quả phân loại ý định để lọc dữ liệu con phù hợp.
Timeline nghiên cứu:
- Thu thập và tiền xử lý dữ liệu: 3 tháng
- Xây dựng và huấn luyện mô hình phân loại ý định: 4 tháng
- Tăng cường dữ liệu và fine-tune mô hình BERT: 2 tháng
- Cài đặt mô hình truy xuất thông tin và tích hợp hệ thống: 3 tháng
- Thử nghiệm và đánh giá thực nghiệm tại trường: 2 tháng

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân loại ý định câu hỏi:
Mô hình LSTM đạt độ chính xác trung bình khoảng 85% trên tập kiểm tra, tăng lên 90% sau khi áp dụng kỹ thuật tăng cường dữ liệu với PhoBERT. Các lớp ý định có số lượng câu hỏi ít như TOEIC được cải thiện đáng kể về độ chính xác (tăng từ 60% lên 82%).
Tăng cường dữ liệu giúp cân bằng tập huấn luyện:
Trước khi tăng cường, lớp ý định đăng ký môn học chiếm gần 14% tổng số câu hỏi, trong khi lớp TOEIC chỉ chiếm khoảng 1.5%. Sau khi bổ sung dữ liệu, tỷ lệ các lớp được cân bằng hơn, giúp mô hình tránh hiện tượng overfitting và cải thiện khả năng khái quát.
Kết hợp phân loại ý định và truy xuất thông tin nâng cao độ chính xác trả lời:
Khi chỉ sử dụng mô hình IR (BM25), độ chính xác trả lời đúng câu hỏi đạt khoảng 75%. Khi kết hợp với phân loại ý định để lọc dữ liệu con, độ chính xác tăng lên 88%, giảm thiểu trả lời sai do nhầm lẫn ý định.
Giảm tải công việc cho bộ phận hỗ trợ:
Hệ thống tự động có thể trả lời khoảng 70% các câu hỏi lặp lại mà không cần can thiệp thủ công, giúp giảm đáng kể số lượng email cần xử lý trực tiếp, đặc biệt trong các đợt cao điểm.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do việc xác định chính xác ý định câu hỏi giúp hệ thống truy xuất thông tin tập trung vào tập con dữ liệu phù hợp, tránh nhầm lẫn do các câu hỏi có từ khóa tương tự nhưng ý nghĩa khác nhau. Kết quả này phù hợp với các nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên và hệ thống hỏi đáp tự động, cho thấy sự cần thiết của việc kết hợp kỹ thuật phân loại ý định và truy xuất thông tin.

Việc áp dụng kỹ thuật tăng cường dữ liệu với mô hình BERT tiếng Việt (PhoBERT) đã giải quyết hiệu quả vấn đề mất cân bằng dữ liệu, một thách thức phổ biến trong các bài toán phân loại văn bản. Kết quả thực nghiệm tại trường Đại học Xây dựng cho thấy hệ thống có thể áp dụng thực tế, giúp sinh viên tiếp cận thông tin nhanh chóng, giảm thời gian chờ đợi và nâng cao trải nghiệm người dùng.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác phân loại ý định trước và sau tăng cường dữ liệu, biểu đồ tỷ lệ câu hỏi theo nhóm ý định, và bảng so sánh độ chính xác trả lời của hệ thống IR đơn thuần và hệ thống kết hợp phân loại ý định.

Đề xuất và khuyến nghị

Triển khai hệ thống hỏi đáp tự động trên nền tảng website và fanpage của trường:
- Mục tiêu: Giảm 50% số lượng email hỏi đáp trực tiếp trong 6 tháng đầu triển khai.
- Chủ thể thực hiện: Phòng Công nghệ Thông tin phối hợp Phòng Hỗ trợ sinh viên.
Cập nhật và mở rộng bộ dữ liệu câu hỏi – câu trả lời định kỳ:
- Mục tiêu: Bổ sung ít nhất 1.000 câu hỏi mới mỗi năm để nâng cao độ phủ của hệ thống.
- Chủ thể thực hiện: Bộ phận hỗ trợ sinh viên và nhóm phát triển hệ thống.
Đào tạo nhân viên và sinh viên sử dụng hệ thống hiệu quả:
- Mục tiêu: Tổ chức ít nhất 2 buổi tập huấn mỗi năm, nâng cao tỷ lệ sử dụng hệ thống lên 80% sinh viên.
- Chủ thể thực hiện: Phòng Đào tạo và Phòng Công nghệ Thông tin.
Nâng cấp mô hình phân loại ý định và truy xuất thông tin:
- Mục tiêu: Áp dụng các mô hình học sâu mới, cải thiện độ chính xác trả lời lên trên 92% trong vòng 12 tháng.
- Chủ thể thực hiện: Nhóm nghiên cứu và phát triển công nghệ của trường.
Phát triển giao diện tương tác thân thiện, hỗ trợ đa nền tảng:
- Mục tiêu: Phát triển ứng dụng di động và chatbot trên các nền tảng mạng xã hội trong 1 năm tới.
- Chủ thể thực hiện: Phòng Công nghệ Thông tin và đối tác công nghệ.

Đối tượng nên tham khảo luận văn

Nhà quản lý giáo dục và cán bộ hỗ trợ sinh viên:
- Lợi ích: Hiểu rõ về giải pháp công nghệ hỗ trợ sinh viên, từ đó áp dụng để nâng cao hiệu quả công tác tư vấn và hỗ trợ.
Nhà nghiên cứu và phát triển công nghệ thông tin trong giáo dục:
- Lợi ích: Tham khảo mô hình kết hợp kỹ thuật truy xuất thông tin và học sâu trong xây dựng hệ thống hỏi đáp tự động, áp dụng cho các trường đại học khác.
Sinh viên và giảng viên ngành Khoa học Máy tính, Công nghệ Thông tin:
- Lợi ích: Nắm bắt quy trình xây dựng mô hình học máy, xử lý ngôn ngữ tự nhiên và ứng dụng thực tế trong môi trường giáo dục.
Các tổ chức phát triển phần mềm giáo dục và chatbot:
- Lợi ích: Tham khảo kiến trúc hệ thống, phương pháp tăng cường dữ liệu và kỹ thuật phân loại ý định để phát triển sản phẩm phù hợp với thị trường giáo dục Việt Nam.

Câu hỏi thường gặp

Hệ thống hỏi đáp tự động có thể trả lời chính xác bao nhiêu phần trăm câu hỏi?
Hệ thống đạt độ chính xác khoảng 88% khi kết hợp phân loại ý định và truy xuất thông tin, cao hơn so với 75% khi chỉ dùng truy xuất thông tin. Ví dụ, các câu hỏi về điều kiện tốt nghiệp được trả lời chính xác nhờ phân loại ý định.
Phương pháp tăng cường dữ liệu được áp dụng như thế nào?
Sử dụng mô hình PhoBERT fine-tune trên dữ liệu tiếng Việt để sinh thêm câu hỏi mới cho các nhóm ý định ít dữ liệu, giúp cân bằng tập huấn luyện và cải thiện độ chính xác mô hình phân loại.
Làm thế nào để hệ thống xử lý các câu hỏi có ý định tương tự nhưng từ ngữ khác nhau?
Mô hình phân loại ý định dựa trên mạng LSTM và biểu diễn từ bằng Skip-gram giúp nhận diện ngữ cảnh và ý nghĩa câu hỏi, từ đó phân loại chính xác dù câu hỏi có cách diễn đạt khác nhau.
Hệ thống có thể áp dụng cho các trường đại học khác không?
Có thể, với điều kiện có bộ dữ liệu câu hỏi – câu trả lời phù hợp và điều chỉnh mô hình theo đặc thù từng trường, hệ thống có thể mở rộng ứng dụng.
Sinh viên có thể truy cập hệ thống hỏi đáp tự động qua những kênh nào?
Hệ thống được đề xuất triển khai trên website chính thức, trang quản lý đào tạo và các kênh mạng xã hội như fanpage Facebook, giúp sinh viên dễ dàng tiếp cận và sử dụng.

Kết luận

Luận văn đã xây dựng thành công mô hình hỏi đáp tự động hỗ trợ sinh viên trường Đại học Xây dựng dựa trên kỹ thuật truy xuất thông tin và phân loại ý định câu hỏi bằng mạng LSTM.
Áp dụng kỹ thuật tăng cường dữ liệu với mô hình PhoBERT giúp cải thiện đáng kể độ chính xác phân loại và cân bằng dữ liệu.
Hệ thống giảm tải công việc cho bộ phận hỗ trợ sinh viên, đặc biệt trong các đợt cao điểm, đồng thời nâng cao trải nghiệm người dùng.
Kết quả thực nghiệm tại trường cho thấy tính khả thi và hiệu quả ứng dụng trong môi trường giáo dục đại học.
Đề xuất triển khai hệ thống trên đa nền tảng, cập nhật dữ liệu thường xuyên và nâng cấp mô hình để đáp ứng nhu cầu ngày càng cao.

Next steps: Triển khai thử nghiệm hệ thống trên quy mô rộng, thu thập phản hồi người dùng để hoàn thiện, đồng thời nghiên cứu mở rộng ứng dụng cho các trường đại học khác.

Các đơn vị quản lý giáo dục và phát triển công nghệ thông tin trong lĩnh vực giáo dục nên cân nhắc áp dụng mô hình này để nâng cao hiệu quả hỗ trợ sinh viên và tối ưu hóa quy trình quản lý thông tin.

Trích đoạn nội dung tài liệu

MỞ ĐẦU Hiện nay trường đại học Xây dựng có khoảng 15.000 sinh viên và học viên đang theo học. Hàng ngày các phòng ban của trường nhận được rất nhiều các vấn đề thắc mắc của sinh viên và học viên về chương trình đào tạo, các thông tin về lịch học, lịch thi hay các quy định của nhà trường. Kênh thông tin chủ yếu của nhà trường là thông qua website chính thức hoặc trang quan ly đảo tạo của sinh viên. Các quy định hay các thông báo tới sinh viên chủ yếu đưới dạng các văn bản nên gây khó khăn cho sinh viên trong việc tiếp cận và tra cứu thông tin.

Chính vì thế khi có thắc mắc, sinh viên thường bỏ qua không đọc các văn bản hay thông báo mà sử dụng kênh hỗ trợ trực tiếp từ nhà trường, hiện tại là thông qua kênh email. Theo khảo sát của trường Đại học Xây dựng, khi một sinh viên cần hỏi vấn đề liên quan đến học tập và quy định tại trường: © 45% số sinh viên khi cần thông tin sẽ được đáp ứng thông qua việc hỏi bạn bè trong lớp và trong trường. Trong số đó 65% hỏi trực tiếp bạn bè, 35% còn lại sẽ hỏi thông qua trang fanpage, hội nhóm trên mạng xã hội facebook. e 15% sé sinh vién sé tu tìm hiểu các thông báo và quy định được đăng tải trên website chính thức, website đào tạo và các kênh truyền thông của Nhà trường.

e 10% sé sinh viên sẽ hỏi trực tiếp tại các phòng ban bằng cách lên trực tiếp nơi làm việc. e 30% số sinh viên còn lại sẽ hỏi các phòng ban bằng hình thức email. Một vẫn đề đặt ra là số lượng email các câu hỏi của sinh viên gửi tới các phòng ban rất nhiều, một ngảy có thể lên tới vài chục đến vài trăm câu hỏi. Vì vậy việc hỗ trợ sinh viên mà đặc biệt vào những dịp cao điểm như đăng ký môn học, thi hết học phần thường bị quá tải ở các phòng ban.

Đồng thời sinh viên phải chờ đợi việc xử lý các câu hỏi và câu trả lời nên nhiều khi thông tin phản hồi không được kịp thời, gây ảnh hưởng đến quá trình học tập của sinh viên. Trong quá trình học tập của sinh viên, các nội dung liên quan đến quy định sẽ được thông báo dưới dạng văn bản hoặc tài liệu được đăng tải trên website đảo tạo của nhà trường. Sinh viên quan tâm đến thông báo thường dựa trên tiêu đề thông báo, rồi sau đó mới đến nội dung thông báo, vì vậy nhiều thông báo bị sinh viên bỏ sót. Ngoài ra một số tài liệu quy định có nội dung đài nên sinh viên thường bỏ qua không đọc.

Vì vậy nếu chỉ xây dựng hệ thống dé quản lý văn bản, tài liệu dé sinh viên tra cứu cũng không thật sự hữu ích với sinh viên. Cần phải xây dựng công cụ để tương tác với sinh viên đưới dạng đặt câu hỏi — trả lời mới giải quyết được vấn đề này. Chính vì vậy, việc đưa ra một hệ thống trả lời câu hỏi tự động nhằm cung cấp cho sinh viên kênh hỗ trợ nhanh chóng, đồng thời làm giảm khối lượng công việc cho các phòng ban là vô cùng cần thiết. Một trong những kỹ thuật được sử dụng phổ biến hiện nay và mang lại hiệu quả cao là kỹ thuật truy xuất thông tin.

Đề tài luận văn của tôi sẽ tập trung vào tìm hiểu các kỹ thuật này, dựa trên dữ liệu được cung cấp từ nhà trường để xây dựng hệ thống trả lời tự động có kết quả trả lời tốt nhât. Nội dung của luận văn được bố cục thành 3 chương như sau: © Chương Ï tập trung vào giới thiệu về bài toán, đữ liệu đã có và kết quả đự kiến của đề tài. Trình bày khái về hệ thống hỏi đáp tự động, các loại hệ thống hỏi đáp, lịch sử phát triển, đưa ra kiến trúc chung của hệ thống hỏi đáp đồng thời là các vấn đề cần quan tâm khi thiết kế. ¢ Chương 2 tập trung vào lựa chọn mô hình và thuật toán để xây dựng mô hình hệ thống hỏi đáp.

Trình bày về việc tìm hiểu các phương pháp tiền xử lý dữ liệu bao gồm: tách từ tiếng Việt, các hướng tiếp cận dựa trên từ và dựa trên ký tự; biểu diễn văn bản; rút trích đặc trưng văn bản như loại bỏ các stop word, trích chọn đặc trưng văn bản thành các biểu diễn của các vector; tiép theo là đưa ra mô hình kiến trúc của hệ thống và kỹ thuật được sử dụng trong luận văn; e_ Chương 3 tập trung vào cải đặt, xây dựng bộ dữ liệu huấn luyện cho mô hình hỏi đáp từ dữ liệu thực tế hiện có của trường Đại học Xây dựng, sử dụng các kỹ thuật đánh giá mô hình hỏi đáp dé đánh giá hệ thống, tiếp theo là tiến hành thử nghiệm tại trường đề tiếp nhận những đánh giá từ người dùng cuối. TONG QUAN VE BAITOAN HOI DAP TU DONG 1. Bài toán trả lời tự động cho sinh viên trường Đại học Xây dựng Với thực trạng tại trường Đại học Xây dựng, hàng ngày sinh viên hỏi và thắc mắc rất nhiều van dé liên quan đến các chính sách, quy định và quy chế. Nhà trường phải bố trí bộ phận hỗ trợ sinh viên để giải đáp các thắc mắc và giúp đỡ sinh viên khi cần thiết, hiện tại bộ phận này sẽ tiếp nhận các câu hỏi của sinh viên qua kênh email sau đó trả lời các email đó.

Tuy nhiên vấn đề vào các đợt cao điểm như đăng ký môn học hay thi kết thúc học phần thì số lượng các câu hỏi tăng đột biến làm quá tải cho bộ phận hỗ trợ. Hơn nữa rất nhiều các câu hỏi thường lặp lại và được trả lời giống nhau, bộ phận hỗ trợ thường dựa vào các câu trả lời trước đó đã phản hồi để trả lời các câu hỏi tương tự. Giả sử như nếu sinh viên hỏi một trong các câu hỏi sau đây: 1. E thưa cô, chả hạn e trả hết môn mà tích luy chưa đủ 2.0 thì e có dc nhận dé làm đồ án tốt nghiệp không ạ 2.

Điều kiện để nhận ĐATN là gì a? 3. Em đã hoàn thiện hết các môn nhưng chưa đủ tiêu chuẩn ngoại ngữ thì có được nhận ĐATN không ạ? 4. Điểm trung bình tích lũy bao nhiêu thì được nhận đồ án tốt nghiệp ạ Thì đều được trả lời là: “Ezm tra ng xong tat cả các mon va dat CDR ngoại ngữ là đủ điều kiện nhận ĐATN. Điểm TBC tích lũy từ 2.0 trở lên là điều kiện xét TN, không áp dụng khi xét giao ĐATN”.

Như vậy là khi sinh viên hỏi một câu hỏi nào đó mà tương tự với các câu hỏi đã có thì có thê trả lời bằng câu trả lời có sẵn. Sau một thời gian trả lời qua email, bộ phận công tác sinh viên đã thu thập được một bộ các câu hỏi của sinh viên và câu trả lời do cơ quan chức năng của trường gửi lại gồm khoảng 3.500 câu hỏi, câu trả lời. Dựa trên tập câu hỏi, câu trả lời này, bài toán mà luận văn hướng tới giải quyết là xây dựng hệ thống cho phép tự động trả lời câu hỏi của sinh viên trong tương lai. Kết quả dự kiến của luận văn: Luận văn này sẽ dựa vào một tập dữ liệu có sẵn gồm các câu hỏi và câu trả lời để xây dựng công cụ trả lời tự động các câu hỏi giống với các câu hỏi đã có trong tập dữ liệu.

Khái quát hệ thống hỏi đáp tự động Nếu như trong hệ thống trích chọn thông tin khi người dùng muốn tìm kiếm thông tin họ cần, hệ thống trích chọn thông tin sẽ nhận truy vẫn đầu vào của người dùng dưới dạng các từ khóa và trả về các tài liệu liên quan có chứa từ khóa thì hệ thống hỏi đáp sẽ nhận đầu vào dưới dạng ngôn ngữ tự nhiên (thường là các câu hỏi), sau đó trả lại câu trả lời tương ứng với câu hỏi đưa vào. Có nhiều cách dé phân loại một hệ thống hỏi đáp, dựa vào mô hình của hệ hỏi đáp có thê phân loại thành các loại như sau [2]: e Hệ hỏi đáp truy xuất thông tin (IR) sử dung máy tìm kiếm để tìm ra các câu trả lời, áp dụng các bộ lọc và xếp hạng đề tìm ra trả lời gần nhất. e Hệ hỏi đáp dựa trên xử lý ngôn ngữ tự nhiên (NLP ÓA) áp dụng kỹ thuật để hiểu ngôn ngữ tự nhiên và các phương pháp tiếp cận máy học dé trích rút câu trả lời. e Hé hoi dap dwa trén co sé tri thitc (Knowledge Base QA) tim kiếm câu trả lời từ các nguồn dữ liệu có cấu trúc (hay tri thức) thay vì văn bản phi cấu trúc.

se Hệ hỏi đáp lai là hệ hỏi đáp cho kết quả tốt bằng cách sử dụng nhiều loại nguồn đữ liệu nhất có thể, đây là sự kết hợp giữa IR, QA, NLP QA, Knowledge Base QA. Ví dụ điển hình cho loại này là hệ hỏi đáp IBM Watson [3]. Vào những năm 1960 đã ra đời các hệ hỏi đáp sớm nhất, phải kể đến là BASEBALL [4] va LUNAR [5]. Cac hé hoi dap nay bị giới hạn trong một lĩnh vực cụ thể nhưng nó cho chúng ta thấy tinh khả thi để đưa tạo ra các tác tử tự động có khả năng hiểu và giao tiếp bằng ngôn ngữ tự nhiên để trả lời các câu hỏi.

Từ bước ngoặt năm 1999 với sự đánh dấu của việc giới thiệu về QA tại hội nghị Text REtrieval Conference (TREC), các nghiên cứu về hệ hỏi đáp bắt đầu nở rộ về số lượng và ngày càng có nhiều hơn các công bố khoa học liên quan. Trong các giai đoạn tiếp theo, xu hướng phát triển và thống kê liên quan đến hệ thống hỏi đáp được tông hợp thông qua một cuộc khảo sát [ 1]. Từ 130 nghiên cứu phổ biến lấy từ tất cả 1842 nghiên cứu. 34,59% số các bài báo thực hiện hệ hỏi đáp dựa trên tri thức, 33,08% dựa trên NLP và số lượng 2 loại này cao hơn so với hệ hỏi đáp dựa trên IR, cuối cùng là chỉ có 3,76% xây dựng hệ hỏi đáp dựa trên hệ lai.

„ , NF vaso Hình 1.1: Số lượng các công bố về hệ hỏi đáp (OA) tính từ năm 2000 Reetriet-Domain Business Intelligence Open-Domain AQUAINT Open-Domain Wikipedia Restrict-Domain Religion Restrict-Domain Multiple Restrict-Domain E-Learning Open-Domain WWW Restrict -Domain Education Restrict -Domain B2C eCommerce Restrict-Domain Tourism (Movies/Cinema) Restrict -Domain Medicine Open-Domain Semantic Web(WikiPedia/DBPedial Hình 1.2: Cách tiếp cận hệ hỏi đáp Trong hình 5, cách tiếp cận hệ hỏi đáp trong miền mở dựa trên World Wide Web chiếm tỉ lệ cao nhất trong số các nghiên cứu, theo sau đó là các lĩnh vực y tế.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Xây dựng mô hình hỏi đáp hỗ trợ sinh viên đại học xây dựng | Giải pháp hiệu quả" trình bày một phương pháp hiệu quả nhằm hỗ trợ sinh viên trong quá trình học tập thông qua việc xây dựng một mô hình hỏi đáp. Mô hình này không chỉ giúp sinh viên giải quyết các thắc mắc trong học tập mà còn khuyến khích sự tương tác và trao đổi kiến thức giữa các sinh viên. Những lợi ích mà tài liệu mang lại bao gồm việc nâng cao khả năng tự học, phát triển kỹ năng giao tiếp và tạo ra một môi trường học tập tích cực.

Để mở rộng thêm kiến thức về các phương pháp giảng dạy và học tập hiệu quả, bạn có thể tham khảo tài liệu Luận văn thạc sĩ giáo dục học bồi dưỡng năng lực tự học cho học sinh trong dạy học chương động lực học chất điểm vật lí 10 giáo dục thường xuyên với sự hỗ trợ của công nghệ thông tin, nơi cung cấp những chiến lược tự học hữu ích. Ngoài ra, tài liệu Luận văn thạc sĩ hệ thống thông tin quản lý tìm hiểu và xây dựng website học tập trực tuyến elearning trung tâm giáo dục thường xuyên tân bình dựa trên hệ thống moodle sẽ giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ trong giáo dục. Cuối cùng, tài liệu Xây dựng và phát triển ứng dụng học và kiểm tra tiếng anh thông minh trên nền tảng dịch vụ điện toán đám mây google luận văn thạc sĩ cũng là một nguồn tài liệu quý giá cho những ai quan tâm đến việc ứng dụng công nghệ trong việc học ngoại ngữ. Những tài liệu này sẽ giúp bạn có cái nhìn sâu sắc hơn về các phương pháp và công cụ hỗ trợ học tập hiện đại.

#công nghệ giáo dục

#phát triển kỹ năng

#hệ thống thông tin

#hỗ trợ sinh viên

#trợ lý ảo

#mô hình hỏi đáp

Chủ đề

Công nghệ trong giáo dục

Phát triển mô hình học tập

Hỗ trợ sinh viên đại học

Giải pháp cải thiện trải nghiệm học tập