I. Giới Thiệu Ứng Dụng Machine Learning cho Luận Văn UIT
Trong bối cảnh đại dịch Covid-19, việc học tập và nghiên cứu trực tuyến trở nên thiết yếu. Khó khăn trong việc tiếp cận tài liệu tham khảo, đặc biệt là luận văn tốt nghiệp, đã thúc đẩy việc xây dựng một hệ thống lưu trữ và chia sẻ luận văn trực tuyến. Ứng dụng Theses Share ra đời nhằm giải quyết vấn đề này, cho phép sinh viên UIT chia sẻ và tiếp cận luận văn một cách dễ dàng. Hệ thống này không chỉ là nơi lưu trữ mà còn ứng dụng Machine Learning cho hệ thống lưu trữ luận văn để gán nhãn và phân loại, giúp sinh viên tìm kiếm thông tin hiệu quả hơn. Mục tiêu là tạo ra một nền tảng hữu ích, hỗ trợ sinh viên UIT trong quá trình nghiên cứu và hoàn thành khóa luận tốt nghiệp. Theo trích dẫn từ tài liệu gốc, ứng dụng "Theses Share ra đời đê sinh viên UIT có thé chia sẻ khóa luận của mình cho mọi sinh viên tham khảo. Việc có nhiều nguồn tài liệu đê tham khảo sẽ giúp những đề tài của các khóa sau ngày càng đa dang hơn và chin chu hơn".
1.1. Tổng Quan Về Hệ Thống Lưu Trữ và Chia Sẻ Luận Văn UIT
Hệ thống lưu trữ và chia sẻ luận văn UIT là một nền tảng trực tuyến cho phép sinh viên chia sẻ, tìm kiếm và đọc luận văn của nhau. Nó cung cấp một giao diện thân thiện và dễ sử dụng, cho phép người dùng dễ dàng tìm kiếm thông tin theo chủ đề, khoa, năm bảo vệ, từ khóa, tác giả. Hệ thống còn tích hợp chức năng đánh dấu (bookmark) để người dùng lưu lại các luận văn quan trọng, cũng như chỉnh sửa và xóa luận văn đã đăng tải. Ngoài ra, hệ thống phân quyền người dùng để bảo vệ và quản lý truy cập, người dùng sẽ có những quyền hạn khác nhau tùy theo vai trò.
1.2. Mục Tiêu và Phạm Vi Nghiên Cứu của Dự Án
Mục tiêu chính của dự án là xây dựng một ứng dụng web hoàn chỉnh, giúp sinh viên đóng góp luận văn cho những thế hệ sinh viên trẻ. Ứng dụng cũng tích hợp hệ thống tự động gán nhãn dựa trên tiêu đề và nội dung, giúp sinh viên dễ dàng tìm kiếm các đề tài liên quan. Phạm vi nghiên cứu bao gồm xây dựng nền tảng lưu trữ, chia sẻ luận văn và tích hợp hệ thống tự động gán nhãn dựa theo tiêu đề và nội dung văn bản, người dùng có thể tìm kiếm, lọc, đọc luận văn. Người dùng đã đăng ký có thể đánh dấu, xóa, sửa luận văn đã đăng tải.
II. Thách Thức Quản Lý và Tìm Kiếm Luận Văn Hiệu Quả Tại UIT
Việc quản lý và tìm kiếm luận văn hiệu quả là một thách thức lớn đối với hệ thống thư viện truyền thống. Khối lượng lớn luận văn, sự phức tạp trong việc phân loại và gắn nhãn, cùng với hạn chế về khả năng tìm kiếm thông minh, gây khó khăn cho sinh viên trong việc tiếp cận nguồn tài liệu cần thiết. Trang web thư viện hiện tại còn nhiều hạn chế về giao diện, khả năng tìm kiếm và cập nhật thông tin, khó thao tác. Việc số hóa luận văn và áp dụng các công nghệ Machine Learning cho hệ thống lưu trữ luận văn là giải pháp tiềm năng. Từ tài liệu gốc nêu rõ: “Trang web thư viện của trường cũng có đăng tải khóa luận nhưng đa số khóa luận đều khá cũ, trang web khó thao tác và khả năng tìm kiếm cũng còn hạn chế”.
2.1. Vấn Đề Phân Loại và Gán Nhãn Luận Văn Thủ Công
Phân loại và gán nhãn luận văn thủ công là một quy trình tốn thời gian và công sức. Việc này đòi hỏi người thực hiện phải có kiến thức chuyên môn sâu rộng về nhiều lĩnh vực khác nhau, đồng thời đảm bảo tính nhất quán và chính xác. Quá trình này còn dễ bị ảnh hưởng bởi yếu tố chủ quan, dẫn đến sự sai lệch trong phân loại và gắn nhãn. Từ đó gây khó khăn cho sinh viên trong việc tìm kiếm luận văn theo chủ đề quan tâm.
2.2. Hạn Chế Trong Khả Năng Tìm Kiếm Luận Văn Hiện Tại
Hệ thống tìm kiếm luận văn hiện tại thường dựa trên các từ khóa đơn giản, gây khó khăn trong việc tìm kiếm thông tin chính xác và phù hợp. Sinh viên có thể phải duyệt qua rất nhiều kết quả không liên quan để tìm được tài liệu mình cần. Hệ thống cũng thiếu khả năng hiểu ngữ nghĩa và ngữ cảnh của từ khóa, dẫn đến việc bỏ sót các luận văn có liên quan.
2.3. Khó Khăn Trong Tiếp Cận Luận Văn Mới và Xu Hướng Nghiên Cứu
Sinh viên gặp khó khăn trong việc tiếp cận luận văn mới nhất và nắm bắt các xu hướng nghiên cứu hiện tại do thông tin chưa được cập nhật thường xuyên. Trang web thường chưa cập nhật các luận văn mới, và các chủ đề cũng không còn mới nữa. Điều này ảnh hưởng đến quá trình tìm kiếm ý tưởng và định hướng nghiên cứu của sinh viên.
III. Giải Pháp Xây Dựng Hệ Thống Gợi Ý Luận Văn Bằng Machine Learning
Để giải quyết những thách thức trên, giải pháp là xây dựng một hệ thống gợi ý luận văn thông minh dựa trên Machine Learning cho hệ thống lưu trữ luận văn. Hệ thống này sử dụng các thuật toán NLP (xử lý ngôn ngữ tự nhiên) để phân tích nội dung luận văn, tự động gán nhãn và phân loại theo chủ đề. Từ đó, hệ thống có thể đưa ra các gợi ý luận văn phù hợp với sở thích và nhu cầu của từng sinh viên. Theo tài liệu, ứng dụng "còn chú trọng vào việc sử dụng máy học đê gán nhãn các đề tài, giúp sinh viên tìm kiếm khóa luận theo những chủ đề mình mong muốn một cách dễ dàng hơn".
3.1. Ứng Dụng NLP Để Phân Tích Nội Dung và Gán Nhãn Tự Động
NLP (Natural Language Processing) được ứng dụng để phân tích nội dung luận văn, trích xuất các từ khóa quan trọng và xác định chủ đề chính. Dựa trên kết quả phân tích, hệ thống có thể tự động gán nhãn cho luận văn, giúp người dùng dễ dàng tìm kiếm và lọc theo chủ đề mong muốn. Các kỹ thuật NLP như tokenization, stemming, và word embedding có thể được sử dụng để tăng cường hiệu quả của quá trình phân tích.
3.2. Sử Dụng Mô Hình BERT để Hiểu Ngữ Cảnh và Tìm Kiếm Thông Minh
Mô hình BERT (Bidirectional Encoder Representations from Transformers) được sử dụng để hiểu ngữ cảnh và ngữ nghĩa của các từ trong luận văn. BERT là một mô hình ngôn ngữ mạnh mẽ, có khả năng học được các mối quan hệ phức tạp giữa các từ và cụm từ. BERT sẽ cải thiện đáng kể khả năng tìm kiếm thông minh của hệ thống, cho phép người dùng tìm kiếm luận văn bằng các truy vấn tự nhiên và phức tạp.
3.3. Phát Triển Hệ Thống Khuyến Nghị Luận Văn Dựa Trên Lịch Sử Tìm Kiếm
Hệ thống khuyến nghị luận văn dựa trên lịch sử tìm kiếm và sở thích của người dùng. Hệ thống sẽ theo dõi các luận văn mà người dùng đã xem, tìm kiếm hoặc đánh dấu, từ đó xây dựng một hồ sơ về sở thích của từng người dùng. Dựa trên hồ sơ này, hệ thống có thể đưa ra các gợi ý luận văn phù hợp, giúp người dùng khám phá các tài liệu mới và hữu ích.
IV. Ứng Dụng Thực Tế Cải Thiện Tìm Kiếm Luận Văn Thông Minh Tại UIT
Việc triển khai hệ thống gợi ý luận văn thông minh mang lại nhiều lợi ích thiết thực cho sinh viên UIT. Khả năng tìm kiếm luận văn thông minh UIT được cải thiện đáng kể, giúp sinh viên dễ dàng tiếp cận nguồn tài liệu cần thiết. Theo tài liệu, hệ thống "sẽ giúp sinh viên có thé dễ dàng tìm kiếm những chủ đề mà mình quan tâm". Hệ thống cũng giúp sinh viên khám phá các lĩnh vực nghiên cứu mới và nắm bắt xu hướng hiện tại. Ngoài ra, hệ thống còn tạo ra một cộng đồng chia sẻ tri thức, khuyến khích sinh viên đóng góp và học hỏi lẫn nhau.
4.1. Giao Diện Tìm Kiếm Thân Thiện và Dễ Sử Dụng với Người Dùng
Hệ thống cung cấp một giao diện tìm kiếm thân thiện và dễ sử dụng, cho phép người dùng dễ dàng tìm kiếm luận văn theo nhiều tiêu chí khác nhau. Người dùng có thể tìm kiếm theo từ khóa, chủ đề, tác giả, khoa, năm bảo vệ hoặc kết hợp các tiêu chí này để thu hẹp phạm vi tìm kiếm. Giao diện cũng cung cấp các bộ lọc và sắp xếp kết quả để người dùng dễ dàng tìm được tài liệu phù hợp.
4.2. Khả Năng Đề Xuất Luận Văn Liên Quan Dựa Trên Chủ Đề Nghiên Cứu
Hệ thống có khả năng đề xuất các luận văn liên quan dựa trên chủ đề nghiên cứu mà người dùng quan tâm. Khi người dùng xem một luận văn cụ thể, hệ thống sẽ hiển thị các luận văn khác có cùng chủ đề hoặc có nội dung liên quan. Chức năng này giúp người dùng khám phá các tài liệu mới và mở rộng kiến thức về lĩnh vực mình quan tâm.
4.3. Tiết Kiệm Thời Gian và Nâng Cao Hiệu Quả Nghiên Cứu cho Sinh Viên
Hệ thống giúp sinh viên tiết kiệm thời gian và nâng cao hiệu quả nghiên cứu bằng cách cung cấp một công cụ tìm kiếm mạnh mẽ và thông minh. Nhờ hệ thống này, sinh viên không cần phải mất nhiều thời gian duyệt qua các tài liệu không liên quan, mà có thể nhanh chóng tìm được các luận văn phù hợp với nhu cầu của mình.
V. Kết Quả Nghiên Cứu Đánh Giá và So Sánh Mô Hình Machine Learning
Quá trình nghiên cứu đã thực hiện đánh giá và so sánh các mô hình Machine Learning cho hệ thống lưu trữ luận văn khác nhau để tìm ra mô hình phù hợp nhất cho bài toán phân loại luận văn. Kết quả cho thấy mô hình PhoBERT, một biến thể tiếng Việt của BERT, đạt hiệu quả tốt nhất trong việc phân loại luận văn theo nhiều nhãn. Việc lựa chọn PhoBERT cho thấy sự phù hợp và hiệu quả của nó trong việc xử lý ngôn ngữ tiếng Việt, đặc biệt là trong bối cảnh học thuật. Nhóm nghiên cứu hy vọng những kết quả này đóng góp vào việc xây dựng hệ thống khuyến nghị luận văn hiệu quả hơn.
5.1. So Sánh Hiệu Suất Giữa Mô Hình PhoBERT và LSTM
Hiệu suất của mô hình PhoBERT và LSTM (Long Short-Term Memory) được so sánh dựa trên các chỉ số như độ chính xác (accuracy), độ thu hồi (recall), và điểm F1 (F1-score). PhoBERT vượt trội hơn LSTM trong việc phân loại luận văn theo nhiều nhãn, do khả năng hiểu ngữ cảnh và ngữ nghĩa tốt hơn. LSTM có thể được sử dụng để xử lý dữ liệu chuỗi, nhưng không hiệu quả bằng PhoBERT trong việc hiểu mối quan hệ giữa các từ và cụm từ.
5.2. Ưu Điểm và Hạn Chế của Từng Mô Hình Trong Ứng Dụng Thực Tế
PhoBERT có ưu điểm là khả năng hiểu ngữ cảnh và ngữ nghĩa tốt, nhưng đòi hỏi tài nguyên tính toán lớn. LSTM có ưu điểm là dễ triển khai và yêu cầu tài nguyên tính toán ít hơn, nhưng hiệu suất thấp hơn PhoBERT. Việc lựa chọn mô hình phù hợp phụ thuộc vào yêu cầu cụ thể của ứng dụng, bao gồm độ chính xác, thời gian đáp ứng và tài nguyên tính toán.
5.3. Đề Xuất Cải Tiến Mô Hình và Hướng Nghiên Cứu Trong Tương Lai
Trong tương lai, có thể cải tiến mô hình PhoBERT bằng cách sử dụng các kỹ thuật fine-tuning và transfer learning. Cần phải thử nghiệm với các kiến trúc mô hình khác và các bộ dữ liệu lớn hơn để cải thiện hiệu suất và khả năng khái quát hóa của mô hình. Ngoài ra, có thể nghiên cứu các phương pháp kết hợp nhiều mô hình khác nhau để tận dụng ưu điểm của từng mô hình.
VI. Tương Lai Phát Triển Hệ Thống Lưu Trữ và Chia Sẻ Luận Văn UIT
Hệ thống lưu trữ và chia sẻ luận văn UIT có tiềm năng phát triển lớn trong tương lai. Việc tiếp tục cải thiện hệ thống tìm kiếm luận văn thông minh UIT và tích hợp các công nghệ mới sẽ mang lại nhiều lợi ích cho sinh viên và giảng viên. Hệ thống có thể trở thành một trung tâm tri thức quan trọng của trường, hỗ trợ đắc lực cho công tác nghiên cứu và đào tạo. Từ tài liệu gốc, việc tích hợp máy học “giúp sinh viên có thé dễ dàng tìm kiếm những chủ đề mà mình quan tâm” là một trong các hướng phát triển hệ thống.
6.1. Mở Rộng Chức Năng và Tích Hợp Thêm Các Công Nghệ Mới
Trong tương lai, hệ thống có thể được mở rộng chức năng để hỗ trợ các hoạt động khác như đăng ký đề tài, quản lý tiến độ, và phản biện luận văn. Cũng có thể tích hợp thêm các công nghệ mới như chatbot, thực tế ảo (VR), và trí tuệ nhân tạo (AI) để cung cấp trải nghiệm tốt hơn cho người dùng.
6.2. Xây Dựng Cộng Đồng Chia Sẻ Tri Thức và Hợp Tác Nghiên Cứu
Hệ thống nên khuyến khích người dùng đóng góp và chia sẻ kiến thức bằng cách tạo ra một cộng đồng trực tuyến. Trong cộng đồng này, sinh viên và giảng viên có thể thảo luận về các chủ đề nghiên cứu, chia sẻ kinh nghiệm, và hợp tác trong các dự án nghiên cứu.
6.3. Đảm Bảo Tính Bền Vững và Khả Năng Mở Rộng của Hệ Thống
Hệ thống cần được thiết kế để đảm bảo tính bền vững và khả năng mở rộng trong tương lai. Điều này đòi hỏi việc lựa chọn các công nghệ phù hợp, xây dựng kiến trúc hệ thống linh hoạt, và có kế hoạch bảo trì và nâng cấp hệ thống thường xuyên.