I. Tổng Quan Về Đại Học Công Nghệ ĐHQGHN VNU UET
Đại học Quốc gia Hà Nội (ĐHQGHN) mà cụ thể là Trường Đại học Công nghệ (VNU-UET) đóng vai trò quan trọng trong việc đào tạo nguồn nhân lực chất lượng cao và nghiên cứu khoa học công nghệ mũi nhọn. Với sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh và mạng xã hội, lượng dữ liệu hình ảnh đã tăng lên đáng kể. Điều này đặt ra yêu cầu về việc tổ chức, tìm kiếm và trích xuất thông tin từ nguồn dữ liệu hình ảnh này. Mỗi hình ảnh thường chứa nhiều vùng ảnh khác nhau, mỗi vùng mang một ý nghĩa riêng. Gán nhãn vùng ảnh giúp hỗ trợ phân loại, tìm kiếm và trích xuất thông tin từ ảnh dựa trên các từ khóa. Do khối lượng dữ liệu hình ảnh lớn, việc gán nhãn thủ công tốn nhiều thời gian và công sức.
1.1. Giới thiệu về Trường Đại học Công nghệ UET
Trường Đại học Công nghệ là một trong những trường thành viên hàng đầu của Đại học Quốc gia Hà Nội. Trường tập trung vào đào tạo và nghiên cứu trong lĩnh vực công nghệ thông tin, điện tử viễn thông, và các ngành kỹ thuật khác. UET không ngừng đổi mới chương trình đào tạo và phương pháp giảng dạy để đáp ứng nhu cầu của thị trường lao động và sự phát triển của khoa học công nghệ. Trường cũng chú trọng đến hợp tác quốc tế và nghiên cứu khoa học để nâng cao chất lượng đào tạo và vị thế của mình.
1.2. Vai trò của UET trong hệ thống ĐHQGHN
UET đóng vai trò then chốt trong việc cung cấp nguồn nhân lực chất lượng cao cho ngành công nghệ của Việt Nam. Trường không chỉ đào tạo sinh viên mà còn tham gia vào các dự án nghiên cứu khoa học quan trọng, góp phần vào sự phát triển kinh tế - xã hội của đất nước. ĐHQGHN luôn tạo điều kiện thuận lợi để UET phát huy tối đa tiềm năng của mình, từ đó nâng cao vị thế của ĐHQGHN trên bản đồ giáo dục thế giới.
II. Thách Thức Trong Gán Nhãn Vùng Ảnh Tại VNU UET
Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn hình ảnh nói chung và gán nhãn vùng ảnh nói riêng đòi hỏi bộ dữ liệu học đã được gán nhãn cho từng vùng ảnh phải đủ lớn. Để xây dựng bộ dữ liệu được gán nhãn chuẩn, đòi hỏi mất nhiều thời gian và chi phí để thuê các chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện. Việc xây dựng bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc xây dựng bộ dữ liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh. Ta có thể tận dụng lượng dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các ứng dụng chia sẻ hình ảnh, mạng xã hội.
2.1. Khó khăn trong thu thập và gán nhãn dữ liệu
Một trong những thách thức lớn nhất là thu thập và gán nhãn dữ liệu một cách chính xác và hiệu quả. Việc gán nhãn thủ công đòi hỏi nhiều thời gian và công sức, đặc biệt khi xử lý lượng lớn dữ liệu hình ảnh. Ngoài ra, việc đảm bảo tính nhất quán và độ tin cậy của nhãn cũng là một vấn đề quan trọng. Các phương pháp học máy có giám sát đòi hỏi dữ liệu huấn luyện chất lượng cao, điều này đặt ra yêu cầu cao về quy trình thu thập và gán nhãn dữ liệu.
2.2. Vấn đề về dữ liệu gán nhãn yếu Weakly labeled data
Dữ liệu gán nhãn yếu là một giải pháp tiềm năng để giảm chi phí và thời gian gán nhãn. Tuy nhiên, việc sử dụng dữ liệu gán nhãn yếu cũng đặt ra những thách thức riêng. Các thuật toán học máy cần phải được thiết kế để có thể tận dụng thông tin hạn chế từ dữ liệu gán nhãn yếu, đồng thời giảm thiểu ảnh hưởng của nhiễu và thông tin không chính xác. Nghiên cứu về các phương pháp học máy sử dụng dữ liệu gán nhãn yếu là một hướng đi quan trọng để giải quyết vấn đề này.
III. Phương Pháp Học Máy Đa Nhãn Đa Thể Hiện MIML
Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy phân lớp phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện (hay học máy đa thể hiện), học máy đa nhãn – đơn thể hiện (hay học máy đa nhãn) và học máy đa nhãn - đa thể hiện. Với học máy phân lớp đơn nhãn – đơn thể hiện (single-instance, single-label learning: SISL) hay còn gọi là học máy phân lớp truyền thống, mỗi đối tượng được phân lớp chỉ thuộc vào một lớp (nhãn lớp) và chỉ có một thể hiện duy nhất trong miền ứng dụng.
3.1. Tổng quan về học máy đa nhãn MLL
Học máy đa nhãn (MLL) là một phương pháp học máy cho phép một đối tượng có thể thuộc về nhiều lớp khác nhau. Điều này phù hợp với nhiều bài toán thực tế, trong đó một đối tượng có thể có nhiều đặc tính hoặc thuộc tính khác nhau. Ví dụ, một bài báo có thể thuộc về nhiều chủ đề khác nhau như kinh tế, chính trị và xã hội. Các thuật toán MLL cần phải được thiết kế để có thể xử lý mối quan hệ giữa các nhãn và dự đoán nhiều nhãn cho một đối tượng.
3.2. Tổng quan về học máy đa thể hiện MIL
Học máy đa thể hiện (MIL) là một phương pháp học máy trong đó mỗi đối tượng được biểu diễn bởi một tập hợp các thể hiện (instance) thay vì một thể hiện duy nhất. Điều này phù hợp với các bài toán trong đó thông tin về đối tượng được phân tán trên nhiều thể hiện khác nhau. Ví dụ, một hình ảnh có thể được biểu diễn bởi nhiều vùng ảnh khác nhau. Các thuật toán MIL cần phải được thiết kế để có thể tổng hợp thông tin từ các thể hiện khác nhau và đưa ra dự đoán cho đối tượng.
3.3. Ưu điểm của MIML so với MLL và MIL
Học máy đa nhãn - đa thể hiện (MIML) kết hợp cả hai khái niệm đa nhãn và đa thể hiện, cho phép một đối tượng có thể thuộc về nhiều lớp khác nhau và được biểu diễn bởi nhiều thể hiện khác nhau. Điều này làm cho MIML trở thành một phương pháp học máy mạnh mẽ và linh hoạt, phù hợp với nhiều bài toán phức tạp trong thực tế. MIML có thể tận dụng thông tin từ cả các nhãn và các thể hiện để đưa ra dự đoán chính xác hơn.
IV. Ứng Dụng MIML Trong Gán Nhãn Vùng Ảnh Tại VNU UET
Để giải quyết bài toán gán nhãn vùng ảnh, luận văn tập trung nghiên cứu phương pháp học máy đa nhãn – đa thể hiện và các hướng giải pháp để giải quyết vấn đề đa nhãn – đa thể hiện. Có hai hướng giải pháp chính giải quyết vấn đề học máy đa nhãn – đa thể hiện. Hướng giải pháp đầu tiên là phân rã bài toán học máy đa nhãn – đa thể hiện thành bài toán có độ phức tạp ít hơn (lấy học máy đa thể hiện hoặc học máy đa nhãn làm cầu nối), nổi bật là nghiên cứu của Zhin-hua Zhou và cộng sự [17, 18]. Từ đó xây dựng thuật toán học máy MIML dựa trên việc tích hợp các thuật toán học máy tương ứng với học máy đa thể hiện hay học máy đa nhãn.
4.1. Xây dựng thuật toán MIML cho bài toán gán nhãn
Luận văn đề xuất xây dựng thuật toán MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện như DD [9], EM-DD [11], MISVM [3] đã nghiên cứu để giải quyết bài toán gán nhãn vùng ảnh. Thuật toán này sẽ tận dụng thông tin từ cả các nhãn và các thể hiện để đưa ra dự đoán chính xác hơn về nhãn của từng vùng ảnh.
4.2. Bổ sung thông tin vùng ảnh để nâng cao chất lượng
Luận văn cũng đề xuất bổ sung thông tin vùng ảnh như vị trí, kích thước và các đặc trưng hình ảnh khác để nâng cao chất lượng gán nhãn. Thông tin này có thể giúp thuật toán MIML phân biệt giữa các vùng ảnh khác nhau và đưa ra dự đoán chính xác hơn về nhãn của từng vùng ảnh.
V. Kết Quả Nghiên Cứu Và Đánh Giá Hiệu Quả Tại VNU UET
Luận văn trình bày quá trình thực nghiệm dựa trên phương pháp được đề xuất với tập dữ liệu thực nghiệm MSRA2. Cuối cùng, luận văn đưa ra đánh giá kết quả thực nghiệm thu được. Các kết quả thực nghiệm cho thấy phương pháp đề xuất có hiệu quả trong việc gán nhãn vùng ảnh, đặc biệt khi sử dụng dữ liệu gán nhãn yếu.
5.1. Trình bày kết quả thực nghiệm với tập dữ liệu MSRA2
Luận văn trình bày chi tiết các kết quả thực nghiệm thu được khi áp dụng phương pháp đề xuất trên tập dữ liệu MSRA2. Các kết quả này bao gồm độ chính xác, độ phủ và các chỉ số đánh giá khác. So sánh với các phương pháp gán nhãn vùng ảnh khác cũng được thực hiện để đánh giá hiệu quả của phương pháp đề xuất.
5.2. Đánh giá ưu điểm và hạn chế của phương pháp
Luận văn đánh giá các ưu điểm và hạn chế của phương pháp đề xuất. Ưu điểm có thể bao gồm khả năng xử lý dữ liệu gán nhãn yếu, hiệu quả gán nhãn cao và khả năng mở rộng cho các bài toán khác. Hạn chế có thể bao gồm độ phức tạp tính toán cao và yêu cầu về tài nguyên phần cứng.
VI. Hướng Phát Triển Tương Lai Cho Nghiên Cứu MIML Tại UET
Tóm lược những kết quả đã đạt được của luận văn và đưa ra định hướng nghiên cứu tiếp theo trong tương lai. Các hướng nghiên cứu có thể bao gồm cải thiện hiệu quả của thuật toán MIML, mở rộng phương pháp cho các bài toán khác và nghiên cứu các phương pháp học máy mới để giải quyết bài toán gán nhãn vùng ảnh.
6.1. Cải thiện hiệu quả của thuật toán MIML
Một hướng nghiên cứu quan trọng là cải thiện hiệu quả của thuật toán MIML bằng cách tối ưu hóa các tham số, sử dụng các kỹ thuật học sâu và kết hợp với các phương pháp học máy khác. Điều này có thể giúp thuật toán MIML đạt được độ chính xác cao hơn và khả năng xử lý dữ liệu lớn hơn.
6.2. Mở rộng phương pháp cho các bài toán khác
Phương pháp MIML có thể được mở rộng cho các bài toán khác như phân loại văn bản, phân tích cảm xúc và nhận dạng đối tượng. Việc mở rộng phương pháp MIML cho các bài toán khác có thể giúp giải quyết nhiều vấn đề thực tế và đóng góp vào sự phát triển của khoa học công nghệ.