Luận Văn Thạc Sĩ Về Gán Nhãn Ảnh Tự Động Sử Dụng Nhiều Nguồn Thông Tin

Luận văn thạc sĩ nghiên cứu gán nhãn ảnh tự động sử dụng kết hợp nhiều nguồn thông tin, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Điện tử truyền thông

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2017

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỤC LỤC

PHẦN MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ PHƢƠNG PHÁP GÁN NHÃN TỰ ĐỘNG CHO ẢNH

1.1. Tổng quan

1.2. Các nghiên cứu trong lĩnh vực gần đây

1.3. Bài toán phân loại và gán nhãn ảnh tự động

2. CHƯƠNG 2: THUẬT TOÁN GÁN NHÃN ẢNH CHỈ SỬ DỤNG CÁC VECTOR ĐẶC TRƢNG

3. CHƯƠNG 3: THUẬT TOÁN SỬ DỤNG KẾT HỢP THÔNG TIN PHỤ TRỢ

TÀI LIỆU THAM KHẢO

PHỤ LỤC

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG

1. PHẦN MỞ ĐẦU

1.1. Tính cấp thiết của luận văn

1.2. Mục tiêu của luận văn

1.3. Các đóng góp của luận văn

1.4. Bố cục của luận văn

Tóm tắt

I. Tổng quan về gán nhãn ảnh tự động

Gán nhãn ảnh tự động là một quá trình quan trọng trong lĩnh vực xử lý hình ảnh. Quá trình này mô phỏng công việc của con người khi gán nhãn cho hình ảnh bằng cách sử dụng các thuộc tính của ảnh. Các hệ thống gán nhãn hiện nay chủ yếu dựa vào việc phân tích hình ảnh và áp dụng các kỹ thuật học máy. Để nâng cao độ chính xác, nhiều nghiên cứu đã chuyển hướng từ việc thiết kế phức tạp của thuật toán sang việc giảm khoảng cách ngữ nghĩa giữa các đặc trưng và ngữ nghĩa của con người. Xu hướng hiện tại là sử dụng nội dung ảnh để tự động gán nhãn, giúp dễ dàng quản lý và tìm kiếm ảnh. Việc gán nhãn ảnh tự động không chỉ giúp tiết kiệm thời gian mà còn cải thiện độ chính xác trong việc nhận diện và phân loại ảnh.

1.1. Các phương pháp gán nhãn ảnh

Có ba phương pháp chính để gán nhãn ảnh: gán nhãn bằng tay, gán nhãn tự động và gán nhãn bán tự động. Gán nhãn bằng tay yêu cầu người dùng nhập từ khóa mô tả, trong khi gán nhãn tự động sử dụng các thuật toán để phát hiện và gán từ có ngữ nghĩa cho ảnh mà không cần can thiệp của con người. Gán nhãn bán tự động kết hợp cả hai phương pháp, yêu cầu người dùng cung cấp truy vấn ban đầu. Mỗi phương pháp có ưu điểm và nhược điểm riêng, trong đó gán nhãn tự động được coi là hiệu quả nhất trong việc xử lý lượng lớn dữ liệu hình ảnh.

II. Kỹ thuật gán nhãn ảnh tự động

Kỹ thuật gán nhãn ảnh tự động sử dụng nhiều nguồn thông tin để cải thiện độ chính xác của quá trình gán nhãn. Các nghiên cứu gần đây đã chỉ ra rằng việc kết hợp thông tin từ nhiều nguồn khác nhau, bao gồm cả thông tin văn bản và nội dung hình ảnh, có thể nâng cao hiệu quả gán nhãn. Việc sử dụng các vector đặc trưng để mô tả ảnh là một trong những phương pháp chính. Các vector này có thể được trích xuất từ các đặc trưng như màu sắc, kết cấu và hình khối. Thông qua việc so sánh các vector này với các ảnh đã được gán nhãn, hệ thống có thể xác định nhãn phù hợp cho ảnh mới.

2.1. Các nguồn thông tin phụ trợ

Thông tin phụ trợ đóng vai trò quan trọng trong việc cải thiện độ chính xác của gán nhãn ảnh. Các nguồn thông tin này bao gồm nhãn, chú giải và các thông tin khác từ người dùng. Việc khai thác thông tin này giúp hệ thống có thể đưa ra các nhãn chính xác hơn cho ảnh. Nghiên cứu cho thấy rằng việc sử dụng thông tin chú giải có thể cải thiện đáng kể độ chính xác của thuật toán gán nhãn. Hệ thống có thể sử dụng thông tin này để xác định mối quan hệ giữa các nhãn và nội dung ảnh, từ đó gán nhãn một cách hiệu quả hơn.

III. Đánh giá hiệu quả của phương pháp gán nhãn

Đánh giá hiệu quả của phương pháp gán nhãn ảnh tự động là một phần quan trọng trong nghiên cứu này. Các chỉ số như độ chính xác, độ nhạy và độ đặc hiệu được sử dụng để đo lường hiệu quả của các thuật toán gán nhãn. Kết quả thực nghiệm cho thấy rằng việc kết hợp nhiều nguồn thông tin có thể cải thiện đáng kể độ chính xác của quá trình gán nhãn. Các phương pháp như K-Nearest Neighbors (KNN) và Support Vector Machine (SVM) đã được áp dụng để phân loại và gán nhãn ảnh, cho thấy sự cải thiện rõ rệt trong kết quả so với việc sử dụng từng phương pháp riêng lẻ.

3.1. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy rằng việc sử dụng thông tin chú giải và các vector đặc trưng kết hợp có thể nâng cao độ chính xác của gán nhãn ảnh. Các thử nghiệm với tập dữ liệu NUS-WIDE cho thấy rằng các thuật toán như KNN và SVM có thể đạt được độ recall cao khi sử dụng thông tin phụ trợ. Điều này chứng tỏ rằng việc khai thác đồng thời nhiều nguồn thông tin là một hướng đi hiệu quả trong nghiên cứu gán nhãn ảnh tự động.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ gán nhãn ảnh tự động sử dụng kết hợp nhiều nguồn thông tin

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ thông tin đa phương tiện, đặc biệt là hình ảnh và video trên Internet, việc lưu trữ, quản lý và truy xuất dữ liệu hình ảnh trở thành một thách thức lớn. Theo ước tính, có hơn 2 triệu ảnh được tải lên mạng mỗi ngày, với tốc độ lên đến hàng nghìn ảnh mỗi giây tại các thời điểm cao điểm. Việc gán nhãn ảnh tự động nhằm mục đích tự động gán các từ khóa mô tả nội dung ảnh, giúp đơn giản hóa quá trình tìm kiếm và phân loại ảnh. Tuy nhiên, việc gán nhãn thủ công không khả thi với khối lượng ảnh khổng lồ hiện nay do tốn kém thời gian và công sức.

Luận văn tập trung nghiên cứu kỹ thuật gán nhãn ảnh tự động sử dụng kết hợp nhiều nguồn thông tin, bao gồm các vector đặc trưng ảnh (low-level features) và thông tin phụ trợ như chú giải (tags) do người dùng cung cấp. Mục tiêu chính là nâng cao độ chính xác và hiệu quả của quá trình gán nhãn ảnh, đồng thời khảo sát mức độ cải tiến khi kết hợp các loại đặc trưng và thông tin phụ trợ. Phạm vi nghiên cứu sử dụng tập dữ liệu NUS-WIDE với hơn 269,000 ảnh, 81 nhãn và 1,000 chú giải, thực hiện trong giai đoạn 2017 tại Đại học Quốc gia Hà Nội.

Nghiên cứu có ý nghĩa quan trọng trong việc phát triển các hệ thống quản lý ảnh tự động, hỗ trợ truy xuất dữ liệu nhanh chóng và chính xác, góp phần ứng dụng trong các lĩnh vực như truyền thông, an ninh, thương mại điện tử và lưu trữ số.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Phân loại và gán nhãn ảnh dựa trên đặc trưng ảnh (Low-level features):
- Các vector đặc trưng được sử dụng gồm: Lược đồ màu (Color Histogram - CH, 64 chiều), Đặc trưng tương quan màu (Color Auto-Correlogram - CORR, 144 chiều), Lược đồ hệ số góc (Edge Direction Histogram - EDH, 73 chiều), Cấu trúc sóng con (Wavelet Texture - WT, 128 chiều), Mô-men màu (Color Moments - CM55, 225 chiều), và phương pháp túi từ điển (Bag of Words - BOW, 500 chiều).
- Mỗi loại đặc trưng có ưu nhược điểm riêng, ví dụ CH bất biến với phép quay và tịnh tiến nhưng không tận dụng được thông tin không gian, CORR có độ phức tạp cao nhưng cho kết quả phân loại tốt hơn.
Sử dụng thông tin phụ trợ (Metadata) để cải thiện gán nhãn:
- Thông tin phụ trợ bao gồm chú giải (tags), thời gian chụp, vị trí GPS, thông số máy ảnh, bình luận người dùng.
- Trong nghiên cứu, chú giải do người dùng cung cấp được khai thác triệt để vì có mặt trong toàn bộ tập dữ liệu NUS-WIDE và có chất lượng tốt.
- Mối quan hệ giữa chú giải và nhãn được xác định thông qua tần suất xuất hiện và mức độ liên quan, giúp cải thiện độ chính xác gán nhãn.

Các thuật toán phân loại được áp dụng gồm:

K-Nearest Neighbors (K-NN): Phân loại dựa trên khoảng cách Euclidean giữa ảnh kiểm thử và ảnh huấn luyện, chọn K láng giềng gần nhất để quyết định nhãn.
Support Vector Machine (SVM): Sử dụng siêu phẳng phân tách trong không gian đặc trưng, áp dụng kernel Gaussian để xử lý dữ liệu không tuyến tính.

Phương pháp nghiên cứu

Nguồn dữ liệu: Tập dữ liệu NUS-WIDE gồm 269,648 ảnh, 81 nhãn, 1,000 chú giải, chia thành 161,789 ảnh huấn luyện và 107,859 ảnh kiểm thử.
Phương pháp chọn mẫu: Giảm số lượng ảnh huấn luyện xuống còn 4,032 ảnh bằng phương pháp K-means clustering (50 ảnh mỗi nhãn) để giảm độ phức tạp tính toán.
Phân tích:
- Tính toán khoảng cách giữa ảnh kiểm thử và ảnh huấn luyện dựa trên từng loại vector đặc trưng.
- Thực hiện phân loại và gán nhãn bằng K-NN với K=50 và SVM sử dụng Gaussian kernel.
- Kết hợp thông tin chú giải với đặc trưng ảnh để cải thiện kết quả.
Timeline nghiên cứu: Nghiên cứu và thực nghiệm được thực hiện trong năm 2017, với các bước tiền xử lý, huấn luyện, kiểm thử và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của các vector đặc trưng riêng lẻ và kết hợp:
- Khi sử dụng thuật toán K-NN, kết quả recall trung bình khi gán 10 nhãn cho ảnh kiểm thử đạt 51.96% khi kết hợp tất cả các đặc trưng, trong khi các đặc trưng riêng lẻ dao động từ 36.61% (WT) đến 43.28% (CORR).
- Thuật toán SVM cho kết quả recall thấp hơn một chút, đạt 43.07% với BOW khi gán 10 nhãn, trong khi CORR vẫn là đặc trưng tốt nhất với 46.60%.
- Việc kết hợp các đặc trưng giúp phát huy ưu điểm và khắc phục nhược điểm của từng loại, cải thiện recall trung bình khoảng 10-15% so với dùng riêng lẻ.
Ảnh hưởng của thông tin chú giải (tags):
- Sử dụng trực tiếp chú giải người dùng trên tập kiểm thử cho kết quả recall rất cao, vượt 70% khi gán 10 nhãn, chứng tỏ chú giải có chất lượng tốt và liên quan mật thiết đến nội dung ảnh.
- Kết hợp chú giải của ảnh kiểm thử với đặc trưng ảnh nâng cao recall so với chỉ dùng đặc trưng ảnh, đặc biệt khi số nhãn gán lớn hơn 3.
- Sử dụng chú giải của ảnh huấn luyện để tìm ảnh tương tự và gán nhãn cho ảnh kiểm thử cũng cải thiện recall đáng kể, đạt trên 75% khi gán 10 nhãn.
So sánh thuật toán K-NN và SVM:
- Kết quả thực nghiệm cho thấy K-NN và SVM có hiệu quả tương đương trên tập dữ liệu NUS-WIDE, với K-NN có ưu thế về đơn giản và khả năng xử lý tốt khi kết hợp nhiều đặc trưng.
- SVM gặp khó khăn khi sử dụng tập huấn luyện đã được scale qua K-means do mất thông tin chi tiết.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc biểu diễn ảnh bằng nhiều loại vector đặc trưng kết hợp với thông tin chú giải là hướng đi hiệu quả để nâng cao độ chính xác gán nhãn ảnh tự động. Đặc trưng tương quan màu (CORR) nổi bật với khả năng phân biệt tốt, trong khi lược đồ hệ số góc (EDH) cho kết quả thấp nhất do hạn chế trong việc mô tả hình dạng phức tạp.

Việc khai thác chú giải người dùng làm tăng đáng kể hiệu quả, bởi chú giải phản ánh trực tiếp ngữ nghĩa và ngữ cảnh của ảnh. Phương pháp kết hợp chú giải với đặc trưng ảnh giúp giảm sai số do đặc trưng ảnh đơn thuần không thể bao quát hết nội dung phức tạp.

So sánh với các nghiên cứu trước đây, kết quả phù hợp với xu hướng sử dụng đa nguồn thông tin để cải thiện gán nhãn ảnh. Biểu đồ recall theo số nhãn gán và loại đặc trưng có thể minh họa rõ sự cải thiện khi kết hợp các nguồn thông tin.

Tuy nhiên, việc xử lý khối lượng dữ liệu lớn vẫn là thách thức về thời gian và bộ nhớ, đòi hỏi các giải pháp tối ưu hóa tính toán song song và giảm chiều dữ liệu.

Đề xuất và khuyến nghị

Phát triển hệ thống gán nhãn ảnh đa nguồn thông tin:
- Áp dụng kết hợp đồng thời các vector đặc trưng ảnh và thông tin chú giải để nâng cao độ chính xác recall trên 70%.
- Thời gian thực hiện: 6-12 tháng.
- Chủ thể thực hiện: Các nhóm nghiên cứu và doanh nghiệp phát triển phần mềm quản lý ảnh.
Tối ưu hóa thuật toán phân loại cho dữ liệu lớn:
- Sử dụng kỹ thuật giảm chiều dữ liệu, phân cụm thông minh và tính toán song song để giảm thời gian xử lý.
- Mục tiêu giảm thời gian xử lý xuống dưới 50% so với hiện tại.
- Chủ thể: Các nhà phát triển thuật toán và kỹ sư phần mềm.
Khai thác sâu hơn các loại thông tin phụ trợ khác:
- Nghiên cứu sử dụng thông tin GPS, thời gian chụp, bình luận để bổ sung cho chú giải, tăng tính đa dạng và chính xác.
- Thời gian nghiên cứu: 12 tháng.
- Chủ thể: Các nhà nghiên cứu trong lĩnh vực xử lý ảnh và học máy.
Xây dựng bộ dữ liệu chú giải chất lượng cao:
- Tạo bộ dữ liệu chú giải được chuẩn hóa, loại bỏ nhiễu và tăng tính nhất quán để hỗ trợ huấn luyện mô hình.
- Chủ thể: Các tổ chức nghiên cứu và cộng đồng người dùng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Điện tử - Viễn thông, Khoa học máy tính:
- Lợi ích: Hiểu sâu về kỹ thuật gán nhãn ảnh tự động, các vector đặc trưng và thuật toán phân loại.
- Use case: Phát triển đề tài nghiên cứu, luận văn thạc sĩ, tiến sĩ.
Doanh nghiệp phát triển phần mềm quản lý ảnh và truyền thông số:
- Lợi ích: Áp dụng kỹ thuật gán nhãn tự động để cải thiện hệ thống tìm kiếm và phân loại ảnh.
- Use case: Tối ưu hóa sản phẩm, nâng cao trải nghiệm người dùng.
Chuyên gia trong lĩnh vực trí tuệ nhân tạo và học máy:
- Lợi ích: Nắm bắt xu hướng kết hợp đa nguồn dữ liệu trong bài toán phân loại ảnh.
- Use case: Thiết kế mô hình học sâu, cải tiến thuật toán.
Các tổ chức lưu trữ số và thư viện số:
- Lợi ích: Tự động hóa quá trình gán nhãn và phân loại kho ảnh lớn.
- Use case: Quản lý tài nguyên số hiệu quả, hỗ trợ truy xuất nhanh.

Câu hỏi thường gặp

Gán nhãn ảnh tự động là gì và tại sao cần thiết?
Gán nhãn ảnh tự động là quá trình máy tính tự động gán các từ khóa mô tả nội dung ảnh, giúp tìm kiếm và phân loại dễ dàng. Điều này cần thiết do lượng ảnh khổng lồ hiện nay khiến việc gán nhãn thủ công không khả thi.
Các loại đặc trưng ảnh nào được sử dụng phổ biến trong gán nhãn?
Các đặc trưng phổ biến gồm lược đồ màu (CH), tương quan màu (CORR), lược đồ hệ số góc (EDH), cấu trúc sóng con (WT), mô-men màu (CM55) và túi từ điển (BOW). Mỗi loại có ưu nhược điểm riêng, thường được kết hợp để tăng hiệu quả.
Thông tin phụ trợ (metadata) ảnh có vai trò gì trong gán nhãn?
Metadata như chú giải, thời gian, vị trí GPS cung cấp thông tin ngữ nghĩa bổ sung, giúp cải thiện độ chính xác gán nhãn khi kết hợp với đặc trưng ảnh.
Thuật toán K-NN và SVM khác nhau thế nào trong bài toán này?
K-NN phân loại dựa trên khoảng cách gần nhất, đơn giản và hiệu quả với dữ liệu lớn khi được tối ưu. SVM xây dựng siêu phẳng phân tách, phù hợp với dữ liệu phức tạp nhưng đòi hỏi tính toán cao hơn và nhạy cảm với việc giảm mẫu.
Làm thế nào để cải thiện hiệu quả gán nhãn khi số lượng nhãn gán tăng?
Kết hợp nhiều loại đặc trưng và sử dụng thông tin chú giải giúp tăng recall khi số nhãn gán tăng, đồng thời áp dụng kỹ thuật lọc và chọn lọc nhãn phù hợp để giảm sai số.

Kết luận

Luận văn đã nghiên cứu và đề xuất phương pháp gán nhãn ảnh tự động kết hợp nhiều vector đặc trưng và thông tin chú giải, nâng cao độ chính xác gán nhãn trên tập dữ liệu NUS-WIDE.
Kết quả thực nghiệm cho thấy đặc trưng tương quan màu (CORR) và phương pháp kết hợp đa nguồn thông tin mang lại hiệu quả tốt nhất với recall đạt trên 70%.
Thuật toán K-NN và SVM được so sánh, trong đó K-NN có ưu thế về tính đơn giản và khả năng xử lý dữ liệu lớn.
Việc khai thác chú giải người dùng là yếu tố quan trọng giúp cải thiện đáng kể kết quả gán nhãn.
Các bước tiếp theo bao gồm tối ưu hóa thuật toán, mở rộng khai thác các loại metadata khác và xây dựng bộ dữ liệu chú giải chuẩn hóa để ứng dụng rộng rãi trong thực tế.

Các nhà nghiên cứu và doanh nghiệp nên áp dụng phương pháp kết hợp đa nguồn thông tin trong hệ thống quản lý ảnh để nâng cao hiệu quả truy xuất và phân loại dữ liệu hình ảnh số.

Trích đoạn nội dung tài liệu

PHẦN MỞ ĐẦU 1. Tính cấp thiết của luận văn Những năm gần đây, sự phát triển của khoa học và công nghệ đặc biệt là các thiết bị chụp ảnh và video cũng nhƣ của mạng Internet dẫn đến sự bùng nổ thông tin đa phƣơng tiện. Lƣợng lớn thông tin hình ảnh, video với sự đa dạng chủ đề đƣợc lƣu trữ chia sẻ và truy cập trên mạng. Điều này cũng đồng nghĩa với yêu cầu bức thiết trong vấn đề lƣu trữ, quản lí và truy cập dữ liệu.

Gán nhãn ảnh tự động đã và đang trở thành chủ đề nóng và thách thức lớn trong xử lý thông tin và khoa học máy tính. Mục tiêu chính của kỹ thuật này là thiết lập quá trình mà hệ thống máy tính tự động gán cho mỗi đối tƣợng trong ảnh một vài nhãn thông tin, căn cứ vào đó ta có thể dễ dàng tìm kiếm, phân loại và truy xuất ảnh. Hiện nay, các kỹ thuật đƣợc sử dụng để phân loại và truy xuất ảnh thƣờng sử dụng thông tin văn bản (text) từ nguồn thông tin phụ trợ (metadata) của dữ liệu ví dụ nhƣ nhãn, chú giải (tag), bình luận (comment) của ngƣời dùng (ví dụ nhƣ Google tìm kiếm văn bản). Tuy nhiên không phải lúc nào các thông tin này cũng có sẵn, cũng chính xác, đặc biệt lại phụ thuộc lớn vào quan điểm của ngƣời dùng cũng nhƣ ngôn ngữ mà ngƣời dùng sử dụng.

Hơn nữa việc mô tả bức ảnh bằng một vài từ khóa không phải công việc dễ dàng. Việc gán nhãn ảnh bằng tay còn thực sự khó khăn tốn kém và trở lên bất khả thi khi số lƣợng ảnh tăng lên rất nhanh chóng nhƣ hiện nay. Xu hƣớng hiện tại là gán nhãn ảnh một cách tự động sử dụng trực tiếp nội dung ảnh (image content), gán các nhãn cho ảnh đó, qua đó giúp dễ dàng quản lí ảnh cũng nhƣ tìm kiếm ảnh. Vấn đề này vẫn luôn nhận đƣợc sự quan tâm của các nhà nghiên cứu với hi vọng có thể cải thiện hơn độ chính xác, tốc độ xử lý, sự đa dạng và độ khó của các tập ảnh.

Xu hƣớng chung của các nghiên cứu này là tìm ra các đặc trƣng tốt hơn trong việc đặc tả ảnh, qua đó cải thiện đƣợc độ chính xác trong quá trình nhận dạng và gán nhãn ảnh. Một xu hƣớng nữa cũng đƣợc quan tâm là sử dụng khai thác triệt để tất cả các thông tin có thể có từ ảnh z 2 (metadata, ví dụ nhƣ thời gian chụp, địa điểm chụp, tham số của máy ảnh, chú giải, bình luận của ngƣời dùng…) để cải tiến giải thuật. Trong đề tài này tôi cũng đi theo hai xu hƣớng trên, khai thác việc sử dụng đồng thời nhiều loại đặc trƣng trong mô tả ảnh và thông tin phụ trợ có đƣợc từ internet gắn liền với ảnh đó để tăng độ chính xác trong quá trình nhận dạng và gán nhãn hình ảnh. Mục tiêu của luận văn Mục tiêu của luận văn là : (i) Nghiên cứu việc sử dụng kết hợp nhiều loại đặc trƣng ảnh (low level image features) để mô tả và biểu diễn ảnh.

(ii) Sử dụng kết hợp các nguồn thông tin phụ trợ nhƣ thông tin văn bản (nhãn, chú giải…), nhằm cải thiện đƣợc chất lƣợng/ hiệu quả của quá trình gán nhãn ảnh. Ngoài ra, chúng tôi cũng đƣa ra các khảo sát đánh giá hiệu quả sử dụng kết hợp nhiều thông tin, độ phức tạp cũng nhƣ mức độ cải tiến của thuật toán mới. Các đóng góp của luận văn Trong luận văn này, tôi nghiên cứu đề xuất phƣơng pháp phân loại và gán nhãn tự động cho ảnh sử dụng các vector đặc trƣng để mô tả ảnh. Ý tƣởng quan trọng là gán nhãn ảnh bằng cách so sánh ảnh cần gán nhãn với các ảnh đã biết nhãn trong tập huấn luyện.

Việc so sánh này không thể thực hiện trực tiếp trên hai ảnh bởi vì hình ảnh có thể khác nhau về kích thƣớc, vị trí đối tƣợng trong ảnh, độ sáng tối, góc chụp vv … Mỗi loại đặc trƣng đều có ƣu điểm, nhƣợc điểm riêng nên tôi tiến hành thực nghiệm với từng loại đặc trƣng riêng để đánh giá đặc trƣng nào cho kết quả tốt nhất, đặc trƣng nào cho kết quả xấu nhất và kết hợp giữa các đặc trƣng để biết đƣợc mức độ cải tiến so với việc chỉ sử dụng từng đặc trƣng riêng biệt. Ngoài ra chúng tôi còn tiến hành việc phân tích và sử dụng thông tin phụ trợ kết hợp với các đặc trƣng trên để giảm bớt thời gian và tăng độ chính xác của việc gán nhãn tự động cho ảnh. Bố cục của luận văn Luận văn đƣợc chia làm ba chƣơng : Chƣơng 1: Tổng quan về phƣơng pháp gán nhãn tự động cho ảnh. Chƣơng này đƣa ra hƣớng tiếp cận của bài toán phân loại và gán nhãn.

Trình bày về sáu loại đặc trƣng (Low- level features) dùng để biểu diễn ảnh nhƣ: Lƣợc đồ màu CH (64-D color histogram); Đặc trƣng tƣơng quan màu CORR (144-D color auto-correlogram); Lƣợc đồ hệ số góc EDH (73-D edge direction histogram); Cấu trúc sóng con WT (128-D wavelet texture); Mô men màu CM55 (225-D block-wise color moments) và phƣơng pháp túi từ điển Bag of Word BOW (500-D bag of visual words) cũng nhƣ nguồn thông tin phụ trợ đƣợc sử dụng cho việc gán nhãn. Đồng thời cũng trình bày về hai phƣơng pháp sử dụng để phân loại và gán nhãn đó là KNN và SVM. Và giới thiệu tham số dùng để đánh giá cho kết quả của thuật toán là Recall. Chƣơng 2: Thuật toán gán nhãn ảnh chỉ sử dụng các vector đặc trƣng.

Trong chƣơng này sẽ trình bày về tập dữ liệu của NUS-WIDE sử dụng trong phần thực nghiệm gồm có tập ảnh huấn luyện (training), tập ảnh kiểm thử (testing), 81 nhãn ( concept) và 1000 chú giải (tags) lấy từ thông tin phụ trợ của ảnh và đƣa ra các bƣớc tiến hành thực nghiệm và kết quả của thuật toán khi sử dụng các đặc trƣng riêng biệt và kết hợp các đặc trƣng với nhau. Chƣơng 3: Thuật toán sử dụng kết hợp thông tin phụ trợ. Chƣơng này thực hiện việc kết hợp giữa các đặc trƣng và các chú giải để cải thiện độ phức tạp và đƣa ra kết quả cải tiến của thuật toán. Cuối cùng, phần kết luận tóm lƣợc các kết quả đã đạt đƣợc và đề xuất các nghiên cứu trong tƣơng lai.

TỔNG QUAN VỀ PHƢƠNG PHÁP GÁN NHÃN TỰ ĐỘNG CHO ẢNH 1. Tổng quan Gán nhãn ảnh tự động có thể đƣợc định nghĩa là quá trình mô hình hóa công việc của ngƣời thực hiện gán nhãn bằng tay khi gán các từ khóa cho hình ảnh dựa trên các thuộc tính của ảnh. Đến nay phần lớn các hệ thống gán nhãn ảnh đƣợc dựa trên sự kết hợp của việc phân tích hình ảnh và các kỹ thuật học máy. Để nâng cao tính chính xác của gán nhãn, những nghiên cứu tập trung đã đƣợc chuyển từ sự thiết kế phƣc tạp của thuật toán khai thác các đặc trƣng đến giảm khoảng cách ngữ nghĩa giữa các đặc trƣng và sự phong phú về ngữ nghĩa của con ngƣời.

Theo truyền thống có hai xu hƣớng chính trong quá trình tìm kiếm hình ảnh. Xu hƣớng đầu tiên đƣợc gọi là truy xuất hình ảnh dựa trên nội dung (CBIR: Content based image retrieval) cũng đƣợc biết đến nhƣ là truy vấn theo nội dung hình ảnh (QBIC: Query by image content) hoặc là truy xuất thông tin hình ảnh dựa trên nội dung (CBVIR: Content based visual information retrieval) có nghĩa là việc tìm kiếm sẽ phân tích nội dung thực tế của hình ảnh bằng cách sử dụng các kỹ thuật phân tích hình ảnh. 1 Một hệ thống CBIR điển hình [Manal and Nordin 2009]. z 5 Gán nhãn ảnh tự động cũng đƣợc biết đến bao gồm một số kỹ thuật nhằm tìm ra mối tƣơng quan giữa các đặc trƣng mức thấp và ngữ nghĩa mức cao.

Khó khăn chính trong việc gán nhãn ảnh tự động là tạo ra một mô hình có thể gán các từ khóa chính cho ảnh để có thể mô tả thành công nội dung của ảnh đó. Điểm khởi đầu cho hầu hết các thuật toán này là một tập ảnh huấn luyện đã đƣợc gán nhãn bằng tay. Thông tin phụ trợ bao gồm các từ khóa đơn giản mô tả lại nội dung của ảnh. Kỹ thuật phân tích hình ảnh đƣợc sử dụng để trích xuất các đặc trƣng của ảnh nhƣ màu sắc, kết cấu, hình khối để tạo mô hình phân bố một thuật ngữ có mặt trong ảnh.

Các đặc trƣng có thể thu đƣợc từ toàn bộ hình ảnh (phƣơng pháp tiếp cận toàn cục), hoặc từ các khối màu đƣợc phân chia của ảnh (phƣơng pháp tiếp cận cục bộ). Bƣớc tiếp theo là trích xuất thông tin đặc trƣng từ hình ảnh chƣa biết để so sánh nó với tất cả tập ảnh huấn luyện đã đƣợc tạo ra bằng tay. Kết quả của so sánh này mang lại một giá trị xác suất của mỗi từ khóa đƣợc gán trong ảnh. Sơ đồ khối của khung gán nhãn ảnh tự động đƣợc thể hiện ở Hình 1.

2 Sơ đồ khối của một khung công việc gán nhãn ảnh tự động. z 6 Có ba phƣơng pháp gán nhãn cho ảnh: Bằng tay, tự động và bán tự động [Wenyin et al. Gán nhãn bằng tay cần ngƣời thực hiện nhập một vài từ khóa miêu tả khi thực hiện gửi ảnh. Ngƣợc lại, gán nhãn tự động phát hiện và gán từ có ngữ nghĩa với nội dung của ảnh một cách tự động, không cần con ngƣời can thiệp.

Với gán nhãn bán tự động, nó cần tƣơng tác của ngƣời thực hiện để cung cấp truy vấn ban đầu và phản hồi cho gán nhãn ảnh trong khi trình duyệt.2 đƣa ra so sánh ba kỹ thuật gán nhãn trên về kỹ thuật, ƣu điểm và nhƣợc điểm riêng của chúng. 1 So sánh các kỹ thuật gán nhãn. Kỹ thuật gán Bằng tay Bán tự động Tự động nhãn Tƣơng tác của Nhập một vài từ Cung cấp truy vấn Không cần tƣơng con ngƣời ban khóa miêu tả ban đầu ngay từ tác đầu khi bắt đầu Nhiệm vụ của Cung cấp đĩa hoặc Phân tích truy vấn Sử dụng công máy cơ sở dữ liệu để của con ngƣời và nghệ nhận dạng lƣu trữ ảnh đƣợc trích xuất thông tự động phát hiện gán nhãn tin ngữ nghĩa để và gán từ có ngữ thực hiện gán nghĩa cho ảnh nhãn Nhiệm vụ của Thực hiện đầy đủ Thực hiện một số Xác nhận kết quả con ngƣời thông tin ngữ gán nhãn và làm đầu ra và tính độ nghĩa cho các mục việc với đầu ra chính xác của đích tìm kiếm của máy việc gán nhãn tự động Bảng 1. 2 So sánh ưu điểm và nhược điểm của các kỹ thuật gán nhãn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận Văn Thạc Sĩ Về Gán Nhãn Ảnh Tự Động Sử Dụng Nhiều Nguồn Thông Tin" của tác giả Nguyễn Thị Dương, dưới sự hướng dẫn của TS. Lê Vũ Hà, được thực hiện tại Đại học Quốc gia Hà Nội vào năm 2017. Bài viết tập trung vào việc phát triển các phương pháp gán nhãn ảnh tự động bằng cách kết hợp nhiều nguồn thông tin khác nhau, nhằm nâng cao độ chính xác và hiệu quả trong việc nhận diện và phân loại hình ảnh. Nội dung của luận văn không chỉ cung cấp cái nhìn sâu sắc về công nghệ gán nhãn ảnh mà còn mở ra hướng đi mới cho các nghiên cứu và ứng dụng trong lĩnh vực điện tử truyền thông.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin trong giáo dục, bạn có thể tham khảo bài viết "Quản lý ứng dụng công nghệ thông tin trong dạy học ở trường trung học cơ sở Hoằng Hóa, Thanh Hóa", nơi đề cập đến việc áp dụng công nghệ thông tin trong giáo dục theo hướng chuyển đổi số.

Ngoài ra, bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói" cũng sẽ cung cấp cho bạn cái nhìn về việc sử dụng các phương pháp học máy trong việc gán nhãn dữ liệu, tương tự như trong nghiên cứu của Nguyễn Thị Dương.

Cuối cùng, bạn có thể tìm hiểu thêm về "Nhận dạng giọng nói tiếng Việt qua học sâu và mô hình ngôn ngữ", một nghiên cứu khác trong lĩnh vực khoa học máy tính, liên quan đến việc áp dụng các kỹ thuật học sâu để cải thiện khả năng nhận diện giọng nói, từ đó mở rộng thêm kiến thức về các ứng dụng của công nghệ trong việc xử lý ngôn ngữ tự nhiên.

Những tài liệu này không chỉ giúp bạn hiểu rõ hơn về các khía cạnh khác nhau của công nghệ gán nhãn và nhận diện mà còn mở ra nhiều hướng nghiên cứu thú vị trong lĩnh vực này.

#tự động hóa

#Phân tích dữ liệu

#trí tuệ nhân tạo

#nhận diện hình ảnh

#gán nhãn ảnh

#nguồn thông tin

Chủ đề

Công nghệ gán nhãn ảnh

Ứng dụng của trí tuệ nhân tạo trong xử lý hình ảnh

Phát triển thuật toán học máy

Tối ưu hóa quy trình tự động hóa