Luận văn thạc sĩ: Nghiên cứu cải thiện độ chính xác trong phân loại hình ảnh bằng mô hình máy học

Luận văn thạc sĩ nghiên cứu chuyên ngành khoa học máy tính, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Trường Đại học Cần Thơ

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

TÓM TẮT TIẾNG VIỆT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Lý do chọn đề tài

1.2. Mục tiêu nghiên cứu

1.2.1. Mục tiêu nghiên cứu tổng quát

1.2.2. Mục tiêu nghiên cứu cụ thể

1.3. Đối tượng nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Phạm vi nghiên cứu

1.6. Bố cục luận văn

2. CHƯƠNG 2: TỔNG QUAN TÀI LIỆU

2.1. Nghiên cứu liên quan

2.2. Thu hoạch ảnh từ Web

2.3. Khảo sát và nghiên cứu thực nghiệm về các phương pháp học phép đo khoảng cách

2.4. Các hàm tính khoảng cách

2.5. Các thuật toán học số phép đo LMNN, KLMNN, NCA

2.5.1. Kỹ thuật LMNN (Large Margin Nearest Neighbor)

2.5.2. Kỹ thuật KLMNN (Kernel Large Margin Nearest Neighbor)

2.5.3. Kỹ thuật NCA (Neighborhood Components Analysis)

2.6. Mô hình máy học Vector hỗ trợ (Support Vector Machines - SVM)

3. CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU

3.1. Thu thập dữ liệu

3.2. Phương pháp bố trí thực nghiệm

3.2.1. Môi trường thực nghiệm

3.2.2. Phương pháp thực nghiệm

3.3. Đánh giá mô hình

3.3.1. Nghi thức kiểm tra

3.3.2. Các tiêu chí đo tính hiệu quả của giải thuật phân lớp

4. CHƯƠNG 4: KẾT QUẢ VÀ THẢO LUẬN

4.1. Kết quả Precision Score giữa các thuật toán

4.2. Kết quả Accuracy Score giữa các thuật toán

4.3. Bảng thống kê: Precsion, Recall, F1-Score, Accuracy của các thuật toán cho từng lớp chủ đề

4.4. So sánh thời gian của các giải thuật học phép đo khoảng cách

4.5. Kết hợp ma trận phép đo học khoảng cách với mô hình máy học SVM để huấn luyện và phân lớp lại hình ảnh

4.5.1. Đối với Ma trận học phép đo khoảng cách của thuật toán NCA (k=5)

4.5.2. Đối với Ma trận học phép đo khoảng cách của thuật toán KLMNN (k=5)

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Về mặt lý thuyết

5.2. Về mặt thực tiễn

5.3. Hướng nghiên cứu, phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu cải thiện độ chính xác trong phân loại hình ảnh

Nghiên cứu về phân loại hình ảnh đã trở thành một lĩnh vực quan trọng trong công nghệ thông tin, đặc biệt là trong bối cảnh dữ liệu hình ảnh ngày càng phong phú. Việc áp dụng các mô hình máy học để cải thiện độ chính xác trong phân loại hình ảnh là một thách thức lớn. Luận văn này sẽ tập trung vào việc nghiên cứu các phương pháp tính khoảng cách và kết hợp với các mô hình máy học nhằm nâng cao độ chính xác trong việc phân loại hình ảnh.

1.1. Tầm quan trọng của phân loại hình ảnh trong công nghệ hiện đại

Phân loại hình ảnh đóng vai trò quan trọng trong nhiều ứng dụng như nhận diện khuôn mặt, phân tích y tế và tìm kiếm hình ảnh. Độ chính xác trong phân loại hình ảnh ảnh hưởng trực tiếp đến hiệu quả của các hệ thống này.

1.2. Các thách thức trong việc cải thiện độ chính xác

Một trong những thách thức lớn nhất là sự đa dạng và phức tạp của dữ liệu hình ảnh. Các yếu tố như ánh sáng, góc chụp và chất lượng hình ảnh có thể ảnh hưởng đến độ chính xác của các mô hình phân loại.

II. Vấn đề chính trong phân loại hình ảnh và độ chính xác

Độ chính xác trong phân loại hình ảnh thường bị ảnh hưởng bởi nhiều yếu tố, bao gồm chất lượng dữ liệu huấn luyện và các thuật toán được sử dụng. Việc lựa chọn phương pháp tính khoảng cách phù hợp là rất quan trọng để cải thiện độ chính xác của mô hình.

2.1. Các yếu tố ảnh hưởng đến độ chính xác

Chất lượng dữ liệu huấn luyện, sự đa dạng của hình ảnh và các thuật toán phân loại là những yếu tố chính ảnh hưởng đến độ chính xác. Việc sử dụng các phương pháp học sâu như học sâu (deep learning) có thể giúp cải thiện tình hình này.

2.2. Thách thức trong việc thu thập dữ liệu

Việc thu thập một lượng lớn dữ liệu hình ảnh chất lượng cao từ Internet là một thách thức lớn. Các công cụ tìm kiếm hình ảnh hiện tại vẫn còn hạn chế trong việc cung cấp dữ liệu chính xác và đầy đủ.

III. Phương pháp cải thiện độ chính xác trong phân loại hình ảnh

Luận văn này sẽ trình bày các phương pháp tính khoảng cách kết hợp với mô hình máy học để cải thiện độ chính xác trong phân loại hình ảnh. Các phương pháp này bao gồm việc sử dụng các thuật toán như kNN và SVM.

3.1. Các thuật toán học phép đo khoảng cách

Các thuật toán như LMNN, KLMNN và NCA sẽ được nghiên cứu và so sánh để tìm ra phương pháp hiệu quả nhất trong việc cải thiện độ chính xác của mô hình phân loại.

3.2. Kết hợp mô hình máy học với các phương pháp tính khoảng cách

Việc kết hợp các mô hình máy học như SVM với các phương pháp tính khoảng cách sẽ giúp nâng cao độ chính xác trong việc phân loại hình ảnh. Các nghiên cứu trước đây đã chỉ ra rằng sự kết hợp này mang lại kết quả khả quan.

IV. Ứng dụng thực tiễn và kết quả nghiên cứu

Kết quả nghiên cứu cho thấy rằng việc sử dụng các phương pháp học số đo khoảng cách kết hợp với mô hình máy học SVM có thể cải thiện độ chính xác trong phân loại hình ảnh. Các thí nghiệm thực tế đã chỉ ra rằng độ chính xác đạt được có thể bằng hoặc cao hơn so với các mô hình truyền thống.

4.1. Kết quả thực nghiệm với dữ liệu hình ảnh

Các thí nghiệm trên tập dữ liệu hình ảnh cho thấy rằng mô hình kết hợp đã đạt được độ chính xác cao hơn so với các mô hình khác. Điều này chứng tỏ tính hiệu quả của phương pháp nghiên cứu.

4.2. Ứng dụng trong các lĩnh vực khác nhau

Kết quả nghiên cứu có thể được áp dụng trong nhiều lĩnh vực như y tế, an ninh và thương mại điện tử, nơi mà độ chính xác trong phân loại hình ảnh là rất quan trọng.

V. Kết luận và hướng phát triển tương lai

Nghiên cứu này đã chỉ ra rằng việc cải thiện độ chính xác trong phân loại hình ảnh là khả thi thông qua việc áp dụng các phương pháp tính khoảng cách kết hợp với mô hình máy học. Hướng phát triển tương lai có thể bao gồm việc tối ưu hóa các thuật toán và mở rộng nghiên cứu sang các lĩnh vực khác.

5.1. Tóm tắt kết quả nghiên cứu

Kết quả nghiên cứu đã chứng minh rằng việc kết hợp các phương pháp học số đo khoảng cách với mô hình máy học SVM có thể nâng cao độ chính xác trong phân loại hình ảnh.

5.2. Hướng nghiên cứu tiếp theo

Các nghiên cứu tiếp theo có thể tập trung vào việc phát triển các thuật toán mới và cải thiện quy trình thu thập dữ liệu để nâng cao hơn nữa độ chính xác trong phân loại hình ảnh.

14/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ chuyên ngành khoa học máy tính

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển nhanh chóng của công nghệ thông tin và sự bùng nổ dữ liệu đa phương tiện, đặc biệt là hình ảnh kỹ thuật số, việc xây dựng các hệ thống phân loại và tìm kiếm hình ảnh chính xác trở nên cấp thiết. Theo ước tính, lượng hình ảnh lưu trữ trên web tăng lên hàng triệu mỗi ngày, đòi hỏi các phương pháp phân loại hiệu quả để hỗ trợ người dùng truy xuất thông tin nhanh chóng và chính xác. Luận văn tập trung nghiên cứu các phương pháp tính khoảng cách kết hợp với mô hình máy học nhằm nâng cao độ chính xác trong phân loại hình ảnh, cụ thể là trên tập dữ liệu gồm 05 chủ đề về "Văn hóa phi vật thể của Việt Nam" thu thập từ Web và Google Image Search.

Mục tiêu chính của nghiên cứu là phát triển và đánh giá các thuật toán học phép đo khoảng cách như LMNN, KLMNN, NCA kết hợp với bộ phân loại kNN và mô hình máy học Support Vector Machine (SVM) để cải thiện độ chính xác phân loại hình ảnh. Phạm vi nghiên cứu tập trung trên dữ liệu hình ảnh của 05 chủ đề văn hóa phi vật thể Việt Nam, với tổng số lượng hình ảnh lên đến hàng nghìn ảnh đã được gán nhãn và xử lý kỹ lưỡng. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả phân loại hình ảnh, góp phần cải thiện các công cụ tìm kiếm và quản lý dữ liệu hình ảnh đa phương tiện, đồng thời hỗ trợ các ứng dụng trong lĩnh vực nhận dạng mẫu và thị giác máy tính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Phép đo khoảng cách (Distance Metrics): Bao gồm các hàm khoảng cách phổ biến như Minkowski, Euclidean, Manhattan, Mahalanobis và các hàm tương đồng như Cosine similarity, Bilinear similarity. Các hàm này là cơ sở để đo lường sự tương đồng hoặc khác biệt giữa các đặc trưng hình ảnh.
Thuật toán học phép đo khoảng cách (Distance Metric Learning): Các thuật toán LMNN (Large Margin Nearest Neighbor), KLMNN (Kernel LMNN), và NCA (Neighborhood Components Analysis) được sử dụng để học một phép đo khoảng cách tối ưu nhằm cải thiện hiệu quả phân loại kNN. LMNN tập trung vào việc phân biệt các hàng xóm gần nhất cùng lớp và tách biệt các lớp khác nhau với biên lớn. KLMNN mở rộng LMNN bằng cách sử dụng hàm nhân kernel để học trong không gian đặc trưng phi tuyến. NCA tối ưu trực tiếp xác suất phân loại chính xác của kNN thông qua học phép biến đổi tuyến tính.
Mô hình máy học Support Vector Machine (SVM): SVM được sử dụng để phân loại hình ảnh dựa trên việc tìm siêu phẳng tối ưu phân tách các lớp với biên lớn nhất. SVM có thể áp dụng các hàm nhân (kernel) tuyến tính và phi tuyến như RBF để xử lý dữ liệu không tuyến tính.

Phương pháp nghiên cứu

Nguồn dữ liệu: Tập dữ liệu gồm hình ảnh của 05 chủ đề "Văn hóa phi vật thể Việt Nam" được thu thập từ Web và Google Image Search, với tổng số lượng hình ảnh khoảng 7.000 ảnh. Dữ liệu được xử lý loại bỏ hình ảnh không liên quan, gán nhãn thủ công dựa trên nội dung hình ảnh và chú thích văn bản đi kèm.
Phương pháp phân tích: Dữ liệu được chia thành tập huấn luyện (70%) và tập kiểm tra (30%). Các thuật toán học phép đo khoảng cách LMNN, KLMNN, NCA được kết hợp với bộ phân loại kNN (k=3,5,7) để phân loại hình ảnh. Kết quả được so sánh với mô hình SVM sử dụng các kernel tuyến tính và RBF. Ma trận học phép đo khoảng cách tốt nhất được sử dụng làm hàm nhân kernel cho SVM để phân loại lại hình ảnh.
Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong khoảng 3 tháng, tiếp theo là 4 tháng thực hiện các thí nghiệm và đánh giá mô hình trên tập dữ liệu. Giai đoạn cuối gồm phân tích kết quả, so sánh và đề xuất giải pháp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán NCA-kNN: Thuật toán NCA-kNN với k=7 đạt điểm Precision trung bình cao nhất là 69,45% trên 05 lớp chủ đề, thể hiện tính ổn định và khả năng dự đoán tốt trên nhiều lớp. Mặc dù không đạt điểm cao nhất ở từng lớp riêng lẻ, NCA-kNN vẫn cho kết quả tổng thể vượt trội so với các thuật toán khác.
Hiệu suất của mô hình SVM với kernel RBF: SVM sử dụng kernel RBF đạt điểm Precision cao nhất trong 2 lớp chủ đề và điểm trung bình Precision đạt 69,29%, đứng thứ hai sau NCA-kNN. Điều này cho thấy khả năng xử lý phi tuyến tính của kernel RBF giúp cải thiện phân loại hình ảnh.
Kết quả của thuật toán KLMNN-kNN: Thuật toán KLMNN-kNN với k=3 và k=5 đạt điểm Precision trung bình lần lượt là 69,16% và 69,03%, đứng thứ ba và thứ tư trong các thuật toán được so sánh. KLMNN-kNN cũng đạt điểm Precision cao nhất ở một số lớp chủ đề riêng biệt.
So sánh thời gian và độ chính xác: Thuật toán LMNN có độ ổn định cao nhưng thời gian huấn luyện lâu hơn so với NCA và KLMNN. SVM với kernel tuyến tính có độ chính xác thấp hơn so với kernel RBF và các thuật toán học phép đo khoảng cách kết hợp kNN.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt hiệu suất giữa các thuật toán là do khả năng học và điều chỉnh phép đo khoảng cách phù hợp với đặc điểm dữ liệu. NCA tối ưu trực tiếp xác suất phân loại kNN, giúp cải thiện đáng kể độ chính xác. KLMNN tận dụng kernel để học trong không gian phi tuyến, phù hợp với dữ liệu hình ảnh phức tạp. SVM với kernel RBF cũng thể hiện ưu thế trong việc xử lý dữ liệu phi tuyến tính.

So với các nghiên cứu trước đây, kết quả này phù hợp với báo cáo của các nhóm tác giả quốc tế về ưu điểm của NCA và KLMNN trong học phép đo khoảng cách. Việc kết hợp ma trận học phép đo khoảng cách với SVM làm tăng khả năng phân loại, đồng thời giảm thiểu sai số phân lớp.

Dữ liệu có thể được trình bày qua biểu đồ so sánh Precision và Accuracy giữa các thuật toán trên từng lớp chủ đề, cũng như bảng tổng hợp các chỉ số Precision, Recall, F1-score và Accuracy để minh họa rõ ràng hiệu quả từng phương pháp.

Đề xuất và khuyến nghị

Áp dụng thuật toán NCA-kNN trong phân loại hình ảnh: Khuyến nghị sử dụng NCA-kNN với k=7 làm phương pháp chính để phân loại hình ảnh trong các hệ thống tìm kiếm và quản lý dữ liệu hình ảnh nhằm nâng cao độ chính xác phân loại. Thời gian triển khai dự kiến trong 3-6 tháng, do các tổ chức phát triển phần mềm và nghiên cứu AI thực hiện.
Kết hợp ma trận học phép đo khoảng cách với SVM kernel RBF: Đề xuất xây dựng mô hình phân loại lai sử dụng ma trận học phép đo khoảng cách từ NCA hoặc KLMNN làm kernel cho SVM để cải thiện hiệu suất phân loại. Giải pháp này phù hợp cho các ứng dụng yêu cầu độ chính xác cao và có thể triển khai trong vòng 6 tháng.
Tối ưu hóa quy trình thu thập và gán nhãn dữ liệu: Để nâng cao chất lượng dữ liệu đầu vào, cần phát triển công cụ tự động lọc và gán nhãn hình ảnh dựa trên nội dung và chú thích văn bản, giảm thiểu công sức thủ công. Thời gian phát triển dự kiến 4-5 tháng, do các nhóm nghiên cứu và phát triển phần mềm thực hiện.
Mở rộng phạm vi nghiên cứu và ứng dụng: Khuyến nghị áp dụng các phương pháp học phép đo khoảng cách và mô hình máy học đã nghiên cứu cho các lĩnh vực khác như nhận dạng khuôn mặt, phân loại y tế hình ảnh, và phân tích video. Thời gian nghiên cứu và thử nghiệm mở rộng khoảng 1 năm, do các viện nghiên cứu và doanh nghiệp công nghệ thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ Nhân tạo: Luận văn cung cấp kiến thức chuyên sâu về học phép đo khoảng cách và ứng dụng trong phân loại hình ảnh, hỗ trợ phát triển các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống tìm kiếm và quản lý hình ảnh: Các giải pháp và kết quả nghiên cứu giúp cải thiện độ chính xác và hiệu quả của các công cụ tìm kiếm hình ảnh dựa trên nội dung.
Doanh nghiệp công nghệ và startup trong lĩnh vực AI và thị giác máy tính: Tham khảo để ứng dụng các thuật toán học máy tiên tiến vào sản phẩm, nâng cao chất lượng dịch vụ phân loại và nhận dạng hình ảnh.
Cơ quan quản lý dữ liệu văn hóa và di sản số: Hỗ trợ trong việc xây dựng hệ thống phân loại và lưu trữ hình ảnh văn hóa phi vật thể, góp phần bảo tồn và phát huy giá trị di sản.

Câu hỏi thường gặp

Phương pháp học phép đo khoảng cách nào hiệu quả nhất trong phân loại hình ảnh?
Theo kết quả nghiên cứu, thuật toán NCA-kNN với k=7 cho độ chính xác phân loại cao nhất và ổn định trên nhiều lớp chủ đề, vượt trội hơn so với LMNN và KLMNN.
Tại sao kết hợp ma trận học phép đo khoảng cách với SVM lại cải thiện hiệu quả phân loại?
Việc sử dụng ma trận học phép đo khoảng cách làm kernel cho SVM giúp mô hình tận dụng được đặc trưng phi tuyến và cấu trúc dữ liệu, từ đó nâng cao khả năng phân biệt các lớp hình ảnh phức tạp.
Làm thế nào để thu thập dữ liệu hình ảnh chất lượng cho nghiên cứu?
Sử dụng công cụ Google Image Search kết hợp với lọc thủ công dựa trên nội dung hình ảnh và chú thích văn bản giúp thu thập dữ liệu có độ chính xác cao, phục vụ cho việc huấn luyện và đánh giá mô hình.
Các tiêu chí nào được sử dụng để đánh giá hiệu quả phân loại?
Các tiêu chí chính bao gồm Precision, Recall, F1-score và Accuracy, trong đó Precision được chú trọng để đánh giá độ chính xác của phân loại trên từng lớp chủ đề.
Có thể áp dụng các phương pháp này cho các lĩnh vực khác ngoài văn hóa phi vật thể không?
Có, các thuật toán học phép đo khoảng cách và mô hình máy học được nghiên cứu có thể áp dụng rộng rãi trong các lĩnh vực như y tế, an ninh, nhận dạng khuôn mặt và phân tích video.

Kết luận

Luận văn đã thu thập và xử lý thành công tập dữ liệu hình ảnh gồm 05 chủ đề văn hóa phi vật thể Việt Nam với số lượng lớn và độ chính xác cao.
Các thuật toán học phép đo khoảng cách NCA, KLMNN, LMNN kết hợp với kNN được đánh giá và so sánh hiệu quả phân loại trên tập dữ liệu thực nghiệm.
Thuật toán NCA-kNN (k=7) đạt điểm Precision trung bình cao nhất, thể hiện tính ổn định và hiệu quả vượt trội trong phân loại hình ảnh.
Việc kết hợp ma trận học phép đo khoảng cách với mô hình SVM kernel RBF giúp cải thiện đáng kể độ chính xác phân loại so với các phương pháp truyền thống.
Đề xuất các giải pháp ứng dụng và mở rộng nghiên cứu nhằm nâng cao hiệu quả phân loại hình ảnh trong các hệ thống tìm kiếm và quản lý dữ liệu đa phương tiện.

Tiếp theo, nghiên cứu sẽ tập trung vào phát triển công cụ tự động thu thập và gán nhãn dữ liệu, đồng thời mở rộng phạm vi ứng dụng sang các lĩnh vực khác. Độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển các phương pháp trong luận văn để nâng cao hiệu quả phân loại hình ảnh trong thực tế.

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu. Giới thiệu tổng quan lý do chọn đề tài, mục tiêu nghiên cứu, đối tượng nghiên cứu, phương pháp nghiên cứu, phạm vị nghiên cứu và bố cục của luận văn. Chương 2: Tổng quan tài liệu. Luận văn sẽ giới thiệu các nghiên cứu liên quan đến đề tài trước đó.

Các cơ sở lý thuyết về: các hàm tính khoảng cách, các thuật toán học phép đo khoảng cách, khung phân loại hàm nhân cho việc học phép đo khoảng cách, mô hình máy học Vector hỗ trợ SVM kết hợp với khung phân loại hàm nhân (kernel). Chương 3: Phương pháp nghiên cứu. Trình bày cách thu thập và xử lý dữ liệu, các thiết bị trong nghiên cứu, các bước thực hiện, cách xây dựng mô hình, đánh giá mô hình, phương pháp thực nghiệm và cách đánh giá kết quả thực nghiệm được áp dụng trong đề tài. Chương 4: Kết quả và thảo luận.

Chương 5: Kết luận và đề xuất.1 Nghiên cứu liên quan 2.1 Thu hoạch ảnh từ Web Việc tạo ra các cơ sở dữ liệu chứa một lượng lớn hình ảnh và với độ chính xác cao vẫn là một công việc thủ công khó khăn. Các công cụ tìm kiếm hình ảnh đã cung cấp cho chúng ta một cách thực hiện dễ dàng, nhưng hiện tại bị giới hạn bởi độ chính xác kém của các hình ảnh được trả lại và các hạn chế đối với tổng số hình ảnh được cung cấp. ❖ Tại Hội nghị Hiệp hội Máy tính IEEE về Nhận dạng Mẫu và Thị giác Máy tính, năm 2006. Bài báo "Động vật trên Web" của nhóm tác giả Tamara L.

Berg và David A. Forsyth [1] đã đề xuất một phương pháp tìm kiếm cho ra hàng ngàn ảnh các lớp động vật có độ chính xác cao từ Web. Phương pháp của họ được tiến hành theo hai giai đoạn: Đầu tiên, các chủ đề được phát hiện dựa trên các từ xuất hiện trên các Trang web bằng cách sử dụng Phân bổ Dirichlet tiềm ẩn (LDA) trên văn bản. Cụm hình ảnh cho mỗi chủ đề được hình thành bởi những hình ảnh chọn nơi lân cận văn bản là tốp xếp đầu tiên theo chủ đề này.

Sau đó, bằng cách thủ công (con người) mỗi lớp được phân vùng thành các cụm tích cực và tiêu cực. Thứ hai, hình ảnh và văn bản liên quan từ các cụm này được sử dụng làm mẫu để huấn luyện bộ phân loại dựa trên biểu quyết về hình ảnh (hình dạng, màu sắc và kết cấu) và các tính năng văn bản. Bộ phân loại sau đó được sử dụng để chạy lại tập dữ liệu đã tải xuống. Việc ghi nhãn bởi người dùng của các cụm tránh được vấn đề về đa năng, cũng như cung cấp dữ liệu huấn luyện tốt cho trình phân loại.

Phương pháp này thành công trong việc đạt được năng suất cao hơn, nhưng với chi phí can thiệp thủ công. ❖ Trong bài báo "Thu thập cơ sở dữ liệu ảnh từ Web" của nhóm tác giả Florian Schroff, Antonio Criminisi, and Andrew Zisserman [2] tại Hội nghị quốc tế lần thứ 11 IEEE về thị giác máy tính năm 2007, đã đề xuất ra một phương pháp là tự động tạo ra một số lượng lớn hình ảnh cho một lớp đối tượng được chỉ định. Bằng cách sử dụng WebSearch và Google Image Search với hướng tiếp cận đa phương thức sử dụng cả văn bản, siêu dữ liệu và các tính năng trực quan được sử dụng để thu thập nhiều hình ảnh chất lượng cao từ Web. Các bước thực hiện của phương pháp này như sau:  Bước thứ nhất, tải hình ảnh và dữ liệu văn bản liên quan của hình ảnh cho một lớp đối tượng được chỉ định bằng cách sử dụng WebSearch & GoogleImages.

17  Bước thứ hai, loại bỏ những biểu tượng, hình vẽ trừ tượng của hình ảnh không liên quan.  Bước thứ ba, xếp thứ hạng của những hình ảnh dựa trên thuộc tính văn bản của hình ảnh đó bằng việc sử dụng phân loại xác suất Bayes.  Bước thứ tư, huấn luyện phân loại trực quan SVM trên những hình ảnh đã được xếp thứ hạng dựa vào thuộc tính văn bản.  Bước thứ năm, sắp xếp lại thứ hạng của tất cả hình ảnh tải xuống (bước 1) sử dụng công cụ phân loại trực quan đánh giá.1 Mô tả lại sơ đồ hệ thống của nhóm tác giả Florian Schroff, Antonio Criminisi, and Andrew Zisserman Với phương pháp này, nhóm tác giả đã lấy được một số lượng lớn các hình ảnh của một lớp học đặc biệt tự động, đạt được độ chính xác cao hơn so với công cụ tìm kiếm Google Image Search.

Trong phương pháp này, có một số lớp hình ảnh khi phân loại cho hiệu suất cao như: đồng hồ đeo tay, hươu cao cổ bởi vì sự nhiễu loạn thông tin miêu tả về văn bản các hình này thấp (đa ngữ nghĩa văn bản). Một số lớp hình ảnh cho hiệu suất phân loại thấp như: máy bay, lạc đà, hổ. Nguyên nhân là thiếu tính phân biệt ngữ nghĩa của truy vấn văn bản đối với hình ảnh cần tìm kiếm (ví dụ: đối với máy bay, có hình ảnh của thực phẩm máy bay, máy bay đồ chơi, máy bay giấy, nội thất máy bay…).2 Khảo sát và nghiên cứu thực nghiệm về các phương pháp học phép đo khoảng cách 18 ❖ Vào năm 2018, Dewei Li và Yingjie Tian, đã “Khảo sát và nghiên cứu thực nghiệm về phương pháp học phép đo khoảng cách” [3]cách toàn diện để so sánh tất cả các phương pháp được đề xuất từ năm 2003 đến 2017.Khám phá khả năng cải thiện độ chính xác, mối quan hệ giữa thay đổi khoảng cách và độ chính xác, mối quan hệ giữa độ chính xác và kích thước lân cận kNN. Trong bài báo này, có tất cả 18 phương pháp được đánh giá và trình bày phân loại dựa trên đặc điểm riêng biệt nhất của mỗi phương pháp.

Tất cả các phương pháp được phân loại thành năm lớp, bao gồm: chi phí theo cặp, khung xác suất, phương pháp tiếp cận tăng, các biến thể có lợi và các ứng dụng cụ thể. Tất cả các kết quả thử nghiệm xác minh rằng học phép đo khoảng cách phi tuyến có lợi thế lớn hơn so với học phép đo khoảng cách tuyến tính trong việc trích xuất phép đo hữu ích. Tuy nhiên, học phép đo khoảng cách phi tuyến thường cần nhiều thời gian hơn để có được thông tin phụ thuộc dữ liệu. Nhóm tác giả xác nhận rằng không có một phương pháp nào có thể thực hiện tốt nhất trên tất cả các bộ dữ liệu, nhưng kết quả thử nghiệm cung cấp bằng chứng cho thấy một số phương pháp có khả năng cao trong việc học các phép đo thông tin.

Một số gợi ý về việc lựa chọn phương pháp học theo phép đo: (1) Ba phương pháp BoostMetric,LMNNvà SERAPH được đề xuất trước tiên vì điểm số thống kê (độ chính xác và đánh giá phân loại), với thời gian tính toán tương đối thấp hơn. (2) GBLMNN và MCML được khuyến nghị khi tìm kiếm chính xác và đánh giá phân loại cao với thời gian tính toán là yếu tố phụ. Nhưng đối với dữ liệu phi cấu trúc, chẳng hạn như bộ dữ liệu hình ảnh, GBLMNN không phải là một lựa chọn tốt; (3) ITML và DML-eig là hai lựa chọn tốt khi học phép đo khoảng cách cho bộ dữ liệu quy mô lớn do độ phức tạp tính toán thấp hơn nhiều. ❖ Tháng 12 năm 2018, nhóm tác giả gồm: Juan Lúi Suárez Díaz, Salvador Garcia, Francisco Herrera thuộc DaSCI Viện nghiên cứu Andalusian về Khoa học Dữ liệu và Trí tuệ Tính Toán Đại học Granada, Tây Ban Nha, có đăng bài "Hướng dẫn về Học phép đo khoảng cách từ xa: Cơ sở Toán học, Thuật toán, Phân tích Thực nghiệm, Triển vọng và Thách thức (với Phụ lục về Cơ sở Toán học và Giải thích Thuật toán chi tiết)" [4] trên Computer Sciences.

Bài đăng đầu tiên vào ngày 14 tháng 12 năm 2018, lần chỉnh sửa cuối cùng là ngày 19 tháng 08 năm 2020. Trong bài báo này, nhóm tác giả đã mô tả vấn đề học phép đo khoảng cách và các cơ sở toán học thành ba khối chính: phân tích lồi, phân tích ma trận và lý thuyết thông tin. Các thuật toán được nhóm tác giả nghiên cứu, đánh giá thử nghiệm toàn diện để phân tích khả năng của chúng trong các bài toán phân loại tiêu chuẩn, đặc biệt là xem xét giảm kích thước và các hàm nhân (kernezation). 19 Trong quá trình thực hiện, nhóm tác giả đã thu thập 34 bộ dữ liệu để thử nghiệm.

Tất cả các tập dữ liệu này là số, không chứa các giá trị bị thiếu và được định hướng cho các vấn đề phân loại tiêu chuẩn. Ngoài ra, mặc dù một số thuật toán học phép đo khoảng cách có thể xử lý tốt với những tập dữ liệu lớn, nhưng cũng có các thuật toán khác không thể xử lý tập dữ liệu quá lớn. Vì vậy đối với các tập hợp có số lượng mẫu cao, một tập hợp con có kích thước mà tất cả các thuật toán có thể giải quyết, giữ nguyên phân bố lớp, sẽ được chọn. Sau đây là bảng mô tả chi tiết 34 bộ dữ liệu dùng để thực nghiệm của nhóm tác giả: Bảng 2 Mô tả 34 bộ dữ liệu thực nghiệm của nhóm tác giả Juan Lúi Suárez Díaz, Salvador Garcia, Francisco Herrera 20 (trích dẫn từ: https://jlsuarezdiaz.io/software/pyDML/stats/#) Trên cơ sở 34 bộ dữ liệu đã thu thập, nhóm tác giả đã thực nghiệm trên 19 thuật toán học phép đo khoảng cách.

Các thuật toán sẽ được đánh giá với các bộ phân loại kNN (với k=3, 5, 7). Cụ thể các thuật toán thực nghiệm như sau: ● Principal Component Analysis (PCA) ● Linear Discriminant Analysis (LDA) ● Average Neighborhood Margin Maximization (ANMM) ● Local Linear Discriminant Analysis (LLDA) ● Large Margin Nearest Neighbors (LMNN) ● Neighborhood Component Analysis (NCA) ● Nearest Class Mean Metric Learning (NCMML) ● Nearest Class with Multiple Centroids (NCMC) ● Information Theoretic Metric Learning (ITML) ● Distance Metric Learning through the Maximization of the Jeffrey Divergence (DMLMJ) ● Maximally Collapsing Metric Learning (MCML) ● Learning with Side Information (LSI) ● Distance Metric Learning with Eigenvalue Optimization (DML-eig) ● Logistic Discriminant Metric Learning (LDML) ● Kernel Large Margin Nearest Neighbors (KLMNN) ● Kernel Average Neighborhood Margin Maximization (KANMM) ● Kernel Distance Metric Learning through the Maximization of the Jeffrey divergence (KDMLMJ) ● Kernel Discriminant Analysis (KDA) ● Kernel Local Linear Discriminant Analysis (KLLDA) 21 Từ kết quả thực nghiệm, nhóm tác giả đã có đánh giá rằng: ● NCA đã thu được kết quả tốt nhất. Điều này một phần là do các thuật toán đã được đánh giá với các bộ phân loại láng giềng gần nhất và NCA được thiết kế đặc biệt để cải thiện bộ phân loại này. NCA đứng đầu trong hầu hết các thực nghiệm đối với tập huấn luyện, cho thấy khả năng phù hợp với dữ liệu của nó, do đó cũng chứng tỏ khả năng tổng quát hóa tuyệt vời của nó.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu cải thiện độ chính xác trong phân loại hình ảnh bằng mô hình máy học" tập trung vào việc nâng cao độ chính xác trong các hệ thống phân loại hình ảnh thông qua các phương pháp máy học tiên tiến. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về các kỹ thuật hiện có mà còn đề xuất các cải tiến có thể áp dụng để tối ưu hóa hiệu suất của mô hình. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng các phương pháp này, bao gồm khả năng phân loại chính xác hơn, tiết kiệm thời gian và nguồn lực trong quá trình xử lý hình ảnh.

Để mở rộng kiến thức của bạn về lĩnh vực này, bạn có thể tham khảo thêm tài liệu Khóa luận tốt nghiệp khoa học máy tính tìm hiểu và xây dựng hệ thống phân loại hình ảnh văn bản, nơi bạn sẽ tìm hiểu về cách xây dựng hệ thống phân loại hình ảnh văn bản. Ngoài ra, tài liệu Khóa luận tốt nghiệp khoa học máy tính phân loại đa tầng cho sản phẩm thời trang sẽ cung cấp cho bạn cái nhìn về phân loại hình ảnh trong lĩnh vực thời trang, một ứng dụng thú vị của công nghệ này. Những tài liệu này sẽ giúp bạn có cái nhìn toàn diện hơn về các ứng dụng của máy học trong phân loại hình ảnh.

#thuật toán học máy

#Văn hóa phi vật thể Việt Nam

#Mô hình máy học SVM

#cải thiện độ chính xác phân loại hình ảnh

#phương pháp tính khoảng cách

#thu thập dữ liệu hình ảnh

Chủ đề

so sánh các thuật toán học máy

Nghiên cứu về phân loại hình ảnh

Ứng dụng mô hình máy học trong thực tiễn

Phương pháp thu thập dữ liệu hình ảnh