Luận văn: Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

62
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan luận văn tra cứu ảnh dựa trên phân đoạn ảnh

Trong kỷ nguyên số, khối lượng hình ảnh khổng lồ đặt ra thách thức lớn cho việc tìm kiếm và quản lý. Các hệ thống truy xuất ảnh theo nội dung (CBIR - Content-Based Image Retrieval) ra đời như một giải pháp tất yếu, thay thế phương pháp tìm kiếm dựa trên văn bản truyền thống. Một luận văn ngành khoa học máy tính về chủ đề này, cụ thể là "Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh" của tác giả Lê Mạnh Hiệp, đã đi sâu vào việc cải thiện hiệu quả của hệ thống CBIR. Cốt lõi của phương pháp này là kỹ thuật phân đoạn ảnh (image segmentation), một bước tiền xử lý quan trọng trong lĩnh vực xử lý ảnh sốthị giác máy tính. Bằng cách chia một ảnh thành nhiều vùng (segment) có ý nghĩa, hệ thống có thể trích xuất đặc trưng ảnh một cách chính xác hơn, từ đó thu hẹp khoảng cách ngữ nghĩa giữa truy vấn của người dùng và kết quả trả về. Bài viết này sẽ phân tích chi tiết các nội dung cốt lõi của luận văn, từ những khái niệm cơ bản, các thuật toán được áp dụng, đến việc xây dựng và đánh giá hệ thống thực nghiệm.

1.1. Bối cảnh ra đời của hệ thống CBIR và vai trò then chốt

Sự phát triển của Internet và các thiết bị lưu trữ đã dẫn đến sự bùng nổ của các cơ sở dữ liệu ảnh kỹ thuật số. Việc tìm kiếm hình ảnh dựa trên từ khóa (text-based) ngày càng bộc lộ nhiều hạn chế, như sự phụ thuộc vào mô tả thủ công, tính chủ quan và không thể diễn tả hết các đặc trưng thị giác phức tạp. Hệ thống CBIR (Content-Based Image Retrieval) giải quyết vấn đề này bằng cách phân tích trực tiếp nội dung của ảnh, bao gồm màu sắc, kết cấu và hình dạng. Thay vì tìm kiếm theo siêu dữ liệu, CBIR cho phép người dùng truy vấn bằng một hình ảnh mẫu, và hệ thống sẽ trả về những hình ảnh tương tự nhất trong cơ sở dữ liệu ảnh. Đây là một bước tiến quan trọng trong lĩnh vực khoa học máy tính, mở ra nhiều ứng dụng thực tiễn từ y tế, an ninh đến thương mại điện tử.

1.2. Phân đoạn ảnh Nền tảng của việc trích xuất đặc trưng ảnh

Để một hệ thống CBIR hoạt động hiệu quả, bước trích xuất đặc trưng ảnh là cực kỳ quan trọng. Tuy nhiên, việc trích xuất đặc trưng từ toàn bộ ảnh có thể bị nhiễu bởi hậu cảnh và các đối tượng không liên quan. Phân đoạn ảnh, hay còn gọi là phân vùng ảnh, là quá trình phân chia một ảnh kỹ thuật số thành nhiều vùng hoặc đối tượng riêng biệt. Mục tiêu là đơn giản hóa biểu diễn của ảnh, giúp việc phân tích trở nên dễ dàng và có ý nghĩa hơn. Mỗi vùng được phân đoạn sẽ có những đặc tính tương đồng về màu sắc, cường độ hoặc kết cấu. Từ các vùng này, hệ thống có thể tạo ra các vector đặc trưng chính xác hơn, mô tả đúng bản chất của từng đối tượng trong ảnh. Quá trình này là nền tảng cho việc tính toán độ đo tương đồng giữa các hình ảnh một cách hiệu quả.

II. Thách thức chính trong tra cứu ảnh và xử lý ảnh số

Mặc dù hệ thống truy xuất ảnh theo nội dung (CBIR) mang lại nhiều ưu điểm, việc triển khai một hệ thống hiệu quả vẫn đối mặt với không ít thách thức. Vấn đề lớn nhất là "khoảng cách ngữ nghĩa" (semantic gap) - sự khác biệt giữa cách con người cảm nhận nội dung ảnh và cách máy tính biểu diễn nó thông qua các đặc trưng cấp thấp. Luận văn đã chỉ ra rằng việc lựa chọn phương pháp phân đoạn ảnh phù hợp là yếu tố quyết định để giảm thiểu khoảng cách này. Các thuật toán xử lý ảnh số truyền thống có thể gặp khó khăn với các hình ảnh có bối cảnh phức tạp, ánh sáng thay đổi hoặc các đối tượng bị che khuất một phần. Việc chọn đúng thuật toán, chẳng hạn như thuật toán K-means clustering hay các phương pháp dựa trên tách/ghép vùng, và tinh chỉnh các tham số của chúng là một bài toán không hề đơn giản, đòi hỏi sự nghiên cứu và thực nghiệm kỹ lưỡng. Đây cũng là một nội dung quan trọng khi sinh viên cần bảo vệ luận văn thạc sĩ về lĩnh vực này.

2.1. Vấn đề khoảng cách ngữ nghĩa trong các hệ thống CBIR

Khoảng cách ngữ nghĩa là thách thức cốt lõi trong thị giác máy tính và CBIR. Nó mô tả sự khác biệt giữa các đặc trưng thị giác cấp thấp (màu sắc, kết cấu) mà máy tính trích xuất và các khái niệm ngữ nghĩa cấp cao (con mèo, ngôi nhà) mà con người hiểu. Ví dụ, một ảnh có bãi cát và một ảnh có bức tường màu vàng có thể có lược đồ màu tương tự, nhưng ngữ nghĩa hoàn toàn khác nhau. Phân đoạn ảnh giúp giảm bớt vấn đề này bằng cách cô lập các đối tượng. Khi đó, việc trích xuất đặc trưng ảnh sẽ tập trung vào đối tượng chính thay vì toàn bộ ảnh, giúp vector đặc trưng phản ánh đúng hơn nội dung ngữ nghĩa, từ đó cải thiện độ đo tương đồng và chất lượng tìm kiếm.

2.2. Khó khăn khi lựa chọn thuật toán phân vùng ảnh phù hợp

Không có một thuật toán phân vùng ảnh nào là hoàn hảo cho mọi loại ảnh. Các phương pháp dựa trên biên (edge-based) có thể hoạt động tốt với các đối tượng có ranh giới rõ ràng nhưng lại thất bại với ảnh có kết cấu phức tạp. Ngược lại, các phương pháp dựa trên vùng (region-based) như tách-ghép vùng có thể xử lý tốt kết cấu nhưng lại dễ làm mất các chi tiết nhỏ. Luận văn đã so sánh hiệu quả của các thuật toán khác nhau, bao gồm cả thuật toán K-means clustering và thuật toán CBC (Color based Clustering). Việc lựa chọn thuật toán phụ thuộc vào đặc điểm của cơ sở dữ liệu ảnh và yêu cầu cụ thể của ứng dụng, đòi hỏi người nghiên cứu phải có sự phân tích và đánh giá sâu sắc.

III. Phương pháp phân đoạn ảnh theo mô hình tách và ghép vùng

Một trong những hướng tiếp cận chính được trình bày trong luận văn là phân đoạn ảnh theo mô hình tách và ghép vùng. Đây là một kỹ thuật mạnh mẽ trong xử lý ảnh số, cho phép nhóm các pixel có đặc tính tương tự thành các vùng đồng nhất. Phương pháp ghép vùng (region merging), điển hình là các thuật toán phân cụm phân cấp (Hierarchical Clustering), bắt đầu bằng việc coi mỗi pixel là một vùng riêng lẻ, sau đó hợp nhất các vùng lân cận tương tự nhau một cách lặp đi lặp lại. Ngược lại, phương pháp tách vùng (region splitting) bắt đầu với toàn bộ ảnh như một vùng duy nhất và liên tục chia nó thành các vùng nhỏ hơn cho đến khi mỗi vùng đạt được một mức độ đồng nhất nhất định. Luận văn đã đi sâu phân tích và cài đặt thử nghiệm các thuật toán cụ thể như CBC (Color based Clustering) dựa trên kỹ thuật ghép vùng và CSI dựa trên kỹ thuật tách vùng, nhằm tìm ra giải pháp tối ưu cho bài toán truy xuất ảnh theo nội dung.

3.1. Kỹ thuật ghép vùng với thuật toán CBC và single linkage

Ghép vùng là một phương pháp bottom-up. Thuật toán phân cụm phân cấp liên kết đơn (single-linkage) là một ví dụ điển hình, nơi sự tương đồng giữa hai cụm được xác định bởi cặp thành viên gần nhất của chúng. Dựa trên ý tưởng này, luận văn đề cập đến thuật toán CBC (Color based Clustering), một biến thể hiệu quả sử dụng cây bao trùm tối thiểu (Minimum Spanning Tree). Toàn bộ ảnh được biểu diễn như một đồ thị, trong đó các pixel là đỉnh và trọng số cạnh là khoảng cách màu sắc. Thuật toán sẽ hợp nhất các vùng pixel liên thông có độ đo tương đồng màu lớn hơn một ngưỡng cho trước. Các vùng nhỏ được coi là nhiễu và sáp nhập vào vùng lân cận gần nhất. Ưu điểm của phương pháp này là tính tự động và tốc độ xử lý nhanh, rất phù hợp cho các hệ thống CBIR quy mô lớn.

3.2. Kỹ thuật tách vùng dựa trên tiêu chí đồng nhất CSI

Ngược với ghép vùng, tách vùng là một phương pháp top-down. Luận văn giới thiệu thuật toán CSI để tách ảnh thành các vùng thuần nhất. Thuật toán bắt đầu bằng việc coi toàn bộ ảnh là một vùng. Sau đó, nó sẽ tính toán hàm chi phí (Cost function) để quyết định xem có nên phân hoạch vùng đó hay không, và nếu có thì nên phân hoạch theo chiều ngang hay chiều dọc. Điều kiện tách dựa trên độ lệch giữa các mẫu quan sát và giá trị kỳ vọng. Quá trình này lặp lại một cách đệ quy cho đến khi tất cả các vùng đều đạt được độ thuần nhất hoặc có kích thước nhỏ hơn một ngưỡng cho phép. Kết quả của thuật toán này là một tập hợp các vùng hình chữ nhật mô tả thông tin không gian của từng màu trong ảnh, tạo ra một vector đặc trưng phong phú cho việc truy xuất ảnh theo nội dung.

IV. Cách dùng thuật toán K means clustering để phân đoạn ảnh

Bên cạnh các mô hình tách-ghép vùng, thuật toán K-means clustering là một phương pháp phân đoạn ảnh dựa trên phân cụm cực kỳ phổ biến và hiệu quả, đặc biệt trong việc phân đoạn màu. Đây là một trong những nội dung trọng tâm được so sánh và đánh giá trong luận văn. Nguyên tắc của K-means là phân chia một tập hợp gồm N điểm dữ liệu (pixel) vào K cụm (cluster) sao cho mỗi điểm dữ liệu thuộc về cụm có tâm (mean) gần nhất. Trong bối cảnh xử lý ảnh số, các điểm dữ liệu chính là các pixel, và đặc trưng được sử dụng để phân cụm thường là giá trị màu trong một không gian màu phù hợp như Lab*. Bằng cách áp dụng K-means, một hình ảnh có thể được phân chia thành K vùng màu chính. Quá trình này giúp đơn giản hóa hình ảnh, loại bỏ các chi tiết màu không quan trọng và làm nổi bật các đối tượng chính, từ đó hỗ trợ hiệu quả cho việc trích xuất đặc trưng ảnh và xây dựng cơ sở dữ liệu ảnh cho hệ thống CBIR.

4.1. Quy trình phân đoạn ảnh màu bằng thuật toán K means

Quy trình thực hiện phân đoạn ảnh bằng K-means thường bao gồm các bước sau. Đầu tiên, chuyển đổi ảnh từ không gian màu RGB sang một không gian màu đồng nhất hơn về mặt tri giác như Lab*. Không gian Lab* tách biệt độ sáng (L) khỏi các thành phần màu (a, b), giúp cho khoảng cách Euclid giữa các màu phản ánh đúng hơn sự khác biệt mà mắt người cảm nhận. Tiếp theo, áp dụng thuật toán K-means clustering trên các giá trị màu (a*, b*). Thuật toán sẽ nhóm các pixel có màu tương tự vào cùng một cụm. Cuối cùng, gán nhãn cho mỗi pixel trong ảnh dựa trên chỉ số cụm mà nó thuộc về. Kết quả là một ảnh đã được phân đoạn, trong đó mỗi vùng tương ứng với một màu chủ đạo. Đây là bước tiền xử lý quan trọng trước khi tạo vector đặc trưng.

4.2. So sánh hiệu quả giữa K means và phân cụm phân cấp

Luận văn đã tiến hành so sánh giữa K-means và các phương pháp phân cụm phân cấp (như CBC). Thuật toán K-means clustering có ưu điểm về tốc độ với độ phức tạp thời gian tuyến tính (O(n)), phù hợp cho các cơ sở dữ liệu ảnh lớn. Tuy nhiên, nó yêu cầu người dùng phải xác định trước số lượng cụm (K) và kết quả có thể thay đổi giữa các lần chạy do việc khởi tạo tâm cụm ngẫu nhiên. Ngược lại, phân cụm phân cấp không yêu cầu xác định trước số cụm và cho kết quả nhất quán. Tuy nhiên, độ phức tạp thời gian của nó cao hơn (thường là O(n²)), khiến nó kém hiệu quả hơn với dữ liệu lớn. Việc lựa chọn giữa hai phương pháp này là một sự đánh đổi giữa tốc độ, khả năng lặp lại và yêu cầu về kiến thức tiên nghiệm của bài toán.

V. Kết quả ứng dụng và đánh giá hệ thống tra cứu ảnh

Chương cuối của luận văn tập trung vào việc xây dựng ứng dụng thực nghiệm và đánh giá hiệu quả của các phương pháp phân đoạn ảnh đã nghiên cứu. Một hệ thống hoàn chỉnh đã được phát triển bằng ngôn ngữ C# trên nền tảng .NET, cho phép người dùng tải ảnh truy vấn, lựa chọn thuật toán (CBC hoặc K-means), và thực hiện tìm kiếm trong một cơ sở dữ liệu ảnh được xây dựng sẵn. Giao diện trực quan giúp người dùng dễ dàng quan sát kết quả phân đoạn trước khi thực hiện truy vấn. Việc đánh giá hiệu quả hệ thống được thực hiện bằng cách so sánh kết quả trả về của các phương pháp phân đoạn khác nhau trên cùng một tập ảnh thử nghiệm. Kết quả này không chỉ chứng minh tính khả thi của mô hình đề xuất mà còn cung cấp những hiểu biết sâu sắc về ưu và nhược điểm của từng thuật toán trong thực tế, là một phần không thể thiếu khi bảo vệ luận văn thạc sĩ.

5.1. Xây dựng chương trình thử nghiệm và cơ sở dữ liệu ảnh

Ứng dụng được xây dựng có hai chức năng chính: phân đoạn ảnhtruy xuất ảnh theo nội dung. Người dùng có thể chọn một ảnh, áp dụng thuật toán CBC hoặc K-means với các ngưỡng tùy chỉnh để tạo ra các vùng ảnh. Sau khi phân đoạn, thông tin về các vùng này, bao gồm cả vector đặc trưng được trích xuất, sẽ được lưu trữ trong cơ sở dữ liệu ảnh. Hệ thống sử dụng SQL Server để quản lý dữ liệu. Kiến trúc này cho phép hệ thống tính toán độ đo tương đồng một cách nhanh chóng giữa ảnh truy vấn và các ảnh trong cơ sở dữ liệu, từ đó trả về danh sách các hình ảnh phù hợp nhất.

5.2. Đánh giá hiệu quả giữa các phương pháp phân đoạn khác nhau

Để đánh giá khách quan, luận văn đã sử dụng cùng một ảnh mẫu và áp dụng cả hai phương pháp phân đoạn ảnh là CBC và K-means. Kết quả trực quan cho thấy mỗi phương pháp có những điểm mạnh riêng. Ví dụ, CBC có thể tạo ra các vùng có hình dạng tự nhiên hơn, trong khi thuật toán K-means clustering lại rất hiệu quả trong việc nhóm các màu sắc chủ đạo. Việc đánh giá hiệu quả của hệ thống CBIR dựa trên các kết quả phân đoạn này cho thấy, việc lựa chọn phương pháp phù hợp có thể cải thiện đáng kể độ chính xác của kết quả tìm kiếm. Đây là minh chứng rõ ràng cho tầm quan trọng của bước phân vùng ảnh trong toàn bộ quy trình.

5.3. Ý nghĩa khoa học và thực tiễn của luận văn thạc sĩ

Công trình nghiên cứu này không chỉ là một bài tập học thuật mà còn mang ý nghĩa khoa học và thực tiễn sâu sắc. Về mặt khoa học, nó đóng góp vào lĩnh vực xử lý ảnh sốthị giác máy tính bằng cách phân tích và so sánh các thuật toán phân đoạn ảnh trong bối cảnh cụ thể là truy xuất ảnh theo nội dung. Về mặt thực tiễn, hệ thống được xây dựng có thể làm nền tảng để phát triển các ứng dụng thương mại trong nhiều lĩnh vực như tìm kiếm sản phẩm bằng hình ảnh, nhận dạng đối tượng trong ảnh y tế, hay phân loại ảnh trong các hệ thống giám sát an ninh. Thành công của luận văn là một bước đệm quan trọng cho các nghiên cứu sâu hơn trong tương lai.

VI. Hướng phát triển tương lai cho tra cứu ảnh phân đoạn

Luận văn "Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh" đã đặt một nền móng vững chắc bằng cách khám phá các thuật toán kinh điển. Tuy nhiên, lĩnh vực thị giác máy tính đang phát triển với tốc độ vũ bão, đặc biệt là với sự trỗi dậy của học sâu (Deep Learning). Hướng phát triển trong tương lai cho các hệ thống truy xuất ảnh theo nội dung chắc chắn sẽ tích hợp các kỹ thuật tiên tiến này để vượt qua những hạn chế còn tồn tại. Việc kết hợp các phương pháp phân đoạn truyền thống với các mô hình mạng nơ-ron tích chập (CNN) có thể tạo ra các kết quả phân đoạn chính xác và giàu ngữ nghĩa hơn. Đồng thời, việc nghiên cứu các phương pháp trích xuất đặc trưng ảnh tự động bằng học sâu cũng sẽ giúp thu hẹp hơn nữa "khoảng cách ngữ nghĩa", đưa hệ thống CBIR đến gần hơn với khả năng nhận thức của con người.

6.1. Tích hợp học sâu trong phân đoạn ảnh để tăng độ chính xác

Các mô hình học sâu trong phân đoạn ảnh, chẳng hạn như U-Net hay Mask R-CNN, đã chứng tỏ hiệu quả vượt trội so với các phương pháp truyền thống. Các mô hình này có khả năng học các đặc trưng phân cấp phức tạp trực tiếp từ dữ liệu, cho phép chúng phân đoạn các đối tượng với ranh giới cực kỳ chính xác, ngay cả trong các bối cảnh phức tạp. Việc tích hợp các mô hình này vào quy trình CBIR sẽ là một hướng đi đầy hứa hẹn. Một vector đặc trưng được trích xuất từ các vùng ảnh được phân đoạn bằng học sâu sẽ mang nhiều thông tin ngữ nghĩa hơn, từ đó cải thiện mạnh mẽ hiệu quả của việc tính toán độ đo tương đồng.

6.2. Hướng tới hệ thống CBIR thông minh và tự động hoàn toàn

Mục tiêu cuối cùng là xây dựng một hệ thống truy xuất ảnh theo nội dung hoàn toàn tự động và thông minh. Thay vì dựa vào các thuật toán với các tham số được tinh chỉnh thủ công, các hệ thống tương lai có thể sử dụng mạng nơ-ron tích chập (CNN) để tự động học cách phân vùng ảnhtrích xuất đặc trưng ảnh một cách tối ưu. Hơn nữa, các kỹ thuật học máy như học phản hồi liên quan (relevance feedback) có thể được tích hợp để hệ thống học hỏi từ tương tác của người dùng, liên tục cải thiện kết quả tìm kiếm theo thời gian. Đây là những định hướng nghiên cứu quan trọng cho bất kỳ ai muốn theo đuổi một luận văn ngành khoa học máy tính trong lĩnh vực này.

16/07/2025
Luận văn thạc sĩ nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh