Luận văn: Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh

Nghiên cứu phương pháp tra cứu ảnh hiệu quả dựa trên thuật toán phân đoạn ảnh trong luận văn thạc sĩ, ứng dụng trong công nghệ thông tin.

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

62
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan luận văn tra cứu ảnh dựa trên phân đoạn ảnh

Trong kỷ nguyên số, khối lượng hình ảnh khổng lồ đặt ra thách thức lớn cho việc tìm kiếm và quản lý. Các hệ thống truy xuất ảnh theo nội dung (CBIR - Content-Based Image Retrieval) ra đời như một giải pháp tất yếu, thay thế phương pháp tìm kiếm dựa trên văn bản truyền thống. Một luận văn ngành khoa học máy tính về chủ đề này, cụ thể là "Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh" của tác giả Lê Mạnh Hiệp, đã đi sâu vào việc cải thiện hiệu quả của hệ thống CBIR. Cốt lõi của phương pháp này là kỹ thuật phân đoạn ảnh (image segmentation), một bước tiền xử lý quan trọng trong lĩnh vực xử lý ảnh sốthị giác máy tính. Bằng cách chia một ảnh thành nhiều vùng (segment) có ý nghĩa, hệ thống có thể trích xuất đặc trưng ảnh một cách chính xác hơn, từ đó thu hẹp khoảng cách ngữ nghĩa giữa truy vấn của người dùng và kết quả trả về. Bài viết này sẽ phân tích chi tiết các nội dung cốt lõi của luận văn, từ những khái niệm cơ bản, các thuật toán được áp dụng, đến việc xây dựng và đánh giá hệ thống thực nghiệm.

1.1. Bối cảnh ra đời của hệ thống CBIR và vai trò then chốt

Sự phát triển của Internet và các thiết bị lưu trữ đã dẫn đến sự bùng nổ của các cơ sở dữ liệu ảnh kỹ thuật số. Việc tìm kiếm hình ảnh dựa trên từ khóa (text-based) ngày càng bộc lộ nhiều hạn chế, như sự phụ thuộc vào mô tả thủ công, tính chủ quan và không thể diễn tả hết các đặc trưng thị giác phức tạp. Hệ thống CBIR (Content-Based Image Retrieval) giải quyết vấn đề này bằng cách phân tích trực tiếp nội dung của ảnh, bao gồm màu sắc, kết cấu và hình dạng. Thay vì tìm kiếm theo siêu dữ liệu, CBIR cho phép người dùng truy vấn bằng một hình ảnh mẫu, và hệ thống sẽ trả về những hình ảnh tương tự nhất trong cơ sở dữ liệu ảnh. Đây là một bước tiến quan trọng trong lĩnh vực khoa học máy tính, mở ra nhiều ứng dụng thực tiễn từ y tế, an ninh đến thương mại điện tử.

1.2. Phân đoạn ảnh Nền tảng của việc trích xuất đặc trưng ảnh

Để một hệ thống CBIR hoạt động hiệu quả, bước trích xuất đặc trưng ảnh là cực kỳ quan trọng. Tuy nhiên, việc trích xuất đặc trưng từ toàn bộ ảnh có thể bị nhiễu bởi hậu cảnh và các đối tượng không liên quan. Phân đoạn ảnh, hay còn gọi là phân vùng ảnh, là quá trình phân chia một ảnh kỹ thuật số thành nhiều vùng hoặc đối tượng riêng biệt. Mục tiêu là đơn giản hóa biểu diễn của ảnh, giúp việc phân tích trở nên dễ dàng và có ý nghĩa hơn. Mỗi vùng được phân đoạn sẽ có những đặc tính tương đồng về màu sắc, cường độ hoặc kết cấu. Từ các vùng này, hệ thống có thể tạo ra các vector đặc trưng chính xác hơn, mô tả đúng bản chất của từng đối tượng trong ảnh. Quá trình này là nền tảng cho việc tính toán độ đo tương đồng giữa các hình ảnh một cách hiệu quả.

II. Thách thức chính trong tra cứu ảnh và xử lý ảnh số

Mặc dù hệ thống truy xuất ảnh theo nội dung (CBIR) mang lại nhiều ưu điểm, việc triển khai một hệ thống hiệu quả vẫn đối mặt với không ít thách thức. Vấn đề lớn nhất là "khoảng cách ngữ nghĩa" (semantic gap) - sự khác biệt giữa cách con người cảm nhận nội dung ảnh và cách máy tính biểu diễn nó thông qua các đặc trưng cấp thấp. Luận văn đã chỉ ra rằng việc lựa chọn phương pháp phân đoạn ảnh phù hợp là yếu tố quyết định để giảm thiểu khoảng cách này. Các thuật toán xử lý ảnh số truyền thống có thể gặp khó khăn với các hình ảnh có bối cảnh phức tạp, ánh sáng thay đổi hoặc các đối tượng bị che khuất một phần. Việc chọn đúng thuật toán, chẳng hạn như thuật toán K-means clustering hay các phương pháp dựa trên tách/ghép vùng, và tinh chỉnh các tham số của chúng là một bài toán không hề đơn giản, đòi hỏi sự nghiên cứu và thực nghiệm kỹ lưỡng. Đây cũng là một nội dung quan trọng khi sinh viên cần bảo vệ luận văn thạc sĩ về lĩnh vực này.

2.1. Vấn đề khoảng cách ngữ nghĩa trong các hệ thống CBIR

Khoảng cách ngữ nghĩa là thách thức cốt lõi trong thị giác máy tính và CBIR. Nó mô tả sự khác biệt giữa các đặc trưng thị giác cấp thấp (màu sắc, kết cấu) mà máy tính trích xuất và các khái niệm ngữ nghĩa cấp cao (con mèo, ngôi nhà) mà con người hiểu. Ví dụ, một ảnh có bãi cát và một ảnh có bức tường màu vàng có thể có lược đồ màu tương tự, nhưng ngữ nghĩa hoàn toàn khác nhau. Phân đoạn ảnh giúp giảm bớt vấn đề này bằng cách cô lập các đối tượng. Khi đó, việc trích xuất đặc trưng ảnh sẽ tập trung vào đối tượng chính thay vì toàn bộ ảnh, giúp vector đặc trưng phản ánh đúng hơn nội dung ngữ nghĩa, từ đó cải thiện độ đo tương đồng và chất lượng tìm kiếm.

2.2. Khó khăn khi lựa chọn thuật toán phân vùng ảnh phù hợp

Không có một thuật toán phân vùng ảnh nào là hoàn hảo cho mọi loại ảnh. Các phương pháp dựa trên biên (edge-based) có thể hoạt động tốt với các đối tượng có ranh giới rõ ràng nhưng lại thất bại với ảnh có kết cấu phức tạp. Ngược lại, các phương pháp dựa trên vùng (region-based) như tách-ghép vùng có thể xử lý tốt kết cấu nhưng lại dễ làm mất các chi tiết nhỏ. Luận văn đã so sánh hiệu quả của các thuật toán khác nhau, bao gồm cả thuật toán K-means clustering và thuật toán CBC (Color based Clustering). Việc lựa chọn thuật toán phụ thuộc vào đặc điểm của cơ sở dữ liệu ảnh và yêu cầu cụ thể của ứng dụng, đòi hỏi người nghiên cứu phải có sự phân tích và đánh giá sâu sắc.

III. Phương pháp phân đoạn ảnh theo mô hình tách và ghép vùng

Một trong những hướng tiếp cận chính được trình bày trong luận văn là phân đoạn ảnh theo mô hình tách và ghép vùng. Đây là một kỹ thuật mạnh mẽ trong xử lý ảnh số, cho phép nhóm các pixel có đặc tính tương tự thành các vùng đồng nhất. Phương pháp ghép vùng (region merging), điển hình là các thuật toán phân cụm phân cấp (Hierarchical Clustering), bắt đầu bằng việc coi mỗi pixel là một vùng riêng lẻ, sau đó hợp nhất các vùng lân cận tương tự nhau một cách lặp đi lặp lại. Ngược lại, phương pháp tách vùng (region splitting) bắt đầu với toàn bộ ảnh như một vùng duy nhất và liên tục chia nó thành các vùng nhỏ hơn cho đến khi mỗi vùng đạt được một mức độ đồng nhất nhất định. Luận văn đã đi sâu phân tích và cài đặt thử nghiệm các thuật toán cụ thể như CBC (Color based Clustering) dựa trên kỹ thuật ghép vùng và CSI dựa trên kỹ thuật tách vùng, nhằm tìm ra giải pháp tối ưu cho bài toán truy xuất ảnh theo nội dung.

3.1. Kỹ thuật ghép vùng với thuật toán CBC và single linkage

Ghép vùng là một phương pháp bottom-up. Thuật toán phân cụm phân cấp liên kết đơn (single-linkage) là một ví dụ điển hình, nơi sự tương đồng giữa hai cụm được xác định bởi cặp thành viên gần nhất của chúng. Dựa trên ý tưởng này, luận văn đề cập đến thuật toán CBC (Color based Clustering), một biến thể hiệu quả sử dụng cây bao trùm tối thiểu (Minimum Spanning Tree). Toàn bộ ảnh được biểu diễn như một đồ thị, trong đó các pixel là đỉnh và trọng số cạnh là khoảng cách màu sắc. Thuật toán sẽ hợp nhất các vùng pixel liên thông có độ đo tương đồng màu lớn hơn một ngưỡng cho trước. Các vùng nhỏ được coi là nhiễu và sáp nhập vào vùng lân cận gần nhất. Ưu điểm của phương pháp này là tính tự động và tốc độ xử lý nhanh, rất phù hợp cho các hệ thống CBIR quy mô lớn.

3.2. Kỹ thuật tách vùng dựa trên tiêu chí đồng nhất CSI

Ngược với ghép vùng, tách vùng là một phương pháp top-down. Luận văn giới thiệu thuật toán CSI để tách ảnh thành các vùng thuần nhất. Thuật toán bắt đầu bằng việc coi toàn bộ ảnh là một vùng. Sau đó, nó sẽ tính toán hàm chi phí (Cost function) để quyết định xem có nên phân hoạch vùng đó hay không, và nếu có thì nên phân hoạch theo chiều ngang hay chiều dọc. Điều kiện tách dựa trên độ lệch giữa các mẫu quan sát và giá trị kỳ vọng. Quá trình này lặp lại một cách đệ quy cho đến khi tất cả các vùng đều đạt được độ thuần nhất hoặc có kích thước nhỏ hơn một ngưỡng cho phép. Kết quả của thuật toán này là một tập hợp các vùng hình chữ nhật mô tả thông tin không gian của từng màu trong ảnh, tạo ra một vector đặc trưng phong phú cho việc truy xuất ảnh theo nội dung.

IV. Cách dùng thuật toán K means clustering để phân đoạn ảnh

Bên cạnh các mô hình tách-ghép vùng, thuật toán K-means clustering là một phương pháp phân đoạn ảnh dựa trên phân cụm cực kỳ phổ biến và hiệu quả, đặc biệt trong việc phân đoạn màu. Đây là một trong những nội dung trọng tâm được so sánh và đánh giá trong luận văn. Nguyên tắc của K-means là phân chia một tập hợp gồm N điểm dữ liệu (pixel) vào K cụm (cluster) sao cho mỗi điểm dữ liệu thuộc về cụm có tâm (mean) gần nhất. Trong bối cảnh xử lý ảnh số, các điểm dữ liệu chính là các pixel, và đặc trưng được sử dụng để phân cụm thường là giá trị màu trong một không gian màu phù hợp như Lab*. Bằng cách áp dụng K-means, một hình ảnh có thể được phân chia thành K vùng màu chính. Quá trình này giúp đơn giản hóa hình ảnh, loại bỏ các chi tiết màu không quan trọng và làm nổi bật các đối tượng chính, từ đó hỗ trợ hiệu quả cho việc trích xuất đặc trưng ảnh và xây dựng cơ sở dữ liệu ảnh cho hệ thống CBIR.

4.1. Quy trình phân đoạn ảnh màu bằng thuật toán K means

Quy trình thực hiện phân đoạn ảnh bằng K-means thường bao gồm các bước sau. Đầu tiên, chuyển đổi ảnh từ không gian màu RGB sang một không gian màu đồng nhất hơn về mặt tri giác như Lab*. Không gian Lab* tách biệt độ sáng (L) khỏi các thành phần màu (a, b), giúp cho khoảng cách Euclid giữa các màu phản ánh đúng hơn sự khác biệt mà mắt người cảm nhận. Tiếp theo, áp dụng thuật toán K-means clustering trên các giá trị màu (a*, b*). Thuật toán sẽ nhóm các pixel có màu tương tự vào cùng một cụm. Cuối cùng, gán nhãn cho mỗi pixel trong ảnh dựa trên chỉ số cụm mà nó thuộc về. Kết quả là một ảnh đã được phân đoạn, trong đó mỗi vùng tương ứng với một màu chủ đạo. Đây là bước tiền xử lý quan trọng trước khi tạo vector đặc trưng.

4.2. So sánh hiệu quả giữa K means và phân cụm phân cấp

Luận văn đã tiến hành so sánh giữa K-means và các phương pháp phân cụm phân cấp (như CBC). Thuật toán K-means clustering có ưu điểm về tốc độ với độ phức tạp thời gian tuyến tính (O(n)), phù hợp cho các cơ sở dữ liệu ảnh lớn. Tuy nhiên, nó yêu cầu người dùng phải xác định trước số lượng cụm (K) và kết quả có thể thay đổi giữa các lần chạy do việc khởi tạo tâm cụm ngẫu nhiên. Ngược lại, phân cụm phân cấp không yêu cầu xác định trước số cụm và cho kết quả nhất quán. Tuy nhiên, độ phức tạp thời gian của nó cao hơn (thường là O(n²)), khiến nó kém hiệu quả hơn với dữ liệu lớn. Việc lựa chọn giữa hai phương pháp này là một sự đánh đổi giữa tốc độ, khả năng lặp lại và yêu cầu về kiến thức tiên nghiệm của bài toán.

V. Kết quả ứng dụng và đánh giá hệ thống tra cứu ảnh

Chương cuối của luận văn tập trung vào việc xây dựng ứng dụng thực nghiệm và đánh giá hiệu quả của các phương pháp phân đoạn ảnh đã nghiên cứu. Một hệ thống hoàn chỉnh đã được phát triển bằng ngôn ngữ C# trên nền tảng .NET, cho phép người dùng tải ảnh truy vấn, lựa chọn thuật toán (CBC hoặc K-means), và thực hiện tìm kiếm trong một cơ sở dữ liệu ảnh được xây dựng sẵn. Giao diện trực quan giúp người dùng dễ dàng quan sát kết quả phân đoạn trước khi thực hiện truy vấn. Việc đánh giá hiệu quả hệ thống được thực hiện bằng cách so sánh kết quả trả về của các phương pháp phân đoạn khác nhau trên cùng một tập ảnh thử nghiệm. Kết quả này không chỉ chứng minh tính khả thi của mô hình đề xuất mà còn cung cấp những hiểu biết sâu sắc về ưu và nhược điểm của từng thuật toán trong thực tế, là một phần không thể thiếu khi bảo vệ luận văn thạc sĩ.

5.1. Xây dựng chương trình thử nghiệm và cơ sở dữ liệu ảnh

Ứng dụng được xây dựng có hai chức năng chính: phân đoạn ảnhtruy xuất ảnh theo nội dung. Người dùng có thể chọn một ảnh, áp dụng thuật toán CBC hoặc K-means với các ngưỡng tùy chỉnh để tạo ra các vùng ảnh. Sau khi phân đoạn, thông tin về các vùng này, bao gồm cả vector đặc trưng được trích xuất, sẽ được lưu trữ trong cơ sở dữ liệu ảnh. Hệ thống sử dụng SQL Server để quản lý dữ liệu. Kiến trúc này cho phép hệ thống tính toán độ đo tương đồng một cách nhanh chóng giữa ảnh truy vấn và các ảnh trong cơ sở dữ liệu, từ đó trả về danh sách các hình ảnh phù hợp nhất.

5.2. Đánh giá hiệu quả giữa các phương pháp phân đoạn khác nhau

Để đánh giá khách quan, luận văn đã sử dụng cùng một ảnh mẫu và áp dụng cả hai phương pháp phân đoạn ảnh là CBC và K-means. Kết quả trực quan cho thấy mỗi phương pháp có những điểm mạnh riêng. Ví dụ, CBC có thể tạo ra các vùng có hình dạng tự nhiên hơn, trong khi thuật toán K-means clustering lại rất hiệu quả trong việc nhóm các màu sắc chủ đạo. Việc đánh giá hiệu quả của hệ thống CBIR dựa trên các kết quả phân đoạn này cho thấy, việc lựa chọn phương pháp phù hợp có thể cải thiện đáng kể độ chính xác của kết quả tìm kiếm. Đây là minh chứng rõ ràng cho tầm quan trọng của bước phân vùng ảnh trong toàn bộ quy trình.

5.3. Ý nghĩa khoa học và thực tiễn của luận văn thạc sĩ

Công trình nghiên cứu này không chỉ là một bài tập học thuật mà còn mang ý nghĩa khoa học và thực tiễn sâu sắc. Về mặt khoa học, nó đóng góp vào lĩnh vực xử lý ảnh sốthị giác máy tính bằng cách phân tích và so sánh các thuật toán phân đoạn ảnh trong bối cảnh cụ thể là truy xuất ảnh theo nội dung. Về mặt thực tiễn, hệ thống được xây dựng có thể làm nền tảng để phát triển các ứng dụng thương mại trong nhiều lĩnh vực như tìm kiếm sản phẩm bằng hình ảnh, nhận dạng đối tượng trong ảnh y tế, hay phân loại ảnh trong các hệ thống giám sát an ninh. Thành công của luận văn là một bước đệm quan trọng cho các nghiên cứu sâu hơn trong tương lai.

VI. Hướng phát triển tương lai cho tra cứu ảnh phân đoạn

Luận văn "Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh" đã đặt một nền móng vững chắc bằng cách khám phá các thuật toán kinh điển. Tuy nhiên, lĩnh vực thị giác máy tính đang phát triển với tốc độ vũ bão, đặc biệt là với sự trỗi dậy của học sâu (Deep Learning). Hướng phát triển trong tương lai cho các hệ thống truy xuất ảnh theo nội dung chắc chắn sẽ tích hợp các kỹ thuật tiên tiến này để vượt qua những hạn chế còn tồn tại. Việc kết hợp các phương pháp phân đoạn truyền thống với các mô hình mạng nơ-ron tích chập (CNN) có thể tạo ra các kết quả phân đoạn chính xác và giàu ngữ nghĩa hơn. Đồng thời, việc nghiên cứu các phương pháp trích xuất đặc trưng ảnh tự động bằng học sâu cũng sẽ giúp thu hẹp hơn nữa "khoảng cách ngữ nghĩa", đưa hệ thống CBIR đến gần hơn với khả năng nhận thức của con người.

6.1. Tích hợp học sâu trong phân đoạn ảnh để tăng độ chính xác

Các mô hình học sâu trong phân đoạn ảnh, chẳng hạn như U-Net hay Mask R-CNN, đã chứng tỏ hiệu quả vượt trội so với các phương pháp truyền thống. Các mô hình này có khả năng học các đặc trưng phân cấp phức tạp trực tiếp từ dữ liệu, cho phép chúng phân đoạn các đối tượng với ranh giới cực kỳ chính xác, ngay cả trong các bối cảnh phức tạp. Việc tích hợp các mô hình này vào quy trình CBIR sẽ là một hướng đi đầy hứa hẹn. Một vector đặc trưng được trích xuất từ các vùng ảnh được phân đoạn bằng học sâu sẽ mang nhiều thông tin ngữ nghĩa hơn, từ đó cải thiện mạnh mẽ hiệu quả của việc tính toán độ đo tương đồng.

6.2. Hướng tới hệ thống CBIR thông minh và tự động hoàn toàn

Mục tiêu cuối cùng là xây dựng một hệ thống truy xuất ảnh theo nội dung hoàn toàn tự động và thông minh. Thay vì dựa vào các thuật toán với các tham số được tinh chỉnh thủ công, các hệ thống tương lai có thể sử dụng mạng nơ-ron tích chập (CNN) để tự động học cách phân vùng ảnhtrích xuất đặc trưng ảnh một cách tối ưu. Hơn nữa, các kỹ thuật học máy như học phản hồi liên quan (relevance feedback) có thể được tích hợp để hệ thống học hỏi từ tương tác của người dùng, liên tục cải thiện kết quả tìm kiếm theo thời gian. Đây là những định hướng nghiên cứu quan trọng cho bất kỳ ai muốn theo đuổi một luận văn ngành khoa học máy tính trong lĩnh vực này.

16/07/2025

Trích đoạn nội dung tài liệu

Ẻ | 3 2 2 3 a 5 5 5 : 5 5 5 : : 5 5 Ũ é g E Ũ a ) BỘ GIÁO DỤC VIEN HAN LAM KHOA HOCG vA DAO TAO VA CONG NGHE VIET NAM a) OS) DAIS) gg HOC VIEN KHOA HOC VA CONG NGHE Lê Mạnh Hiệp NGHIÊN CỨU PHƯƠNG PHÁP TRA CỨU ẢNH DỰA TRÊN THUAT TOAN PHAN DOAN ANH LUAN VAN THAC Si: HE THONG THONG TIN Hà Nội - 2020 BỘ GIÁO DỤC VIEN HAN LAM KHOA HỌC VA DAO TAO VA CONG NGHE VIET NAM HOC VIEN KHOA HOC VA CONG NGHE Lé Manh Hiép NGHIEN CUU PHUONG PHAP TRA CUU ANH DUA TREN THUAT TOAN PHAN DOAN ANH Chuyên ngành: Hệ thống thông tin Mã số: 8480104 LUAN VAN THAC SI HE THONG THONG TIN NGUOI HUGNG DAN KHOA HOC: Hướng dẫn: NGÔ QUỐC TẠO Hà Nội - 2020 LOI CAM DOAN Tôi xin cam đoan bài luận văn này là sự nghiên cứu của bản thân (ngoài phần tham khảo đã được trích rõ) cùng với hướng dẫn của PGS.TS Ngô Quốc Tạo. Tôi xin chịu trách nhiệm hoàn toàn nếu Xảy Ta Sal phạm. Tác giả luận văn Lê Mạnh Hiệp LOI CAM ON Đầu tiên em xin gửi lời cảm ơn chân thành tới thầy giáo, PGS TS. Ngô Quốc Tạo, là người đã tận tình hướng dẫn, chỉ bảo em rất nhiều trong quá trình tìm hiểu nghiên cứu và hoàn thành luận văn nay. Từ đó đã giúp em có thêm nhiều kiến thức về xử ly ảnh — một lĩnh vực mới đối với em. Luận văn được sự hỗ trợ của nhiệm vụ cao cấp NVCC02.01/20-20 và đề tài “Nghiên cứu cải tiến hiệu quả tra cứu ảnh thông qua học khoảng cách”, mã số VAST01. Đồng thời, em xin chân thành cám ơn các thầy cô tại Học viện Khoa học và Công nghệ, Viện hàn lâm Khoa học và Công nghệ Việt Nam đã trang bị cho em những kiến thức cơ bản cần thiết trong suốt thời gian học tập tại trường để em hoàn thành tốt luận văn này. Trong quá trình học cũng như trong suốt thời gian làm luận văn tốt nghiệp không tránh khỏi những thiếu sót, em rất mong được sự góp ý quý báu của các thầy cô cũng như tất cả các bạn để kết quả của em được hoàn thiện hơn. Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện để em xây dựng thành công luận văn này. Em xIn chân thành cảm ơn! DANH SÁCH CÁC TỪ VIẾT TẮT STT Từ viết tắt Mô tả 1 GIF Graphics Interchange Format 2 BMP Bitmap 3 PCX PiCture eXchange 4 IMG Image 5 TIFF Tagged Image File Format 6 FSVM Fuzzy Support Vector Machine 7 HSL Hue-Saturation-Luminance DANH MUC BANG Bang 2.1 Tính độ lệch DX electedrow cho phân hoạch theo dòng của 28 ảnh 1 Bảng 2.2 Tính độ lệch DX ¿;z„ze„ cho phân hoạch theo cột của 36 anh 1 Bang 2.3 Tính độ lệch DX electedrow cho phân hoạch theo dòng của 37 vung BR, Bang 2.4 Tính độ lệch DX ¢electedcoi Cho phan hoach theo cot của 38 vung BR, Bang 3.1 Số liệu các loại ảnh trong cơ sở đữ liệu 47 Bảng 3.2 Bảng cơ sở đữ liệu Image 48 Bảng 3.3 Bảng cơ sở đữ liệu Cluster 49 DANH MỤC HÌNH ẢNH Hình 1.1 Các giai đoạn xử lý ảnh 6 Hình 1.2 Các giai đoạn xử lý ảnh chỉ tiết 7 Hình 1.3 Không gian màu RGB được trực quan hoá như một hình 13 khôi Hình 1.4 Mô tả không gian màu HSV 14 Hình 2.1 Biểu diễn phan cum phan cap bottom-up cua 5 đối 24 tượng Hình 2.2 Thuật toán phần cụm 28 Hình 2.3 Thuật toán Single-Linkage 29 Hình 2.4 Thuật toan CSI 32 Hinh 2.5 Ảnh 7 cỡ 10x10 điểm ảnh 34 Hình 2.6 Ảnh 7 sau khi được tách ra thành hai vùng BR1 va BR2 34 Hình 2.7 Vùng 5; sau khi được tách ra thành hai vùng BR2,l và 37 BR2,2 Hinh 3.1 Giao dién form CBC 40 Hinh 3.2 Giao dién form CBC sau khi open anh 4] Hinh 3.3 Giao dién form chon nguéng CBC 41 Hinh 3.4 Giao dién form CBC sau khi phan doan 42 Hinh 3.5 Giao dién form K-Means 42 Hinh 3.6 Giao dién form K-Means open anh 42 Hinh 3.7 Một số keeta quả phan đoạn theo K-Means 43 Hình 3.8 Giao diện form K-Means sau hi phần cụm 43 Hình 3.9 Một số kết quả theo trí phân 44 Hinh 3.10 | Một số kết quả theo CBC 45 Hình 3.1] Kiến trúc tông quát của hệ thống tra cứu ảnh 46 Hình 3.12 | Giao diện chính hệ thống tra cứu ảnh 48 Hình 3.13 Mỗi quan hệ giữa các bảng 49 MỤC LỤC Lời cám ơn Danh sách các từ viết tắt Danh mục bảng Danh mục hình ảnh Mở đầu Chuong1: | TONG QUAN VE PHAN DOAN ANH & 1. MOT SO KHAI NIEM VE XU LY ANH WD 1. Giới thiệu WY 1. Cac giai đoạn xử lý ảnh THD 1. Một số khái niệm cơ bản 1. | Diém anh - Pixel OOH 1. Mức xám - Gray level 1. — Vùng liên thông SO 1. Đối tượng ảnh CO 1. Chu tuyén anh meme CO 1. Cac dinh dang co ban trong xu ly anh KF 1. DAC TRUNG ANH NO 1. Mau sac NN 1. Không gian màu 12. TONG QUAN VE PHAN DOAN ANH œ 1. Phan doan anh OH 1. Muc tiéu anh phan doan anh \© 1 1. Một số kỹ thuật phân đoạn ảnh 20 1. KẾT LUẬN CHƯƠNG MOT 22 Chuong 2: PHAN DOAN ANH THEO MO HINH TACH, 23 GHEP VUNG 2. PHAN DOAN ANH THEO MO HiINH GHEP VUNG 23 2. Ghép theo mau 23 2. Ghép theo biên 29 2. PHÂN ĐOẠN ẢNH THEO MÔ HÌNH TÁCH VÙNG 29 2. Tách theo màu 29 2. Tách theo vùng đồng nhất 30 2. SO SÁNH THUẬT TOÁN K MEAN VỚI CBC 38 2. KẾT LUẬN CHƯƠNG HAI 39 Chương 3: ỨNG DỤNG PHẦN ĐOẠN ẢNH TRONG TRA CỨU 40 ẢNH DỰA TREN CAC PHUONG PHAP PHAN DOAN ANH 3. PHAN TICH BAI TOAN 40 3. KET QUA DAT ĐƯỢC 40 3. DANH GIA HIEU QUA PHAN DOAN 42 3. UNG DUNG PHAN DOAN CBC VAO TRA CUU ANH 45 3. Tập ảnh thử nghiệm 47 3. Kết quả đạt được 50 3. Đánh giá hiệu quả của hệ thống qua các phương pháp 50 phân đoạn 3. Ý NGHĨA KHOA HỌC VÀ THỰC TIẾN 50 3. KÉT LUẬN CHƯƠNG BA 51 KÉT LUẬN 53 TÀI LIỆU THAM KHẢO 2 MỞ ĐẦU Cùng với xu hướng phát triển của các phương tiện truyền thông, các phương tiện lưu trữ hình ảnh, kích thước của các tập ảnh số được gia tăng một cách chóng mặt. Hiệu quả của các công cụ tìm kiếm, tra cứu ảnh được yêu cầu từ rất nhiều lĩnh vực khác nhau gồm: trinh sát, thời trang, phòng chống tội phạm. Cùng chung mục đích này, rất nhiều các hệ thống tra cứu ảnh đã được phát triển. Có hai nên tảng là: dựa trên văn bản (text-based) và dựa trên nội dung (content-based). Bài viết này đã trình bày một kỹ thuật lập chỉ mục màu không gian hiệu quả được thiết kế sử dụng phương pháp phân khúc. Kỹ thuật này có tính chất của dịch thuật, xoay và nhân rộng bất biến. Việc thu hồi được chấp nhận để xuất hiện đáng kế thay đổi và cung cấp các cơ sở của màu sắc phù hợp gián tiếp. Hiệu suất truy xuất của kỹ thuật cũng đã được thiết lập để vượt trội so với cho các đối tác khác của nó Luận văn sẽ trình bày kỹ thuật phản hồi liên quan được ứng dụng trong tra cứu ảnh dựa trên nội dung để thu hẹp khoảng cách ngữ nghĩa, cải thiện hiệu năng tra cứu. Báo cáo được chia làm 3 chương: Chương 1: Tổng quan về phân đoạn ảnh Giới thiệu các khái niệm cơ bản về hệ thông tra cứu ảnh dựa trên phân đoạn ảnh Chương 2: Phân đoạn ảnh theo mô hình tách ghép vùng Giới thiệu các phương pháp phản hồi liên quan và máy học Chương 3: Áp dụng cài đặt thử nghiệm Cài đặt chương trình thử nghiệm dựa trên lý thuyết từ chương 1 và chương 2 Chương 1 TONG QUAN VE PHAN DOAN ANH Xu ly anh ngay nay da tro thanh mot nganh khoa hoc lon, da co mat trong nhiễu lĩnh vực của cuộc séng. Dieu này chúng ta có thể diễn giải được từ một định nghĩa đơn giản vê ngành khoa học này: Xử lý ảnh là ngành khoa học nghiên cứu các giai đoạn xứ lý thông tin dạng hình ảnh, mà hình ảnh là một trong những dạng thông tin phong phú nhất đối với chúng ta. Bước quan trọng nhất và cũng là khó khăn nhất trong giai đoạn xử lý ảnh là bước phân đoạn ảnh. Phán đoạn là việc phán tách các đối tuong cẩu thành nên ảnh thô từ đó có thể sử dụng cho các ứng dụng sau này. MOT SO KHAI NIEM VE XU LY ANH 1. Giới thiệu Thế giới kỹ thuật số là kỹ thuật số với sự xuất hiện của nhiều thiết bị được sử dụng trong việc thu nhận hình ảnh. Ngày nay, việc lưu trữ số lượng lớn hình ảnh trở nên dễ dàng bằng cách sử dụng các kỹ thuật xử lý hình ảnh. Việc truy cập nhanh vào các bộ sưu tập hình ảnh không lồ này và truy xuất các hình ảnh tương tự của một hình ảnh nhất định (Truy vấn) từ bộ sưu tập hình ảnh khống lồ này đưa ra những thách thức lớn và đòi hỏi các thuật toán hiệu quả. Mục tiêu chính của hệ thông được đề xuất là cung cấp một kết quả chính xác với thời gian tính toán thấp hơn. Với mục đích của chúng tôi, chúng tôi giới thiệu trong hệ thống truy xuất hình ảnh dựa trên nội dung (CBIR) bước phân loại và chúng tôi áp dụng kỹ thuật phân cụm k-nghĩa để khớp với các mô tả hình ảnh. Công việc này cung cấp một cái nhìn chỉ tiết về giải pháp mà chúng tôi đã áp dụng và đáp ứng hoàn hảo nhu cầu của chúng tôi. Để xác thực, chúng tôi áp dụng tất cả các kỹ thuật này trên hai cơ sở dữ liệu hình ảnh đề đánh giá hiệu suất của hệ thống của chúng tôi. Nhiều kỹ thuật xử lý hình ảnh kỹ thuật số, hay xử lý hình ảnh kỹ thuật số như thường được gọi, đã được phát triển vào những năm 1960, tại Phòng thí nghiệm Bell, Phong thi nghiệm Động cơ phản lực, Viện Công nghệ Massachusetts, Đại học Maryland và một vài cơ sở nghiên cứu khác, với ứng dụng cho hình ảnh vệ tinh, chuyên đổi tiêu chuẩn ảnh dây, hình ảnh y tế, điện thoại truyền hình, nhận dạng nhân vật và nâng cao hình ảnh. [3| Mục đích của việc xử lý hình ảnh sớm là để cải thiện chất lượng của hình ảnh. Nó nhằm mục đích cho con người để cải thiện hiệu ứng hình ảnh của con người. Trong xử lý hình ảnh, đầu vào là hình ảnh chất lượng thấp và đầu ra là hình ảnh có chất lượng được cải thiện.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ