Luận văn: Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh

Nghiên cứu phương pháp tra cứu ảnh hiệu quả dựa trên thuật toán phân đoạn ảnh trong luận văn thạc sĩ, ứng dụng trong công nghệ thông tin.

Trường đại học

Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan luận văn tra cứu ảnh dựa trên phân đoạn ảnh

Trong kỷ nguyên số, khối lượng hình ảnh khổng lồ đặt ra thách thức lớn cho việc tìm kiếm và quản lý. Các hệ thống truy xuất ảnh theo nội dung (CBIR - Content-Based Image Retrieval) ra đời như một giải pháp tất yếu, thay thế phương pháp tìm kiếm dựa trên văn bản truyền thống. Một luận văn ngành khoa học máy tính về chủ đề này, cụ thể là "Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh" của tác giả Lê Mạnh Hiệp, đã đi sâu vào việc cải thiện hiệu quả của hệ thống CBIR. Cốt lõi của phương pháp này là kỹ thuật phân đoạn ảnh (image segmentation), một bước tiền xử lý quan trọng trong lĩnh vực xử lý ảnh số và thị giác máy tính. Bằng cách chia một ảnh thành nhiều vùng (segment) có ý nghĩa, hệ thống có thể trích xuất đặc trưng ảnh một cách chính xác hơn, từ đó thu hẹp khoảng cách ngữ nghĩa giữa truy vấn của người dùng và kết quả trả về. Bài viết này sẽ phân tích chi tiết các nội dung cốt lõi của luận văn, từ những khái niệm cơ bản, các thuật toán được áp dụng, đến việc xây dựng và đánh giá hệ thống thực nghiệm.

1.1. Bối cảnh ra đời của hệ thống CBIR và vai trò then chốt

Sự phát triển của Internet và các thiết bị lưu trữ đã dẫn đến sự bùng nổ của các cơ sở dữ liệu ảnh kỹ thuật số. Việc tìm kiếm hình ảnh dựa trên từ khóa (text-based) ngày càng bộc lộ nhiều hạn chế, như sự phụ thuộc vào mô tả thủ công, tính chủ quan và không thể diễn tả hết các đặc trưng thị giác phức tạp. Hệ thống CBIR (Content-Based Image Retrieval) giải quyết vấn đề này bằng cách phân tích trực tiếp nội dung của ảnh, bao gồm màu sắc, kết cấu và hình dạng. Thay vì tìm kiếm theo siêu dữ liệu, CBIR cho phép người dùng truy vấn bằng một hình ảnh mẫu, và hệ thống sẽ trả về những hình ảnh tương tự nhất trong cơ sở dữ liệu ảnh. Đây là một bước tiến quan trọng trong lĩnh vực khoa học máy tính, mở ra nhiều ứng dụng thực tiễn từ y tế, an ninh đến thương mại điện tử.

1.2. Phân đoạn ảnh Nền tảng của việc trích xuất đặc trưng ảnh

Để một hệ thống CBIR hoạt động hiệu quả, bước trích xuất đặc trưng ảnh là cực kỳ quan trọng. Tuy nhiên, việc trích xuất đặc trưng từ toàn bộ ảnh có thể bị nhiễu bởi hậu cảnh và các đối tượng không liên quan. Phân đoạn ảnh, hay còn gọi là phân vùng ảnh, là quá trình phân chia một ảnh kỹ thuật số thành nhiều vùng hoặc đối tượng riêng biệt. Mục tiêu là đơn giản hóa biểu diễn của ảnh, giúp việc phân tích trở nên dễ dàng và có ý nghĩa hơn. Mỗi vùng được phân đoạn sẽ có những đặc tính tương đồng về màu sắc, cường độ hoặc kết cấu. Từ các vùng này, hệ thống có thể tạo ra các vector đặc trưng chính xác hơn, mô tả đúng bản chất của từng đối tượng trong ảnh. Quá trình này là nền tảng cho việc tính toán độ đo tương đồng giữa các hình ảnh một cách hiệu quả.

II. Thách thức chính trong tra cứu ảnh và xử lý ảnh số

Mặc dù hệ thống truy xuất ảnh theo nội dung (CBIR) mang lại nhiều ưu điểm, việc triển khai một hệ thống hiệu quả vẫn đối mặt với không ít thách thức. Vấn đề lớn nhất là "khoảng cách ngữ nghĩa" (semantic gap) - sự khác biệt giữa cách con người cảm nhận nội dung ảnh và cách máy tính biểu diễn nó thông qua các đặc trưng cấp thấp. Luận văn đã chỉ ra rằng việc lựa chọn phương pháp phân đoạn ảnh phù hợp là yếu tố quyết định để giảm thiểu khoảng cách này. Các thuật toán xử lý ảnh số truyền thống có thể gặp khó khăn với các hình ảnh có bối cảnh phức tạp, ánh sáng thay đổi hoặc các đối tượng bị che khuất một phần. Việc chọn đúng thuật toán, chẳng hạn như thuật toán K-means clustering hay các phương pháp dựa trên tách/ghép vùng, và tinh chỉnh các tham số của chúng là một bài toán không hề đơn giản, đòi hỏi sự nghiên cứu và thực nghiệm kỹ lưỡng. Đây cũng là một nội dung quan trọng khi sinh viên cần bảo vệ luận văn thạc sĩ về lĩnh vực này.

2.1. Vấn đề khoảng cách ngữ nghĩa trong các hệ thống CBIR

Khoảng cách ngữ nghĩa là thách thức cốt lõi trong thị giác máy tính và CBIR. Nó mô tả sự khác biệt giữa các đặc trưng thị giác cấp thấp (màu sắc, kết cấu) mà máy tính trích xuất và các khái niệm ngữ nghĩa cấp cao (con mèo, ngôi nhà) mà con người hiểu. Ví dụ, một ảnh có bãi cát và một ảnh có bức tường màu vàng có thể có lược đồ màu tương tự, nhưng ngữ nghĩa hoàn toàn khác nhau. Phân đoạn ảnh giúp giảm bớt vấn đề này bằng cách cô lập các đối tượng. Khi đó, việc trích xuất đặc trưng ảnh sẽ tập trung vào đối tượng chính thay vì toàn bộ ảnh, giúp vector đặc trưng phản ánh đúng hơn nội dung ngữ nghĩa, từ đó cải thiện độ đo tương đồng và chất lượng tìm kiếm.

2.2. Khó khăn khi lựa chọn thuật toán phân vùng ảnh phù hợp

Không có một thuật toán phân vùng ảnh nào là hoàn hảo cho mọi loại ảnh. Các phương pháp dựa trên biên (edge-based) có thể hoạt động tốt với các đối tượng có ranh giới rõ ràng nhưng lại thất bại với ảnh có kết cấu phức tạp. Ngược lại, các phương pháp dựa trên vùng (region-based) như tách-ghép vùng có thể xử lý tốt kết cấu nhưng lại dễ làm mất các chi tiết nhỏ. Luận văn đã so sánh hiệu quả của các thuật toán khác nhau, bao gồm cả thuật toán K-means clustering và thuật toán CBC (Color based Clustering). Việc lựa chọn thuật toán phụ thuộc vào đặc điểm của cơ sở dữ liệu ảnh và yêu cầu cụ thể của ứng dụng, đòi hỏi người nghiên cứu phải có sự phân tích và đánh giá sâu sắc.

III. Phương pháp phân đoạn ảnh theo mô hình tách và ghép vùng

Một trong những hướng tiếp cận chính được trình bày trong luận văn là phân đoạn ảnh theo mô hình tách và ghép vùng. Đây là một kỹ thuật mạnh mẽ trong xử lý ảnh số, cho phép nhóm các pixel có đặc tính tương tự thành các vùng đồng nhất. Phương pháp ghép vùng (region merging), điển hình là các thuật toán phân cụm phân cấp (Hierarchical Clustering), bắt đầu bằng việc coi mỗi pixel là một vùng riêng lẻ, sau đó hợp nhất các vùng lân cận tương tự nhau một cách lặp đi lặp lại. Ngược lại, phương pháp tách vùng (region splitting) bắt đầu với toàn bộ ảnh như một vùng duy nhất và liên tục chia nó thành các vùng nhỏ hơn cho đến khi mỗi vùng đạt được một mức độ đồng nhất nhất định. Luận văn đã đi sâu phân tích và cài đặt thử nghiệm các thuật toán cụ thể như CBC (Color based Clustering) dựa trên kỹ thuật ghép vùng và CSI dựa trên kỹ thuật tách vùng, nhằm tìm ra giải pháp tối ưu cho bài toán truy xuất ảnh theo nội dung.

3.1. Kỹ thuật ghép vùng với thuật toán CBC và single linkage

Ghép vùng là một phương pháp bottom-up. Thuật toán phân cụm phân cấp liên kết đơn (single-linkage) là một ví dụ điển hình, nơi sự tương đồng giữa hai cụm được xác định bởi cặp thành viên gần nhất của chúng. Dựa trên ý tưởng này, luận văn đề cập đến thuật toán CBC (Color based Clustering), một biến thể hiệu quả sử dụng cây bao trùm tối thiểu (Minimum Spanning Tree). Toàn bộ ảnh được biểu diễn như một đồ thị, trong đó các pixel là đỉnh và trọng số cạnh là khoảng cách màu sắc. Thuật toán sẽ hợp nhất các vùng pixel liên thông có độ đo tương đồng màu lớn hơn một ngưỡng cho trước. Các vùng nhỏ được coi là nhiễu và sáp nhập vào vùng lân cận gần nhất. Ưu điểm của phương pháp này là tính tự động và tốc độ xử lý nhanh, rất phù hợp cho các hệ thống CBIR quy mô lớn.

3.2. Kỹ thuật tách vùng dựa trên tiêu chí đồng nhất CSI

Ngược với ghép vùng, tách vùng là một phương pháp top-down. Luận văn giới thiệu thuật toán CSI để tách ảnh thành các vùng thuần nhất. Thuật toán bắt đầu bằng việc coi toàn bộ ảnh là một vùng. Sau đó, nó sẽ tính toán hàm chi phí (Cost function) để quyết định xem có nên phân hoạch vùng đó hay không, và nếu có thì nên phân hoạch theo chiều ngang hay chiều dọc. Điều kiện tách dựa trên độ lệch giữa các mẫu quan sát và giá trị kỳ vọng. Quá trình này lặp lại một cách đệ quy cho đến khi tất cả các vùng đều đạt được độ thuần nhất hoặc có kích thước nhỏ hơn một ngưỡng cho phép. Kết quả của thuật toán này là một tập hợp các vùng hình chữ nhật mô tả thông tin không gian của từng màu trong ảnh, tạo ra một vector đặc trưng phong phú cho việc truy xuất ảnh theo nội dung.

IV. Cách dùng thuật toán K means clustering để phân đoạn ảnh

Bên cạnh các mô hình tách-ghép vùng, thuật toán K-means clustering là một phương pháp phân đoạn ảnh dựa trên phân cụm cực kỳ phổ biến và hiệu quả, đặc biệt trong việc phân đoạn màu. Đây là một trong những nội dung trọng tâm được so sánh và đánh giá trong luận văn. Nguyên tắc của K-means là phân chia một tập hợp gồm N điểm dữ liệu (pixel) vào K cụm (cluster) sao cho mỗi điểm dữ liệu thuộc về cụm có tâm (mean) gần nhất. Trong bối cảnh xử lý ảnh số, các điểm dữ liệu chính là các pixel, và đặc trưng được sử dụng để phân cụm thường là giá trị màu trong một không gian màu phù hợp như Lab*. Bằng cách áp dụng K-means, một hình ảnh có thể được phân chia thành K vùng màu chính. Quá trình này giúp đơn giản hóa hình ảnh, loại bỏ các chi tiết màu không quan trọng và làm nổi bật các đối tượng chính, từ đó hỗ trợ hiệu quả cho việc trích xuất đặc trưng ảnh và xây dựng cơ sở dữ liệu ảnh cho hệ thống CBIR.

4.1. Quy trình phân đoạn ảnh màu bằng thuật toán K means

Quy trình thực hiện phân đoạn ảnh bằng K-means thường bao gồm các bước sau. Đầu tiên, chuyển đổi ảnh từ không gian màu RGB sang một không gian màu đồng nhất hơn về mặt tri giác như Lab*. Không gian Lab* tách biệt độ sáng (L) khỏi các thành phần màu (a, b), giúp cho khoảng cách Euclid giữa các màu phản ánh đúng hơn sự khác biệt mà mắt người cảm nhận. Tiếp theo, áp dụng thuật toán K-means clustering trên các giá trị màu (a*, b*). Thuật toán sẽ nhóm các pixel có màu tương tự vào cùng một cụm. Cuối cùng, gán nhãn cho mỗi pixel trong ảnh dựa trên chỉ số cụm mà nó thuộc về. Kết quả là một ảnh đã được phân đoạn, trong đó mỗi vùng tương ứng với một màu chủ đạo. Đây là bước tiền xử lý quan trọng trước khi tạo vector đặc trưng.

4.2. So sánh hiệu quả giữa K means và phân cụm phân cấp

Luận văn đã tiến hành so sánh giữa K-means và các phương pháp phân cụm phân cấp (như CBC). Thuật toán K-means clustering có ưu điểm về tốc độ với độ phức tạp thời gian tuyến tính (O(n)), phù hợp cho các cơ sở dữ liệu ảnh lớn. Tuy nhiên, nó yêu cầu người dùng phải xác định trước số lượng cụm (K) và kết quả có thể thay đổi giữa các lần chạy do việc khởi tạo tâm cụm ngẫu nhiên. Ngược lại, phân cụm phân cấp không yêu cầu xác định trước số cụm và cho kết quả nhất quán. Tuy nhiên, độ phức tạp thời gian của nó cao hơn (thường là O(n²)), khiến nó kém hiệu quả hơn với dữ liệu lớn. Việc lựa chọn giữa hai phương pháp này là một sự đánh đổi giữa tốc độ, khả năng lặp lại và yêu cầu về kiến thức tiên nghiệm của bài toán.

V. Kết quả ứng dụng và đánh giá hệ thống tra cứu ảnh

Chương cuối của luận văn tập trung vào việc xây dựng ứng dụng thực nghiệm và đánh giá hiệu quả của các phương pháp phân đoạn ảnh đã nghiên cứu. Một hệ thống hoàn chỉnh đã được phát triển bằng ngôn ngữ C# trên nền tảng .NET, cho phép người dùng tải ảnh truy vấn, lựa chọn thuật toán (CBC hoặc K-means), và thực hiện tìm kiếm trong một cơ sở dữ liệu ảnh được xây dựng sẵn. Giao diện trực quan giúp người dùng dễ dàng quan sát kết quả phân đoạn trước khi thực hiện truy vấn. Việc đánh giá hiệu quả hệ thống được thực hiện bằng cách so sánh kết quả trả về của các phương pháp phân đoạn khác nhau trên cùng một tập ảnh thử nghiệm. Kết quả này không chỉ chứng minh tính khả thi của mô hình đề xuất mà còn cung cấp những hiểu biết sâu sắc về ưu và nhược điểm của từng thuật toán trong thực tế, là một phần không thể thiếu khi bảo vệ luận văn thạc sĩ.

5.1. Xây dựng chương trình thử nghiệm và cơ sở dữ liệu ảnh

Ứng dụng được xây dựng có hai chức năng chính: phân đoạn ảnh và truy xuất ảnh theo nội dung. Người dùng có thể chọn một ảnh, áp dụng thuật toán CBC hoặc K-means với các ngưỡng tùy chỉnh để tạo ra các vùng ảnh. Sau khi phân đoạn, thông tin về các vùng này, bao gồm cả vector đặc trưng được trích xuất, sẽ được lưu trữ trong cơ sở dữ liệu ảnh. Hệ thống sử dụng SQL Server để quản lý dữ liệu. Kiến trúc này cho phép hệ thống tính toán độ đo tương đồng một cách nhanh chóng giữa ảnh truy vấn và các ảnh trong cơ sở dữ liệu, từ đó trả về danh sách các hình ảnh phù hợp nhất.

5.2. Đánh giá hiệu quả giữa các phương pháp phân đoạn khác nhau

Để đánh giá khách quan, luận văn đã sử dụng cùng một ảnh mẫu và áp dụng cả hai phương pháp phân đoạn ảnh là CBC và K-means. Kết quả trực quan cho thấy mỗi phương pháp có những điểm mạnh riêng. Ví dụ, CBC có thể tạo ra các vùng có hình dạng tự nhiên hơn, trong khi thuật toán K-means clustering lại rất hiệu quả trong việc nhóm các màu sắc chủ đạo. Việc đánh giá hiệu quả của hệ thống CBIR dựa trên các kết quả phân đoạn này cho thấy, việc lựa chọn phương pháp phù hợp có thể cải thiện đáng kể độ chính xác của kết quả tìm kiếm. Đây là minh chứng rõ ràng cho tầm quan trọng của bước phân vùng ảnh trong toàn bộ quy trình.

5.3. Ý nghĩa khoa học và thực tiễn của luận văn thạc sĩ

Công trình nghiên cứu này không chỉ là một bài tập học thuật mà còn mang ý nghĩa khoa học và thực tiễn sâu sắc. Về mặt khoa học, nó đóng góp vào lĩnh vực xử lý ảnh số và thị giác máy tính bằng cách phân tích và so sánh các thuật toán phân đoạn ảnh trong bối cảnh cụ thể là truy xuất ảnh theo nội dung. Về mặt thực tiễn, hệ thống được xây dựng có thể làm nền tảng để phát triển các ứng dụng thương mại trong nhiều lĩnh vực như tìm kiếm sản phẩm bằng hình ảnh, nhận dạng đối tượng trong ảnh y tế, hay phân loại ảnh trong các hệ thống giám sát an ninh. Thành công của luận văn là một bước đệm quan trọng cho các nghiên cứu sâu hơn trong tương lai.

VI. Hướng phát triển tương lai cho tra cứu ảnh phân đoạn

Luận văn "Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh" đã đặt một nền móng vững chắc bằng cách khám phá các thuật toán kinh điển. Tuy nhiên, lĩnh vực thị giác máy tính đang phát triển với tốc độ vũ bão, đặc biệt là với sự trỗi dậy của học sâu (Deep Learning). Hướng phát triển trong tương lai cho các hệ thống truy xuất ảnh theo nội dung chắc chắn sẽ tích hợp các kỹ thuật tiên tiến này để vượt qua những hạn chế còn tồn tại. Việc kết hợp các phương pháp phân đoạn truyền thống với các mô hình mạng nơ-ron tích chập (CNN) có thể tạo ra các kết quả phân đoạn chính xác và giàu ngữ nghĩa hơn. Đồng thời, việc nghiên cứu các phương pháp trích xuất đặc trưng ảnh tự động bằng học sâu cũng sẽ giúp thu hẹp hơn nữa "khoảng cách ngữ nghĩa", đưa hệ thống CBIR đến gần hơn với khả năng nhận thức của con người.

6.1. Tích hợp học sâu trong phân đoạn ảnh để tăng độ chính xác

Các mô hình học sâu trong phân đoạn ảnh, chẳng hạn như U-Net hay Mask R-CNN, đã chứng tỏ hiệu quả vượt trội so với các phương pháp truyền thống. Các mô hình này có khả năng học các đặc trưng phân cấp phức tạp trực tiếp từ dữ liệu, cho phép chúng phân đoạn các đối tượng với ranh giới cực kỳ chính xác, ngay cả trong các bối cảnh phức tạp. Việc tích hợp các mô hình này vào quy trình CBIR sẽ là một hướng đi đầy hứa hẹn. Một vector đặc trưng được trích xuất từ các vùng ảnh được phân đoạn bằng học sâu sẽ mang nhiều thông tin ngữ nghĩa hơn, từ đó cải thiện mạnh mẽ hiệu quả của việc tính toán độ đo tương đồng.

6.2. Hướng tới hệ thống CBIR thông minh và tự động hoàn toàn

Mục tiêu cuối cùng là xây dựng một hệ thống truy xuất ảnh theo nội dung hoàn toàn tự động và thông minh. Thay vì dựa vào các thuật toán với các tham số được tinh chỉnh thủ công, các hệ thống tương lai có thể sử dụng mạng nơ-ron tích chập (CNN) để tự động học cách phân vùng ảnh và trích xuất đặc trưng ảnh một cách tối ưu. Hơn nữa, các kỹ thuật học máy như học phản hồi liên quan (relevance feedback) có thể được tích hợp để hệ thống học hỏi từ tương tác của người dùng, liên tục cải thiện kết quả tìm kiếm theo thời gian. Đây là những định hướng nghiên cứu quan trọng cho bất kỳ ai muốn theo đuổi một luận văn ngành khoa học máy tính trong lĩnh vực này.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

16/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 TONG QUAN VE PHAN DOAN ANH Xu ly anh ngay nay da tro thanh mot nganh khoa hoc lon, da co mat trong nhiễu lĩnh vực của cuộc séng. Dieu này chúng ta có thể diễn giải được từ một định nghĩa đơn giản vê ngành khoa học này: Xử lý ảnh là ngành khoa học nghiên cứu các giai đoạn xứ lý thông tin dạng hình ảnh, mà hình ảnh là một trong những dạng thông tin phong phú nhất đối với chúng ta. Bước quan trọng nhất và cũng là khó khăn nhất trong giai đoạn xử lý ảnh là bước phân đoạn ảnh. Phán đoạn là việc phán tách các đối tuong cẩu thành nên ảnh thô từ đó có thể sử dụng cho các ứng dụng sau này.

MOT SO KHAI NIEM VE XU LY ANH 1. Giới thiệu Thế giới kỹ thuật số là kỹ thuật số với sự xuất hiện của nhiều thiết bị được sử dụng trong việc thu nhận hình ảnh. Ngày nay, việc lưu trữ số lượng lớn hình ảnh trở nên dễ dàng bằng cách sử dụng các kỹ thuật xử lý hình ảnh. Việc truy cập nhanh vào các bộ sưu tập hình ảnh không lồ này và truy xuất các hình ảnh tương tự của một hình ảnh nhất định (Truy vấn) từ bộ sưu tập hình ảnh khống lồ này đưa ra những thách thức lớn và đòi hỏi các thuật toán hiệu quả.

Mục tiêu chính của hệ thông được đề xuất là cung cấp một kết quả chính xác với thời gian tính toán thấp hơn. Với mục đích của chúng tôi, chúng tôi giới thiệu trong hệ thống truy xuất hình ảnh dựa trên nội dung (CBIR) bước phân loại và chúng tôi áp dụng kỹ thuật phân cụm k-nghĩa để khớp với các mô tả hình ảnh. Công việc này cung cấp một cái nhìn chỉ tiết về giải pháp mà chúng tôi đã áp dụng và đáp ứng hoàn hảo nhu cầu của chúng tôi. Để xác thực, chúng tôi áp dụng tất cả các kỹ thuật này trên hai cơ sở dữ liệu hình ảnh đề đánh giá hiệu suất của hệ thống của chúng tôi.

Nhiều kỹ thuật xử lý hình ảnh kỹ thuật số, hay xử lý hình ảnh kỹ thuật số như thường được gọi, đã được phát triển vào những năm 1960, tại Phòng thí nghiệm Bell, Phong thi nghiệm Động cơ phản lực, Viện Công nghệ Massachusetts, Đại học Maryland và một vài cơ sở nghiên cứu khác, với ứng dụng cho hình ảnh vệ tinh, chuyên đổi tiêu chuẩn ảnh dây, hình ảnh y tế, điện thoại truyền hình, nhận dạng nhân vật và nâng cao hình ảnh. [3| Mục đích của việc xử lý hình ảnh sớm là để cải thiện chất lượng của hình ảnh. Nó nhằm mục đích cho con người để cải thiện hiệu ứng hình ảnh của con người. Trong xử lý hình ảnh, đầu vào là hình ảnh chất lượng thấp và đầu ra là hình ảnh có chất lượng được cải thiện.

Xử lý hình ảnh phô biến bao gồm nâng cao hình ảnh, phục hồi, mã hóa và nén. Ứng dụng thành công đầu tiên là Phòng thí nghiệm Động cơ phản lực Mỹ (JPL). Họ đã sử dụng các kỹ thuật xử lý hình ảnh như hiệu chỉnh hình học, chuyên đôi màu, loại bỏ nhiễu, v. trên hàng ngàn bức ảnh mặt trăng được gửi bởi Space dò Ranger 7 vào năm 1964, có tính đến vị trí của mặt trời và môi trường của mặt trăng.

Tác động của việc lập bản đồ thành công bản đồ bề mặt của mặt trăng bằng máy tính là một thành công lớn. Sau đó, giai đoạn xử lý hình ảnh phức tạp hơn đã được thực hiện trên gần 100.000 bức ảnh được gửi lại bởi tàu vũ trụ, nhờ đó đã thu được bản đồ địa hình, bản đồ màu và khảm toàn cảnh mặt trăng, đạt được kết quả phi thường và đặt nên móng vững chắc cho con người hạ cánh mặt trăng. Tuy nhiên, chỉ phí xử lý khá cao với thiết bị điện toán thời đó. Điều đó đã thay đôi vào những năm 1970, khi việc xử lý hình ảnh kỹ thuật số tăng sinh khi các máy tính rẻ hơn và phần cứng chuyên dụng trở nên có sẵn.

Điều này dẫn đến 5 hình ảnh được xử lý trong thời gian thực, đối với một số vấn đề chuyên dụng như chuyên đôi tiêu chuẩn truyền hình. Khi các máy tính đa năng trở nên nhanh hơn, chúng bắt đầu đảm nhận vai trò của phần cứng chuyên dụng cho tất cả các hoạt động ngoại trừ máy tính chuyên dụng và chuyên sâu nhất. Với các máy tính nhanh và bộ xử lý tín hiệu có sẵn trong những năm 2000, xử lý hình ảnh kỹ thuật số đã trở thành hình thức xử lý hình ảnh phô biến nhất và thường được sử dụng vì đây không chỉ là phương pháp linh hoạt nhất mà còn rẻ nhất. Các giai đoạn xử lý ảnh Các giai đoạn xử lý ảnh được biết là quá xử lý ảnh đầu vào từ đó đưa ra được kết quả như ý.

Nhằm thu lại kết quả là ảnh “tốt hơn” hoặc một kết luận. Ảnh đầu vào Ảnh đầu ra —\| Xử lý ảnh mm. nẳằẶ_ Kêt luận Hình 1.1: Các giai đoạn xử lý ảnh Trong việc xử lý ảnh, ảnh được xem là tập hợp các điểm ảnh giống như ảnh có n chiêu. Tại một vị trí bất kì nào đó của đối tượng mỗi điểm ảnh được coi như đặc trưng cường độ sáng hay một dấu hiệu nào đó của đối tượng trong không gian và nên nó có thé xem như một hàm n biến P(cl, c2,.

Các giai đoạn xử lý ảnh có thể được mô tả bằng sơ đồ sau: I _ Biéu dién va Ti Phân đoạn ” ne mo ta anh Tién xt ly anh [> CƠ SỞ Ỷ 4 TRITHUC |< Nhận dạng và — Thu nhận > nỘI suy Hình 1.2: Các giai đoạn xử lý ảnh chỉ tiết 1. Thu nhận ảnh: Là công đoạn đầu tiên quan trọng đối với một quá trình xử lý ảnh. Ảnh đầu vào được thu nhận qua các thiết bị là máy quét, camera, sensor, vv. tiếp sau đó các tín hiệu này sẽ được xử lý số hóa.

Một số thông số quan trọng ở bước này là chất lượng màu, dung lượng bộ nhớ độ phân giải, và tốc độ thu nhận ảnh của các thiết bị. Tiền xử lý: là bước mà ảnh sẽ được xử lý về độ tương phản,khử độ lệch, khử nhiễu, khử bóng vv. nhằm làm cho chất lượng ảnh trở nên tốt hơn các bộ lọc sẽ thực hiện việc này. Phân đoạn ảnh: Ảnh sẽ được xử lý phân tích cho ra thành các phần tử có cùng đặc điểm giống nhau dựa vào biên hoặc vùng liên thông — cùng mức xám, độ nhám, màu.

Kết quả của việc này nhằm đưa ra một mô tả khái quát của ảnh thô có cầu tạo từ các phần tử không giống nhau. Với đa số ứng dụng chỉ cần dùng vài đặc trưng nhất định trong khi đó lượng thông tin trong ảnh lại lớn, nên cần tôi giản lượng thông tin quá lớn đó. Quá trình đó là trích chọn đặc tính chủ yêu à phân vùng ảnh. Biểu diễn và mô tả hình ảnh: Phân đoạn ảnh xong sẽ cho ta dữ liệu pixel thô, gồm tập hợp các pixel của khu vực ảnh hoặc chức năng biên của một khu vực ảnh đó.

Với cả hai trường hợp này thì nên chuyển đổi dữ liệu thô sang loại khác phù hợp hơn để giúp máy tính xử lý. Việc đầu tiên khi chuyển đổi là xác định đại diện một khu vực ảnh là khu hoàn chin chứa các pixel của nó hay là một ranh giới. Biếu diễn ranh giới của một khu vực phù hợp cho ứng dụng chủ yếu liên quan đến các đặc điểm ngoài của các đối tượng, chăng hạn như các biến dạng trên ranh giới và các cạnh. Các biểu diễn khu vực phù hợp với các ứng dụng dùng khai thác các thuộc tính bên trong đôi tượng, chăng hạn như hình ảnh hoặc cầu trúc khung xương của nó.

Một phần quan trọng trong việc đôi chuyển đữ liệu hình ảnh thô thành định dạng phù hợp hợn cho việc xử lý là việc lựa chọn ảnh đại diện phù hợp cho khu vực hình ảnh. Ngoài ra ta còn phải có một phương pháp mô tả các dữ liệu sẽ được chuyên đổi để cho các thuộc tính quan tâm được tô sáng và để xử lý chúng dễ dàng hơn. Nhận dạng và nội suy: Đây là bước cuối cùng trong quy trình xử lý ảnh. Nhận dạng hình ảnh có thê được nhìn thấy đơn giản bang cach dan nhãn các đối tượng trong hình ảnh.

Nội suy là quá trình gắn ý nghĩa cho một tập hợp các đối tượng đã biết. Hầu hết các ứng dụng đều chỉ đừng lại ở việc tiền xử lý. Các chức năng như nội suy, nhận dạng hay chỉ xuất hiện trong phân tích hình ảnh tự động, bán tự động, nhận dạng chữ viết tay, trích xuất thông tin tử hình ảnh. Một số khái niệm cơ bản 1.

Điểm ảnh - Pixel Hình ảnh thật là tập hợp hình ảnh liên tục của các giả trị không gian và độ sáng. Nếu muốn xử lý hình ảnh bằng máy tính, hình ảnh cần phải được số hóa. Quá trình số hóa là việc người ta thu lay tín hiệu rời rạc từ tín hiệu liên tục thông qua quá trình lây mẫu và định lượng các thành phần giá trị, về nguyên tắc, hai điểm liên kề sẽ không thể nhìn thấy bằng mắt thường. Trong quá trình này, ta sử dụng khái niệm Pixel - là yếu tố Ảnh mà chúng ta quen thuộc.

Tập các Pixel sẽ tạo thành một hình ảnh. Mức xám - ŒGray level Việc mã hóa tương ứng cường độ sáng cua ting pixel co giá tri sang gọi là mức xám, là kết quả của lượng tử hóa. Mã hóa thường được sử dụng là 1ó, 32 hoặc 64 cấp độ. Mức 256 là mức phổ biến nhất - mỗi Pixel được mã hóa với 8 bịt.

Biên Đề có thê phân biệt đối tượng này với đối tượng khác ta nhờ vào một tính năng rất quan trọng là Biên. Cạnh của hình ảnh là tập hợp của nhiều điểm biên. Một pixel cũng có thé duoc xem là một ranh ĐIỚI nếu tại đó có sự thay đôi mức độ màu xám đột ngột. Láng giêng Một khái niệm rất quan trọng trong xử lý ảnh là khái niệm lang giéng.

Láng giềng được chia hai loại: 8 lang giéng, 4 lang giéng. - 8 láng giềng của (x,y) la bao gồm láng giềng ngang, dọc và chéo (là một tập cha của 4 láng giêng): N§(Œ.y)) = N4((,y)) © {Œ+1,y+1), (x-1,y-1), (x+1,y-1), %-1,y+1)) - 4 láng giềng của (x,y) là một tập hợp bao gồm láng giềng ngang và dọc của nó: N4(Œ. Vùng hiên thông Nếu hai điểm (xa,yA) và (xs,yp) bất kỳ của R có thể được nối bởi một đường (XA. Diém (x,,y,) duoc cho là kề với điểm (x¿,y¿) nếu (xx,y,) thuộc vào lang giéng trực tiếp của (x,,y,) thi ving R sé được gọi là liên thông.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

xử lý và phân tích ảnh số

hệ thống tra cứu thông tin

thuật toán học máy và thị giác máy tính

Luận văn: Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh

I. Tổng quan luận văn tra cứu ảnh dựa trên phân đoạn ảnh

1.1. Bối cảnh ra đời của hệ thống CBIR và vai trò then chốt

1.2. Phân đoạn ảnh Nền tảng của việc trích xuất đặc trưng ảnh

II. Thách thức chính trong tra cứu ảnh và xử lý ảnh số

2.1. Vấn đề khoảng cách ngữ nghĩa trong các hệ thống CBIR

2.2. Khó khăn khi lựa chọn thuật toán phân vùng ảnh phù hợp

III. Phương pháp phân đoạn ảnh theo mô hình tách và ghép vùng

3.1. Kỹ thuật ghép vùng với thuật toán CBC và single linkage

3.2. Kỹ thuật tách vùng dựa trên tiêu chí đồng nhất CSI

IV. Cách dùng thuật toán K means clustering để phân đoạn ảnh

4.1. Quy trình phân đoạn ảnh màu bằng thuật toán K means

4.2. So sánh hiệu quả giữa K means và phân cụm phân cấp

V. Kết quả ứng dụng và đánh giá hệ thống tra cứu ảnh

5.1. Xây dựng chương trình thử nghiệm và cơ sở dữ liệu ảnh

5.2. Đánh giá hiệu quả giữa các phương pháp phân đoạn khác nhau

5.3. Ý nghĩa khoa học và thực tiễn của luận văn thạc sĩ

VI. Hướng phát triển tương lai cho tra cứu ảnh phân đoạn

6.1. Tích hợp học sâu trong phân đoạn ảnh để tăng độ chính xác

6.2. Hướng tới hệ thống CBIR thông minh và tự động hoàn toàn

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Luận Văn Thạc Sĩ Nghiên Cứu Phương Pháp Tra Cứu Ảnh Dựa Trên Thuật Toán Phân Đoạn Ảnh

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: Thành Phố Hồ Chí Minh

Luận văn: Nghiên cứu phương pháp tra cứu ảnh dựa trên thuật toán phân đoạn ảnh

I. Tổng quan luận văn tra cứu ảnh dựa trên phân đoạn ảnh

1.1. Bối cảnh ra đời của hệ thống CBIR và vai trò then chốt

1.2. Phân đoạn ảnh Nền tảng của việc trích xuất đặc trưng ảnh

II. Thách thức chính trong tra cứu ảnh và xử lý ảnh số

2.1. Vấn đề khoảng cách ngữ nghĩa trong các hệ thống CBIR

2.2. Khó khăn khi lựa chọn thuật toán phân vùng ảnh phù hợp

III. Phương pháp phân đoạn ảnh theo mô hình tách và ghép vùng

3.1. Kỹ thuật ghép vùng với thuật toán CBC và single linkage

3.2. Kỹ thuật tách vùng dựa trên tiêu chí đồng nhất CSI

IV. Cách dùng thuật toán K means clustering để phân đoạn ảnh

4.1. Quy trình phân đoạn ảnh màu bằng thuật toán K means

4.2. So sánh hiệu quả giữa K means và phân cụm phân cấp

V. Kết quả ứng dụng và đánh giá hệ thống tra cứu ảnh

5.1. Xây dựng chương trình thử nghiệm và cơ sở dữ liệu ảnh

5.2. Đánh giá hiệu quả giữa các phương pháp phân đoạn khác nhau

5.3. Ý nghĩa khoa học và thực tiễn của luận văn thạc sĩ

VI. Hướng phát triển tương lai cho tra cứu ảnh phân đoạn

6.1. Tích hợp học sâu trong phân đoạn ảnh để tăng độ chính xác

6.2. Hướng tới hệ thống CBIR thông minh và tự động hoàn toàn

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Công Nghệ Thông Tin

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Luận Văn Thạc Sĩ Nghiên Cứu Phương Pháp Tra Cứu Ảnh Dựa Trên Thuật Toán Phân Đoạn Ảnh

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: Thành Phố Hồ Chí Minh

Có thể bạn quan tâm