Giáo trình nhận dạng và xử lý ảnh Phần 2 - Chương 4: Trích chọn đặc trưng

Khám phá giáo trình nhận dạng và xử lý ảnh phần 2, cung cấp kiến thức chuyên sâu và ứng dụng thực tiễn trong lĩnh vực công nghệ hình ảnh.

Người đăng

Ẩn danh
137
1
0

Phí lưu trữ

35 Point

Tóm tắt

I. Khám phá giáo trình nhận dạng và xử lý ảnh phần 2 mới nhất

Tiếp nối các kiến thức nền tảng, Giáo trình nhận dạng và xử lý ảnh phần 2 đi sâu vào các kỹ thuật nâng cao, đóng vai trò then chốt trong lĩnh vực thị giác máy tính hiện đại. Nội dung phần này tập trung vào cốt lõi của việc "hiểu" một bức ảnh: trích xuất các thông tin có ý nghĩa thay vì chỉ xử lý điểm ảnh thô. Quá trình trích xuất đặc trưng ảnh là bước biến đổi dữ liệu hình ảnh ban đầu thành một tập hợp các đặc trưng (features) gọn nhẹ nhưng giàu thông tin, giúp các mô hình nhận dạng mẫu hoạt động hiệu quả và chính xác hơn. Các phương pháp được trình bày không chỉ là lý thuyết mà còn là nền tảng cho vô số ứng dụng thực tiễn, từ phát hiện đối tượng trong camera an ninh đến xử lý ảnh y tế chẩn đoán bệnh. Thay vì xử lý hàng triệu pixel, máy tính sẽ làm việc với các vector đặc trưng mô tả cạnh, góc, kết cấu hay hình dáng của đối tượng. Bài giảng nhận dạng và xử lý ảnh này sẽ hệ thống hóa các kỹ thuật từ cổ điển như phát hiện cạnh, phát hiện góc cho đến các bộ mô tả đặc trưng mạnh mẽ như SIFT, SURF, và HOG. Việc nắm vững các kỹ thuật này là yêu cầu cơ bản để giải quyết các bài toán phức tạp và là bước đệm để tiếp cận các phương pháp học sâu cho thị giác máy tính như mạng nơ-ron tích chập (CNN). Các slide xử lý ảnh phần 2 sẽ cung cấp cái nhìn chi tiết, trực quan về từng thuật toán, giúp người học xây dựng một nền tảng kiến thức vững chắc.

1.1. Tầm quan trọng của trích xuất đặc trưng ảnh nâng cao

Trích xuất đặc trưng ảnh là quá trình biến đổi dữ liệu ảnh thô thành một tập hợp các đặc trưng (feature) có thể biểu diễn dữ liệu ban đầu tốt hơn. Nhiệm vụ này cực kỳ quan trọng, quyết định mức độ thành công của các thuật toán phân loại ảnhnhận dạng mẫu. Thay vì làm việc với ma trận điểm ảnh khổng lồ, các mô hình sẽ phân tích trên không gian đặc trưng có số chiều nhỏ hơn, giúp giảm tài nguyên tính toán và tránh hiện tượng "quá khớp" (overfitting). Theo tài liệu, đặc trưng ảnh được chia làm hai loại: đặc trưng mức thấp (low-level) và mức cao (high-level). Đặc trưng mức thấp, như cạnh và góc, được trích rút trực tiếp từ ảnh mà không cần thông tin ngữ cảnh. Ngược lại, đặc trưng mức cao mô tả hình dáng, đối tượng và thường được xây dựng dựa trên các đặc trưng mức thấp. Việc lựa chọn phương pháp trích xuất đặc trưng phù hợp là yếu tố tiên quyết để xây dựng các hệ thống thị giác máy tính hiệu quả.

1.2. Cấu trúc tài liệu xử lý ảnh nâng cao và các khái niệm cốt lõi

Một tài liệu xử lý ảnh nâng cao điển hình thường được cấu trúc theo sự tiến triển của các kỹ thuật. Phần đầu tập trung vào các phương pháp trích chọn đặc trưng cơ bản như phát hiện cạnh (Sobel, Prewitt, Canny) và điểm chính (Harris, Forstner). Đây là những viên gạch nền móng cho các thuật toán phức tạp hơn. Tiếp theo, giáo trình sẽ giới thiệu các bộ mô tả đặc trưng mạnh mẽ (feature descriptors) như SIFT, SURF, HOG, vốn có khả năng bất biến với các phép biến đổi hình học như co giãn, quay và thay đổi góc nhìn. Cuối cùng, tài liệu thường kết nối các phương pháp cổ điển này với các kỹ thuật hiện đại như học sâu cho thị giác máy tính. Các khái niệm cốt lõi cần nắm vững bao gồm: không gian tỷ lệ (scale-space), histogram định hướng gradient, và các toán tử ma trận như Hessian. Việc hiểu rõ cấu trúc và các khái niệm này giúp người học tiếp cận lĩnh vực xử lý ảnh kỹ thuật số một cách hệ thống và bài bản.

II. Thách thức trong xử lý ảnh kỹ thuật số và nhận dạng mẫu

Một trong những thách thức lớn nhất trong xử lý ảnh kỹ thuật số là khối lượng dữ liệu khổng lồ. Một bức ảnh đơn giản chứa hàng triệu điểm ảnh, mỗi điểm lại có nhiều giá trị màu. Việc phân tích trực tiếp trên dữ liệu thô này đòi hỏi tài nguyên tính toán cực lớn và thường không hiệu quả. Vấn đề thứ hai, và cũng là quan trọng nhất, là sự biến đổi của đối tượng trong ảnh. Cùng một vật thể có thể xuất hiện với kích thước, góc quay, điều kiện chiếu sáng, và góc nhìn khác nhau. Một hệ thống nhận dạng mẫu hiệu quả phải có khả năng nhận diện đối tượng một cách nhất quán bất chấp những thay đổi này. Đây được gọi là bài toán xây dựng các đặc trưng bất biến (invariant features). Các thuật toán cổ điển gặp khó khăn trong việc tạo ra các đặc trưng vừa có tính phân biệt cao (distinctive) vừa có tính bền vững (robust). Ví dụ, một đặc trưng dựa trên màu sắc sẽ thất bại hoàn toàn khi ánh sáng thay đổi. Do đó, mục tiêu của các phương pháp trong giáo trình nhận dạng và xử lý ảnh phần 2 là tìm ra các giải pháp để vượt qua những rào cản này, tạo ra các biểu diễn đặc trưng mạnh mẽ, làm tiền đề cho các ứng dụng thị giác máy tính phức tạp. Việc này đòi hỏi các kỹ thuật tinh vi để giảm chiều dữ liệu mà vẫn giữ lại những thông tin cốt lõi nhất.

2.1. Vấn đề bất biến trước các phép biến đổi hình học

Đối tượng trong thế giới thực hiếm khi xuất hiện ở một tư thế cố định. Khi được chụp ảnh, chúng có thể bị xoay, thay đổi tỷ lệ (phóng to, thu nhỏ), hoặc biến dạng do thay đổi góc nhìn. Một thuật toán nhận dạng đối tượng tốt phải tạo ra một vector đặc trưng không thay đổi hoặc thay đổi rất ít trước các biến đổi này. Ví dụ, đặc trưng SIFT (Scale-Invariant Feature Transform) được thiết kế đặc biệt để giải quyết vấn đề bất biến với tỷ lệ và phép quay. Thách thức nằm ở việc thiết kế các toán tử toán học có thể "nhìn" đối tượng ở nhiều thang đo (multi-scale) và xác định một hướng chính (canonical orientation) để chuẩn hóa. Việc không giải quyết được tính bất biến sẽ dẫn đến việc hệ thống nhận dạng sai cùng một đối tượng khi nó chỉ cần xoay nhẹ hoặc ở xa hơn.

2.2. Ảnh hưởng của điều kiện chiếu sáng và nhiễu ảnh

Điều kiện môi trường là một yếu tố khó kiểm soát. Sự thay đổi về cường độ và hướng của nguồn sáng có thể làm thay đổi hoàn toàn giá trị cường độ sáng của các điểm ảnh, gây khó khăn cho các thuật toán so khớp. Ngoài ra, nhiễu (noise) từ cảm biến máy ảnh hoặc trong quá trình truyền tín hiệu cũng làm sai lệch dữ liệu gốc. Một phương pháp trích xuất đặc trưng ảnh bền vững phải có khả năng chống lại các ảnh hưởng này. Các kỹ thuật như chuẩn hóa histogram, sử dụng gradient thay vì giá trị cường độ sáng tuyệt đối, và các bộ lọc làm trơn như bộ lọc Gaussian (được dùng trong thuật toán Canny và SIFT) là những giải pháp phổ biến. Mục tiêu là trích xuất các đặc trưng cấu trúc của đối tượng, vốn ít bị ảnh hưởng bởi ánh sáng và nhiễu hơn là các đặc trưng bề mặt.

III. Hướng dẫn trích xuất đặc trưng ảnh Cạnh và Điểm chính

Các đặc trưng cơ bản như cạnh và điểm chính (keypoint) là nền tảng của nhiều thuật toán thị giác máy tính. Cạnh là nơi cường độ sáng của ảnh thay đổi đột ngột, thường tương ứng với đường biên của đối tượng. Việc phát hiện cạnh giúp giảm lượng lớn dữ liệu cần xử lý và giữ lại thông tin cấu trúc quan trọng. Các toán tử như Sobel, Prewitt, và Robert hoạt động dựa trên nguyên lý tính đạo hàm bậc nhất của ảnh theo các hướng khác nhau để tìm ra các điểm có gradient lớn. Trong số các phương pháp phát hiện cạnh, thuật toán Canny được xem là tiêu chuẩn vàng nhờ quy trình nhiều bước phức tạp, bao gồm làm mờ bằng bộ lọc Gaussian, tính gradient, loại bỏ điểm không cực đại và theo dõi cạnh bằng ngưỡng kép, giúp tạo ra các đường biên mỏng và liên tục. Bên cạnh cạnh, điểm chính là những điểm đặc biệt trong ảnh như góc (corner). Phương pháp Harris Corner Detection xác định các góc bằng cách phân tích sự thay đổi cường độ sáng trong một cửa sổ lân cận khi dịch chuyển theo mọi hướng. Những điểm này có tính ổn định cao và thường được sử dụng làm điểm neo để so khớp hình ảnh. Nắm vững các kỹ thuật này là bước đầu tiên trong bài giảng nhận dạng và xử lý ảnh để có thể xây dựng các ứng dụng như ghép ảnh panorama hay theo dõi vật thể.

3.1. Kỹ thuật phát hiện cạnh với Sobel Prewitt và Canny

Phát hiện cạnh là một kỹ thuật trích xuất đặc trưng ảnh mức thấp cơ bản. Toán tử Sobel và Prewitt sử dụng các mặt nạ (kernel) 3x3 để xấp xỉ đạo hàm bậc nhất theo hướng ngang và dọc. Kết quả là hai bản đồ gradient, sau đó được kết hợp để tính độ lớn và hướng của cạnh. Toán tử Robert sử dụng mặt nạ 2x2 và nhạy với các cạnh chéo. Tuy nhiên, các phương pháp này thường tạo ra các cạnh dày và nhạy với nhiễu. Thuật toán Canny, được đề xuất bởi John Canny vào năm 1986, giải quyết các nhược điểm này thông qua một quy trình 5 bước. Nó không chỉ phát hiện cạnh mà còn "làm mỏng" chúng (non-maximum suppression) và kết nối các điểm cạnh yếu nếu chúng liên kết với các điểm cạnh mạnh (hysteresis thresholding). Kết quả là các đường biên rõ nét, liên tục và ít bị ảnh hưởng bởi nhiễu hơn đáng kể so với các phương pháp trước đó.

3.2. Phương pháp phát hiện điểm góc Harris và Forstner

Điểm góc là một loại đặc trưng điểm chính (interest point) quan trọng, có tính bất biến cao với phép quay và thay đổi cường độ sáng. Phương pháp Harris hoạt động dựa trên nguyên lý: tại một góc, nếu dịch chuyển một cửa sổ nhỏ theo bất kỳ hướng nào, sự thay đổi về cường độ sáng đều lớn. Về mặt toán học, điều này được thực hiện bằng cách tính ma trận moment bậc hai (cấu trúc tensor) và phân tích các giá trị riêng (eigenvalues) của nó. Nếu cả hai giá trị riêng đều lớn, điểm đó được xác định là một góc. Trong khi đó, phương pháp Forstner cung cấp một cách tiếp cận khác, xác định điểm góc là điểm gần nhất với tất cả các đường thẳng tiếp tuyến của một góc trong một cửa sổ. Phương pháp này đặc biệt hữu ích khi cần xác định vị trí góc với độ chính xác cao hơn cả mức pixel (sub-pixel accuracy), rất quan trọng trong các ứng dụng đo lường và hiệu chỉnh hình ảnh.

IV. Top 3 bộ mô tả SIFT SURF và HOG trong xử lý ảnh nâng cao

Khi các đặc trưng cơ bản không đủ để giải quyết các bài toán phức tạp, các bộ mô tả đặc trưng (feature descriptors) nâng cao như SIFT, SURF, và HOG đã ra đời và tạo nên một cuộc cách mạng trong thị giác máy tính. SIFT (Scale-Invariant Feature Transform) là một trong những thuật toán nổi tiếng nhất, có khả năng phát hiện và mô tả các điểm chính bất biến với sự thay đổi về tỷ lệ, góc quay và một phần điều kiện ánh sáng. Thuật toán SIFT hoạt động qua bốn bước chính: xác định cực trị trong không gian tỷ lệ bằng hàm Sai khác Gaussian (DoG), định vị chính xác điểm chính, gán hướng cho điểm chính, và cuối cùng là tạo ra một vector mô tả 128 chiều dựa trên histogram gradient. SURF (Speeded Up Robust Features) được phát triển như một phiên bản nhanh hơn của SIFT. SURF sử dụng định thức của ma trận Hessian để phát hiện điểm chính và kỹ thuật ảnh tích phân (integral image) để tăng tốc đáng kể quá trình tính toán. Trong khi đó, HOG (Histogram of Oriented Gradients) không tập trung vào các điểm chính riêng lẻ mà mô tả hình dáng của đối tượng trong toàn bộ một vùng ảnh. Bằng cách chia ảnh thành các ô (cell) và khối (block) nhỏ, sau đó tính toán histogram của các hướng gradient, HOG tạo ra một vector đặc trưng rất hiệu quả cho bài toán phát hiện đối tượng, đặc biệt là phát hiện người đi bộ. Các bộ mô tả này là công cụ nền tảng trong nhiều tài liệu xử lý ảnh nâng cao.

4.1. Phân tích thuật toán SIFT Bất biến với tỷ lệ và quay

Được đề xuất bởi David Lowe, SIFT là một cột mốc trong trích xuất đặc trưng ảnh. Tính bất biến với tỷ lệ đạt được bằng cách tìm kiếm các điểm cực trị trên nhiều mức của không gian tỷ lệ, được xây dựng bằng cách làm mờ ảnh với các bộ lọc Gaussian có phương sai khác nhau. Điều này đảm bảo rằng một điểm đặc trưng (ví dụ: góc của một tòa nhà) sẽ được phát hiện dù máy ảnh ở gần hay xa. Tính bất biến với phép quay được giải quyết bằng cách tính toán hướng gradient trội trong một vùng lân cận quanh mỗi điểm chính và xoay hệ tọa độ của bộ mô tả theo hướng đó. Cuối cùng, vector mô tả SIFT 128 chiều được tạo ra từ histogram gradient của một vùng 16x16 pixel quanh điểm chính. Vector này có tính phân biệt cao, cho phép so khớp chính xác các điểm chính giữa hai ảnh khác nhau.

4.2. So sánh SURF và SIFT Tốc độ và độ chính xác

SURF ra đời với mục tiêu duy trì độ chính xác của SIFT nhưng cải thiện đáng kể về tốc độ. Thay vì dùng DoG để xấp xỉ toán tử Laplace, SURF sử dụng trực tiếp định thức của ma trận Hessian, vốn có thể được tính toán cực nhanh nhờ ảnh tích phân (integral image) và các bộ lọc hộp (box filters). Ảnh tích phân là một cấu trúc dữ liệu cho phép tính tổng các giá trị pixel trong một vùng hình chữ nhật bất kỳ chỉ với bốn phép toán. Điều này giúp SURF nhanh hơn SIFT vài lần. Về bộ mô tả, SURF sử dụng tổng các đáp ứng của Haar wavelet thay vì histogram gradient, tạo ra một vector đặc trưng 64 chiều (phiên bản tiêu chuẩn), nhỏ gọn hơn SIFT. Mặc dù có những khác biệt, cả hai đều là những công cụ cực kỳ mạnh mẽ cho các bài toán nhận dạng mẫu và so khớp ảnh.

4.3. Biểu diễn hình dáng với Histogram of Oriented Gradients HOG

Khác với SIFT và SURF tập trung vào các điểm cục bộ, HOG là một bộ mô tả vùng (region descriptor). Ý tưởng cốt lõi là hình dáng và cấu trúc cục bộ của một đối tượng có thể được mô tả tốt bằng sự phân bố của cường độ và hướng gradient. Quá trình trích xuất đặc trưng HOG bắt đầu bằng việc chia cửa sổ phát hiện thành các ô (cell) nhỏ, liền kề. Trong mỗi ô, một histogram của các hướng gradient được xây dựng. Sau đó, các ô được nhóm lại thành các khối (block) lớn hơn, chồng chéo lên nhau. Vector đặc trưng của mỗi khối được chuẩn hóa để tăng khả năng chống chịu với sự thay đổi ánh sáng. Cuối cùng, tất cả các vector đặc trưng của các khối được nối lại để tạo thành vector HOG cuối cùng cho toàn bộ cửa sổ. Phương pháp này đã chứng tỏ hiệu quả vượt trội trong bài toán phát hiện đối tượng như người đi bộ và xe cộ.

V. Ứng dụng thực tiễn của các phương pháp xử lý ảnh nâng cao

Các kỹ thuật được trình bày trong giáo trình nhận dạng và xử lý ảnh phần 2 không chỉ là lý thuyết suông mà có vô số ứng dụng thực tiễn, làm thay đổi nhiều ngành công nghiệp. Trong lĩnh vực thị giác máy tính tự động, các thuật toán phát hiện đối tượng dựa trên đặc trưng HOG hoặc Haar-like được tích hợp trong hệ thống giám sát an ninh, xe tự lái để nhận diện người, phương tiện và biển báo giao thông. So khớp ảnh sử dụng SIFT và SURF là công nghệ cốt lõi đằng sau các ứng dụng ghép ảnh panorama, xây dựng mô hình 3D từ nhiều ảnh 2D (Structure from Motion), và thực tế tăng cường (AR). Trong lĩnh vực y tế, xử lý ảnh y tế sử dụng các kỹ thuật phân đoạn ảnhphân loại ảnh để tự động phát hiện khối u trong ảnh X-quang, MRI, hoặc phân tích tế bào dưới kính hiển vi, hỗ trợ đắc lực cho các bác sĩ trong việc chẩn đoán. Ngay cả trong điện thoại thông minh, các thuật toán nhận dạng khuôn mặt để mở khóa hay tự động lấy nét trong camera đều dựa trên các nguyên tắc trích xuất đặc trưng này. Việc sử dụng các thư viện mã nguồn mở như OpenCV Python giúp các nhà phát triển dễ dàng triển khai các ứng dụng mạnh mẽ này một cách nhanh chóng.

5.1. Nhận dạng và theo vết đối tượng trong video an ninh

Trong lĩnh vực giám sát, việc tự động phát hiện và theo dõi các đối tượng chuyển động là một nhiệm vụ quan trọng. Các bộ mô tả như HOG và Haar-like features kết hợp với các bộ phân loại như SVM hoặc AdaBoost tạo thành các bộ dò đối tượng (object detector) mạnh mẽ. Một khi đối tượng được phát hiện trong một khung hình, các thuật toán theo vết (tracking) sẽ sử dụng các đặc trưng như SIFT hoặc SURF để so khớp đối tượng đó qua các khung hình liên tiếp. Điều này cho phép hệ thống theo dõi quỹ đạo di chuyển của một người hoặc một chiếc xe, cảnh báo khi có hành vi bất thường hoặc xâm nhập vào khu vực cấm, nâng cao hiệu quả và giảm tải cho nhân viên an ninh.

5.2. Ứng dụng trong xử lý ảnh y tế và chẩn đoán bệnh

Ngành y tế đang ngày càng được hưởng lợi từ xử lý ảnh kỹ thuật số. Các kỹ thuật phân đoạn ảnh dựa trên đặc trưng kết cấu (texture features) có thể tự động khoanh vùng các cơ quan hoặc các vùng tổn thương như khối u. Sau khi khoanh vùng, các đặc trưng hình thái và kết cấu được trích xuất từ vùng đó. Dữ liệu này sau đó được đưa vào một mô hình phân loại ảnh để hỗ trợ chẩn đoán, ví dụ như phân biệt u lành tính và ác tính. Các phương pháp phát hiện điểm chính cũng được sử dụng để căn chỉnh (register) các ảnh y tế chụp ở các thời điểm khác nhau, giúp bác sĩ theo dõi sự tiến triển của bệnh một cách chính xác. Các kỹ thuật này giúp tăng độ chính xác, giảm thời gian chẩn đoán và phát hiện sớm các dấu hiệu bệnh lý.

VI. Tương lai ngành thị giác máy tính và học sâu cho xử lý ảnh

Mặc dù các phương pháp trích xuất đặc trưng thủ công (hand-crafted features) như SIFT, HOG đã và đang rất thành công, tương lai của ngành thị giác máy tính đang chứng kiến sự thống trị của học sâu cho thị giác máy tính. Thay vì các chuyên gia phải thiết kế các bộ trích xuất đặc trưng phức tạp, các mô hình học sâu, đặc biệt là mạng nơ-ron tích chập (CNN), có khả năng tự động học các đặc trưng hiệu quả trực tiếp từ dữ liệu ảnh. CNN xây dựng một hệ thống phân cấp các đặc trưng, từ các cạnh và góc đơn giản ở các lớp đầu tiên đến các bộ phận và đối tượng phức tạp ở các lớp sâu hơn. Các kiến trúc hiện đại như thuật toán YOLO (You Only Look Once) hay Faster R-CNN đã đẩy hiệu suất của bài toán phát hiện đối tượng thời gian thực lên một tầm cao mới, vượt xa các phương pháp truyền thống. Tuy nhiên, việc hiểu rõ các phương pháp cổ điển vẫn cực kỳ quan trọng. Chúng cung cấp nền tảng lý thuyết vững chắc, giúp các kỹ sư hiểu được "bên trong" các mô hình học sâu đang làm gì và là công cụ hữu ích khi lượng dữ liệu huấn luyện bị hạn chế. Các tài liệu xử lý ảnh nâng cao trong tương lai sẽ là sự kết hợp hài hòa giữa kiến thức cổ điển và các kỹ thuật học sâu tiên tiến.

6.1. Từ đặc trưng thủ công đến mạng nơ ron tích chập CNN

Sự chuyển dịch từ đặc trưng thủ công sang đặc trưng được học (learned features) là bước tiến lớn nhất trong thị giác máy tính. Các phương pháp như SIFT, SURF đòi hỏi sự am hiểu sâu sắc về toán học và xử lý tín hiệu để thiết kế. Ngược lại, mạng nơ-ron tích chập (CNN) chỉ cần một lượng lớn dữ liệu được gán nhãn và một hàm mất mát (loss function). Thông qua quá trình huấn luyện bằng thuật toán lan truyền ngược (backpropagation), mạng sẽ tự động điều chỉnh các trọng số của các bộ lọc tích chập để trích xuất ra những đặc trưng tối ưu nhất cho nhiệm vụ cụ thể (ví dụ: phân loại ảnh). Cách tiếp cận này không chỉ cho độ chính xác cao hơn mà còn có khả năng tổng quát hóa tốt hơn cho nhiều loại đối tượng và bối cảnh khác nhau.

6.2. Xu hướng phát triển tài liệu và slide xử lý ảnh phần 2

Các bài giảng nhận dạng và xử lý ảnh hiện đại không còn tách biệt giữa phương pháp cổ điển và học sâu. Xu hướng là trình bày các kỹ thuật như SIFT và HOG như những tiền đề, giúp sinh viên hiểu rõ bản chất của bài toán và các thách thức về tính bất biến. Sau đó, nội dung sẽ chuyển tiếp một cách tự nhiên sang CNN, giải thích cách các lớp tích chập thực hiện vai trò tương tự như các bộ lọc đặc trưng thủ công nhưng một cách tự động và hiệu quả hơn. Các slide xử lý ảnh phần 2 sẽ tích hợp nhiều ví dụ lập trình sử dụng các thư viện phổ biến như OpenCV Python cho các thuật toán cổ điển và TensorFlow/PyTorch cho các mô hình học sâu. Điều này giúp người học không chỉ nắm vững lý thuyết mà còn có khả năng xây dựng các ứng dụng thực tế, đáp ứng yêu cầu của ngành công nghiệp hiện nay.

16/07/2025

Trích đoạn nội dung tài liệu

Chuong 4 TRÍCH CHỌN ĐẶC TRƯNG CƠ BẢN Chương nảy trình bày khái niệm cơ bản về đặc trưng và phân tích trích chọn đặc trưng ảnh, một số phương pháp trích chọn đặc trưng cơ bản được sử dụng nhiều trong các ứng dụng nhận dạng mẫu và phân tích hình ảnh như phát hiện đị trưng cạnh theo toán ttr Sobel, Prewwitt, Robert, Canny; trich chon đặc trưng điểm chính (keypoint) như phương pháp Harris, Forstnerm và mô tả vùng đặc trưng vùng ảnh như Laplace of Gaussian, Different of Gaussian, Determinant of Hessian. CAC KHAI NIEM 4. Đặc trưng và trích chọn đặc trưng ảnh Đặc trưng ảnh là các thuộc tính được trích rút ra từ ảnh dựa trên phân phối cấu trúc hình ảnh, đối tượng có trong ảnh, từ đó tổng hợp các dữ liệu riêng lẻ để xác định thông tin có thể đo lường được khi quan sát, phân tích một tình huống nào đó từ dữ liệu hình ảnh. Phương pháp trích chọn và biểu diễn đặc trưng đề thể hiện một cách riêng biệt và độc lập là yêu cầu căn bản, quan trọng và quyết định mức độ thành công của phương pháp phân loại, nhận dạng mẫu. Trích chọn đặc trưng ảnh là nhiệm vụ hết sức quan trọng trong quá trình phân tích hình ảnh và nhận dạng mẫu từ tín hiệu ảnh thu nhận được. Không có định nghĩa đơn nhất, đồng thuận và chính xác hoàn toàn về thuật ngữ trích chọn đặc trưng (feature extraction) trong lĩnh vực xử lý ảnh. Theo tác giả trong tài liệu[17] thì trích chọn đặc trưng ảnh được hiểu là quá trình biến đổi dữ liệu thô ban đầu từ tín hiệu hình ảnh quan sát được thành các tín hiệu hoặc dữ liệu có nhiều thông tin hơn để biểu diễn và xử lý hiệu quả hơn so với dữ liệu thô ban đầu, nó mang ý nghĩa và giữ lại được những thông tin quan trọng phục vụ cho việc phân tích, phân loại và xử lý ngữ nghĩa hơn. Ở đây cần phân biệt khái niệm feature và attribute hay property. Trong tiếng Việt, thuật ngữ feature và attribute có đều được dịch là thuộc tính, 95 đặc trưng, đặc tính nhưng thực chất, feature thường có nghĩa bao hàm. Đặc biệt trong lĩnh vực nhận dạng và xử lý ảnh, khi một hình ảnh thu nhận từ đầu vào sẽ gồm các thuộc tính (attributes) là các điêm ảnh (giá trị cường độ sáng. màu của điểm ảnh). feature trong tình huồng này có thể là giá trị cường độ sáng ảnh. cũng có thê là các đường biên hay cầu trúc hình học của đối tượng có trong ảnh hoặc các tính chất khác được trích rút ra từ hình ảnh thô ban đầu như giá trị gradient, lược đồ ảnh,. Do vậy để phân biệt feature với attribute, trong tài liệu này, hai khái niệm đặc trưng và thuộc tính được dùng với nghĩa tương ứng với feature và attribute. Như vậy, trích chọn đặc trưng có thể hiểu là quá trình biến đổi tap dit liệu ảnh thô thành tập các đặc trưng (feature) có thê giúp biểu diễn dữ liệu ban đầu tốt hơn nhằm giải quyết các yêu cầu đặt ra dễ dàng hơn, phù hợp với từng mô hình xử lý cụ thê, đồng thời cũng làm tăng độ chính xác kết quả theo yêu cầu bài toán. Trích chọn đặc trưng trong ảnh bao gồm việc làm giảm bớt độ phức tạp, nguồn tài nguyên cần thiết để mô tả dữ liệu lớn trong ảnh. Khi thực hiện phân tích một lượng lớn dữ liệu phức tạp. thì một trong những vấn đề chính là số lượng các biến liên quan để biểu diễn và xử lý trong quá trình phân tích dữ liệu. Phân tích dữ liệu với một sỐ lượng lớn các biến thường đòi hỏi bộ nhớ và tài nguyên tính toắn máy tính lớn. Nó cũng là nguyên nhân dẫn đến một số thuật toán xử lý bị quá nhớ và mức độ tông quát hóa kém dẫn đến không giải quyết được khi mẫu dữ liệu mới đưa vào. Tóm lại, phương pháp trích chọn đặc trưng là một thuật ngữ chung để chỉ các phương pháp dùng đề xây dựng, kết hợp ‹ các biến dữ liệu để giải quyết các vấn đề của bài toán đặt ra trong khi vẫn mô tả đầy đủ dữ liệu và đảm bảo độ chính xác. Việc trích chọn đặc trưng là quá trình biến đôi ảnh đầu vào qua một không gian khác nhằm làm giảm bớt độ phức tạp của dữ liệu và làm nôi bật tính chất. đặc điểm của dữ liệu phục vụ tốt hơn cho mục đích cụ thể nào đó giúp nâng cao chất lượng phân tích ảnh. Ta có thê phân loại đặc trưng ảnh thành 2 loại là đặc trưng mức thấp và đặc trưng mức cao. Đặc trưng mức thấp Có nhiều cách hiểu khác nhau về đặc trưng mức thấp (Low-level hiểu đặc trưng mức feature). Theo Nixon và các tác giả trong tài liệu[18], trực tiếp từ ảnh thấp là các đặc trưng cø bản có thê được trích rút tự động 96 đầu vào mà không cần bất kỳ thông tin nào khác về hình dáng đối tượng (thông tin về các mối quan hệ không gian) và ngữ cảnh trong ảnh đó. Hiểu theo cách khác, đặc trưng mức thấp là những đặc trưng mang tính cục bộ, không biểu diễn nhiều thông tin về mối quan hệ ngữ cảnh, đặc tả tính chất trong phạm vỉ hẹp của ảnh. Ví dụ phương pháp lọc ảnh dựa vào ngưỡng là một hình thức trích xuất đặc trưng mức thấp áp dụng trực tiếp toán tử lọc trên điêm ảnh theo các phương pháp lọc ngưỡng đã trình bày ở chương trước. Đương nhiên, các phương pháp này có thê được sử dụng trong quá trình trích chọn đặc trưng mức cao, để tìm các hình dạng, đường biên đối tượng trong ảnh, nhận dạng người trong ảnh chân dung. Trích chọn đặc trưng mức thấp phát hiện cạnh với mục tiêu là tạo ra các cạnh ngăn cách đối tượng hoặc phát hiện vùng chuyển động của đối tượng trong ảnh tuần tự. Trích chọn đặc trưng mức thấp: (a) Trích chọn đặc trưng cạnh; v (b) Loại trừ nên đề phát hiện vùng chuyên động. Dac trung mire cao Thực ra không có một khái niệm chính xác hoàn toàn giữa khái niệm đặc trưng mức cao, đặc trưng mức thấp và cũng không có ranh giới rð ràng. Như đã trình bày ở mục trước, đặc trưng mức thấp và thuật toán trích chọn đặc trưng mức thấp phần lớn liên quan đề việc trích xuất trực tiếp từ các điểm ảnh có liên quan với nhau trong ảnh hoặc tìm kiếm những dữ liệu được phân lớp thành những tập có chung đặc điểm ở mức thấp nhất như tập các cạnh, đường thăng hoặc các điểm ảnh có tính chất đặc biệt nào đó. Ngược lại, đặc trưng ở mức cao liên quan đến những yan đề mà ta có thể nhìn thấy, nhận thức được như phân loại đối tượng, phân đoạn. Đặc trưng mức cao thường biểu diễn mối quan hệ giữa các đối tượng trong một phạm vi rộng hơn. Như vậy sự phân biệt giữa đặc trưng mức thấp và đặc trưng mức cao có thê mô tả như sau[17]: Đặc trưng mức thấp là các đặc trưng căn bản, có thê được trích rút trực tiếp từ ảnh gốc mà không cần bất kỳ mô tả nào về đối tượng. Trong khi đó, đặc trưng mức cao liên quan đến mô tả hình dáng, đối tượng trong ảnh và nó thường được trích rút dựa trên những đặc trưng mức thấp. Minh họa về đặc trưng mức cao[ 19] 4. KỸ THUẬT TRÍCH CHỌN ĐẶC TRƯNG CẠNH Phát hiện cạnh (đường biên) trong ảnh là một trong những phương pháp quan trọng trong xử lý ảnh. Có thê xem phương pháp phát hiện biền liên quan đến trích xuất đặc trưng mức thấp[18]. Có nhiều cách tiếp cận khác nhau để biểu diễn ảnh, phân tích, “hiểu” bức ảnh dựa trên đường biên từ việc phân tích và trích xuất cạnh. Cạnh thường ít nhạy cảm với sự thay đổi ánh sáng và thay đổi hướng nhìn. Phát hiện cạnh thường dựa vào 98 sự tương phản cường độ sáng của đối tượng trong ảnh. độ tương phản cao thê hiện qua sự khác biệt lớn về cường độ sáng, sẽ làm nồi bật đặc trưng và chỉ ra được đường biên của đối tượng trong ảnh. Điều này tương tự với thị giác con người trong vi c trực quan và “cảm nhận" về đường biên bao quanh đối tượng từ đó xác định được đối tượng khác nhau một cách rõ ràng. Về cơ bản, ranh giới của đối tượng được xác định là bước thay đôi cường độ sáng đột ngột. Vị trí đường biên chính là vị trí xảy ra sự thay đôi ngược nhau về cường độ sáng. Đê phát hiện vị trí cạnh, một phép biến đối vi phân bậc nhất được thực hiện đề làm nôi bật sự thay đổi ngược nhau qua giá trị đạo hàm bậc nhất đề tìm cực trị. Bài toán phát hiện đường biên đối tượng trong ảnh liên quan đến các bài toán phân loại và nhận dạng các đối tượng có trong ảnh. Do vậy, nhiệm vụ phát hiện đường biên được xem là một nhiệm vụ quan trọng trong xác định việc liệu đối tượng có ton tại hay không, có bao nhiêu đối tượng hoặc có bao nhiêu thành phần nhỏ của đối tượng lớn hơn. Phát hiện đường biên đối tượng làm giảm không gian dữ liệu cân xử lý và loại bỏ các phần dữ liệu không cần thiết nhưng vẫn đảm bảo các thuộc tính quan trọng về cấu trúc của đối tượng trong bức ảnh. Có rất nhiều phương, pháp phát hiện biên khác nhau, mỗi phương pháp thường hiệu quả cao đối với một loại đường biên cụ thể. Các phương pháp phát hiện đường biên cơ bản liên quan đến các kỹ thuật lọc ảnh. Để lọc đường biên, người ta thường sử dụng một bộ lọc kích thước zxø với giá trị khởi tạo của bộ lọc được xác định theo một phương pháp nhất định. Một trong những bộ lọc được biết đến và sử dụng nhiều là bộ lọc Roberts, Sobel. Prewitt kết quả của phép lọc tiếp tục được nhị phân bằng ngưỡng để phân loại. Trích chọn biên bằng toán tử Sobel Để lọc cạnh theo kỹ thuật mặt nạ Sobel, cần sử dụng hai mặt nạ có kích thước 3x3 để lọc cạnh theo hướng ngang và hướng dọc. Hai mặt nạ chỉ đơn thuần là quay mặt nạ của nhau một góc 72.1) si Ø ñ| lí - ‹Í 99 Để thực hiện phát hiện cạnh theo mỗi hướng, ta thực hiện phép tích chap (convolution) giữa ảnh đầu vào với các mặt nạ để thu được bảng gradient theo chiều dọc Œ, và chiều ngang Œ,. Như vậy, sau khi tích chập ảnh gốc với các mặt nạ Sobel theo mỗi hướng ta thu được gradient theo từng hướng tương ứng. Cuối cùng để trích chọn biên ta sử dụng thêm phép lọc dựa vào ngưỡng đề phân loại các điểm ảnh thuộc về biên và các điểm ảnh không thuộc về đường biên.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ