Luận văn thạc sĩ: Nghiên cứu mô hình học từ điển thưa trong nhận dạng thóc giống

Luận văn thạc sĩ nghiên cứu vnu uet nghiên cứu mô hình học từ điển thưa ứng dụng trong nhận dạng thóc giống luận văn ths máy, khảo sát thực trạng, phân tích nguyên nhân, đề xuất

Trường đại học

Đại học Quốc gia Hà Nội - Trường Đại học Công nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: MÔ HÌNH HỌC TỪ ĐIỂN VÀ MÃ THƯA

1.1. Biểu diễn thưa và học từ điển

1.2. Xây dựng mô hình học từ điển và mã thưa

1.3. Giới thiệu họ các chuẩn

2. CHƯƠNG 2: TỔNG QUAN VỀ BÀI TOÁN NHẬN DẠNG MẪU ẢNH

3. CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT QUẢ

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

PHỤ LỤC

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về luận văn thạc sĩ VNU UET nghiên cứu mô hình học từ điển thưa

Luận văn thạc sĩ VNU UET của Phạm Thị Lan Anh tập trung vào việc nghiên cứu mô hình học từ điển thưa ứng dụng trong nhận dạng thóc giống. Mô hình này không chỉ giúp cải thiện độ chính xác trong việc nhận dạng mà còn mở ra hướng đi mới cho các ứng dụng trong nông nghiệp. Việc áp dụng công nghệ học máy vào lĩnh vực nông nghiệp đang trở thành xu hướng quan trọng, giúp nâng cao năng suất và chất lượng sản phẩm.

1.1. Mục tiêu nghiên cứu của luận văn thạc sĩ

Mục tiêu chính của luận văn là phát triển mô hình học từ điển thưa nhằm nhận dạng chính xác các giống thóc. Nghiên cứu này không chỉ dừng lại ở lý thuyết mà còn thực hiện các thí nghiệm thực tế để kiểm chứng tính khả thi của mô hình.

1.2. Ý nghĩa của nghiên cứu trong lĩnh vực nông nghiệp

Nghiên cứu này có ý nghĩa quan trọng trong việc ứng dụng công nghệ thông tin vào nông nghiệp, giúp nông dân nhận diện giống thóc một cách nhanh chóng và chính xác, từ đó nâng cao hiệu quả sản xuất.

II. Vấn đề và thách thức trong nhận dạng thóc giống

Nhận dạng thóc giống gặp nhiều thách thức do sự đa dạng về hình dạng và màu sắc của các giống thóc. Việc phân loại chính xác các giống thóc là một nhiệm vụ khó khăn, đòi hỏi các phương pháp tiên tiến và hiệu quả. Các yếu tố như ánh sáng, góc chụp và chất lượng hình ảnh cũng ảnh hưởng đến kết quả nhận dạng.

2.1. Đặc điểm của các giống thóc và khó khăn trong nhận dạng

Mỗi giống thóc có những đặc điểm riêng biệt, từ hình dáng đến màu sắc. Sự tương đồng giữa các giống thóc có thể gây khó khăn trong việc phân loại, đặc biệt là khi sử dụng các phương pháp truyền thống.

2.2. Tác động của điều kiện môi trường đến nhận dạng

Điều kiện môi trường như ánh sáng và độ ẩm có thể làm giảm chất lượng hình ảnh, từ đó ảnh hưởng đến độ chính xác của mô hình nhận dạng. Việc cải thiện điều kiện chụp ảnh là cần thiết để nâng cao hiệu quả nhận dạng.

III. Phương pháp nghiên cứu mô hình học từ điển thưa

Luận văn áp dụng mô hình học từ điển thưa để giải quyết bài toán nhận dạng thóc giống. Mô hình này cho phép biểu diễn các đặc trưng của hình ảnh một cách hiệu quả, từ đó cải thiện độ chính xác trong việc phân loại. Các thuật toán như K-SVD được sử dụng để tối ưu hóa quá trình học từ điển.

3.1. Cách xây dựng mô hình học từ điển thưa

Mô hình học từ điển thưa được xây dựng từ dữ liệu mẫu, trong đó các từ điển được học từ chính tín hiệu đầu vào. Quá trình này bao gồm việc xác định các hệ số biểu diễn thưa để đảm bảo tính chính xác trong nhận dạng.

3.2. Ứng dụng thuật toán K SVD trong nghiên cứu

Thuật toán K-SVD được áp dụng để cập nhật từ điển và xác định mã thưa. Phương pháp này giúp tối ưu hóa quá trình học từ điển, từ đó nâng cao hiệu suất nhận dạng thóc giống.

IV. Kết quả thực nghiệm và ứng dụng mô hình học từ điển thưa

Kết quả thực nghiệm cho thấy mô hình học từ điển thưa đạt được độ chính xác cao trong việc nhận dạng các giống thóc. Việc áp dụng mô hình này không chỉ giúp cải thiện hiệu suất nhận dạng mà còn mở ra nhiều cơ hội ứng dụng trong nông nghiệp thông minh.

4.1. Đánh giá hiệu suất mô hình qua các thí nghiệm

Các thí nghiệm được thực hiện trên bộ dữ liệu thóc giống cho thấy mô hình học từ điển thưa có khả năng phân loại chính xác lên đến 90%. Điều này chứng tỏ tính khả thi của mô hình trong thực tế.

4.2. Ứng dụng thực tiễn của mô hình trong nông nghiệp

Mô hình học từ điển thưa có thể được ứng dụng trong việc phát triển các hệ thống nhận dạng tự động cho nông nghiệp, giúp nông dân dễ dàng phân loại và quản lý giống thóc.

V. Kết luận và hướng phát triển tương lai của nghiên cứu

Luận văn đã chỉ ra rằng mô hình học từ điển thưa có tiềm năng lớn trong việc nhận dạng thóc giống. Hướng phát triển tương lai có thể bao gồm việc mở rộng mô hình để áp dụng cho các loại cây trồng khác, cũng như cải tiến thuật toán để nâng cao độ chính xác và hiệu suất.

5.1. Tóm tắt những đóng góp của nghiên cứu

Nghiên cứu đã đóng góp vào việc phát triển mô hình học từ điển thưa trong lĩnh vực nhận dạng thóc giống, mở ra hướng đi mới cho các ứng dụng trong nông nghiệp.

5.2. Đề xuất hướng nghiên cứu tiếp theo

Hướng nghiên cứu tiếp theo có thể tập trung vào việc cải tiến mô hình để áp dụng cho các bài toán nhận dạng phức tạp hơn, cũng như nghiên cứu các phương pháp học sâu để nâng cao hiệu quả nhận dạng.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu mô hình học từ điển thưa ứng dụng trong nhận dạng thóc giống luận văn ths máy tính 84801

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và thị giác máy tính, việc ứng dụng các mô hình học máy để nhận dạng mẫu ảnh ngày càng trở nên quan trọng. Đặc biệt, trong lĩnh vực nông nghiệp, nhận dạng thóc giống đóng vai trò thiết yếu trong việc nâng cao chất lượng sản phẩm và hiệu quả sản xuất. Việt Nam, với vị thế là một trong những quốc gia xuất khẩu lúa gạo lớn trên thế giới, đang đối mặt với thách thức về chất lượng và giá thành sản phẩm. Việc nhận dạng chính xác các giống thóc giúp loại bỏ các hạt thóc không đúng giống, góp phần nâng cao năng suất và chất lượng lúa gạo. Mục tiêu nghiên cứu của luận văn là xây dựng và đánh giá các mô hình học từ điển thưa và không thưa ứng dụng trong nhận dạng thóc giống, với phạm vi nghiên cứu tập trung vào 20 giống thóc phổ biến tại miền Bắc Việt Nam. Thời gian nghiên cứu được thực hiện trong năm 2018 tại Đại học Công nghệ, Đại học Quốc gia Hà Nội. Nghiên cứu không chỉ góp phần phát triển các phương pháp nhận dạng ảnh trong lĩnh vực nông nghiệp mà còn mở rộng ứng dụng của mô hình học từ điển trong các bài toán phân loại ảnh phức tạp, đồng thời cung cấp các chỉ số đánh giá hiệu suất như độ chính xác phân lớp và thời gian xử lý, làm cơ sở cho các ứng dụng thực tiễn trong quản lý và kiểm định chất lượng thóc giống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên lý thuyết biểu diễn thưa (Sparse Representation) và học từ điển (Dictionary Learning), hai khái niệm cốt lõi trong xử lý tín hiệu và thị giác máy tính. Biểu diễn thưa cho phép biểu diễn tín hiệu dưới dạng tổ hợp tuyến tính của một số ít thành phần trong từ điển, giúp giảm thiểu không gian lưu trữ và tăng hiệu quả xử lý. Học từ điển là quá trình xây dựng bộ từ điển tối ưu từ dữ liệu mẫu, nhằm biểu diễn tín hiệu một cách chính xác và hiệu quả. Hai mô hình học từ điển chính được nghiên cứu là:

Mô hình học từ điển đảm bảo tính thưa (LC-KSVD): Kết hợp học từ điển với nhãn lớp, tối ưu đồng thời hàm tái tạo và hàm phân biệt, giúp tăng khả năng phân loại ảnh. Mô hình này sử dụng các chuẩn l0 và l1 để đảm bảo tính thưa của hệ số biểu diễn.
Mô hình học từ điển không cần đảm bảo tính thưa (DPL): Xây dựng cặp từ điển phân tích và tổng hợp, không đặt ràng buộc thưa lên hệ số biểu diễn, giúp giảm thời gian học và kiểm tra mô hình mà vẫn giữ hiệu quả phân loại cạnh tranh.

Các khái niệm chuẩn l0, l1, l2 và chuẩn Frobenius được sử dụng để định nghĩa và tối ưu hóa các hàm mục tiêu trong học từ điển. Giải thuật K-SVD được áp dụng để cập nhật từ điển và xác định mã thưa trong mô hình LC-KSVD.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ ảnh thóc giống gồm 20 giống phổ biến tại miền Bắc Việt Nam, với tổng số mẫu ảnh lên đến hàng nghìn cho mỗi giống. Dữ liệu được thu thập và tiền xử lý tại Bộ môn Khoa học máy tính – Học viện Nông nghiệp Việt Nam. Mỗi ảnh được chuẩn hóa và trích xuất 18 đặc trưng cơ bản về hình thái, màu sắc và cấu trúc.

Phương pháp phân tích bao gồm:

Cài đặt và huấn luyện mô hình LC-KSVD với các tham số như kích thước từ điển (dictsize), ngưỡng thưa (sparsitythres), trọng số nhãn và lỗi phân lớp.
Cài đặt mô hình DPL với các tham số DictSize, tau, lambda, gamma để đánh giá hiệu quả mô hình không đảm bảo thưa.
So sánh hiệu suất phân loại (độ chính xác ACC) và thời gian học, kiểm tra của các mô hình.

Quá trình nghiên cứu được thực hiện trên nền tảng Matlab 2014a với cấu hình máy tính Windows 7, CPU core i5 2.7 GHz, RAM 4GB. Bộ dữ liệu được chia thành tập huấn luyện (khoảng 2/3) và tập kiểm tra (khoảng 1/3) để đánh giá mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất phân loại: Mô hình LC-KSVD2 đạt độ chính xác cao nhất 89.7% trên giống thóc Bắc thơm 7, vượt trội so với LC-KSVD1 (cao nhất 73%) và mô hình DPL (khoảng 65%). Điều này cho thấy việc bổ sung thành phần nhãn phù hợp và lỗi phân lớp trong LC-KSVD2 cải thiện đáng kể khả năng phân loại.
Thời gian xử lý: Mô hình DPL có thời gian học và kiểm tra nhanh hơn nhiều so với LC-KSVD1 và LC-KSVD2, với thời gian học giảm từ vài chục giây xuống còn vài giây, thậm chí nhanh hơn hàng chục nghìn lần trong một số trường hợp. Đây là lợi thế lớn của mô hình không đảm bảo thưa trong các ứng dụng cần xử lý nhanh.
So sánh với các mô hình khác: So với các mô hình phân loại phổ biến như SVM và Random Forest (RF), LC-KSVD có thể vượt trội ở một số giống thóc như Nếp 87 và Thiên ưu 8, nhưng nhìn chung chưa đạt hiệu quả đồng đều trên toàn bộ 20 giống thóc.
Ảnh hưởng của tham số: Thay đổi tham số sparsitythres trong LC-KSVD không ảnh hưởng nhiều đến hiệu suất phân loại, trong khi thay đổi kích thước từ điển (dictsize) cũng không tạo ra sự khác biệt đáng kể trong mô hình DPL.

Thảo luận kết quả

Kết quả cho thấy mô hình học từ điển đảm bảo tính thưa (LC-KSVD) có ưu thế về độ chính xác phân loại, đặc biệt khi kết hợp các thành phần nhãn và lỗi phân lớp. Tuy nhiên, chi phí tính toán cao và độ nhạy với biến dạng ảnh là những hạn chế cần khắc phục. Mô hình DPL, mặc dù không đảm bảo tính thưa, lại có ưu điểm vượt trội về tốc độ xử lý và vẫn giữ được hiệu quả phân loại cạnh tranh, phù hợp với các ứng dụng yêu cầu xử lý nhanh và dữ liệu lớn.

So sánh với các nghiên cứu trước đây cho thấy biểu diễn thưa không phải lúc nào cũng là yếu tố quyết định cho hiệu quả phân loại, nhất là trong các bài toán có dữ liệu phức tạp và đa dạng như nhận dạng thóc giống. Việc lựa chọn mô hình cần cân nhắc giữa độ chính xác và chi phí tính toán, đồng thời cần tối ưu tham số phù hợp với đặc điểm dữ liệu.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh hiệu suất phân loại và thời gian xử lý giữa các mô hình, giúp trực quan hóa sự khác biệt và hỗ trợ đánh giá khách quan.

Đề xuất và khuyến nghị

Tối ưu tham số mô hình: Thực hiện các thử nghiệm sâu hơn để tìm bộ tham số tối ưu cho từng giống thóc, đặc biệt là kích thước từ điển và ngưỡng thưa trong LC-KSVD, nhằm nâng cao độ chính xác phân loại.
Kết hợp mô hình: Phát triển mô hình kết hợp giữa học từ điển đảm bảo thưa và không đảm bảo thưa để tận dụng ưu điểm của cả hai, cân bằng giữa hiệu suất và thời gian xử lý.
Mở rộng dữ liệu: Thu thập thêm dữ liệu ảnh thóc giống với đa dạng điều kiện chụp và biến dạng để tăng tính tổng quát và khả năng ứng dụng thực tế của mô hình.
Ứng dụng thực tiễn: Triển khai hệ thống nhận dạng thóc giống tự động tại các trung tâm sản xuất thóc giống, hỗ trợ kỹ thuật viên trong việc kiểm tra và phân loại thóc, giảm thiểu sai sót và tăng hiệu quả công việc.
Nâng cao công nghệ tiền xử lý: Cải tiến các kỹ thuật tiền xử lý ảnh và trích chọn đặc trưng để giảm thiểu ảnh hưởng của biến dạng, ánh sáng và nhiễu, từ đó cải thiện chất lượng dữ liệu đầu vào cho mô hình học.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Thị giác Máy tính: Luận văn cung cấp kiến thức sâu về mô hình học từ điển thưa và không thưa, các thuật toán tối ưu và ứng dụng trong nhận dạng ảnh, phù hợp cho nghiên cứu và phát triển đề tài liên quan.
Chuyên gia và kỹ thuật viên trong lĩnh vực Nông nghiệp công nghệ cao: Cung cấp giải pháp tự động hóa nhận dạng thóc giống, giúp nâng cao chất lượng sản phẩm và hiệu quả quản lý giống cây trồng.
Nhà phát triển phần mềm và hệ thống nhận dạng ảnh: Tham khảo các phương pháp cài đặt, tối ưu và đánh giá mô hình học máy trong thực tế, đặc biệt với dữ liệu ảnh phức tạp và đa dạng.
Các tổ chức quản lý chất lượng nông sản và doanh nghiệp xuất khẩu lúa gạo: Áp dụng kết quả nghiên cứu để xây dựng hệ thống kiểm định chất lượng thóc giống, giảm thiểu rủi ro và nâng cao uy tín sản phẩm trên thị trường quốc tế.

Câu hỏi thường gặp

Mô hình học từ điển thưa là gì và tại sao nó quan trọng trong nhận dạng ảnh?
Mô hình học từ điển thưa biểu diễn tín hiệu bằng cách sử dụng một số ít thành phần trong từ điển, giúp giảm kích thước dữ liệu và tăng hiệu quả xử lý. Nó quan trọng vì giúp phân loại ảnh chính xác hơn bằng cách tập trung vào các đặc trưng nổi bật.
Tại sao mô hình học từ điển không cần đảm bảo tính thưa lại có hiệu quả?
Mô hình này loại bỏ ràng buộc thưa, giảm chi phí tính toán và thời gian học, đồng thời vẫn giữ được khả năng phân biệt nhờ cấu trúc cặp từ điển phân tích và tổng hợp, phù hợp với dữ liệu lớn và phức tạp.
Bộ dữ liệu thóc giống được chuẩn bị như thế nào cho nghiên cứu?
Bộ dữ liệu gồm ảnh từng hạt thóc của 20 giống phổ biến, được tiền xử lý, chuẩn hóa và trích xuất 18 đặc trưng cơ bản về hình thái, màu sắc và cấu trúc, chia thành tập huấn luyện và kiểm tra theo tỷ lệ khoảng 2/3 và 1/3.
Các tham số nào ảnh hưởng lớn đến hiệu suất mô hình?
Kích thước từ điển (dictsize) và ngưỡng thưa (sparsitythres) là hai tham số quan trọng trong LC-KSVD, trong khi các tham số tau, lambda, gamma ảnh hưởng đến mô hình DPL. Việc lựa chọn tham số phù hợp cần thử nghiệm kỹ lưỡng.
Mô hình này có thể áp dụng cho các bài toán nhận dạng ảnh khác không?
Có, mô hình học từ điển thưa và không thưa có thể áp dụng rộng rãi trong nhận dạng khuôn mặt, biển số xe, chữ viết tay và các bài toán phân loại ảnh khác, đặc biệt khi dữ liệu có tính đa dạng và phức tạp.

Kết luận

Luận văn đã xây dựng và đánh giá thành công hai mô hình học từ điển thưa (LC-KSVD) và không thưa (DPL) trong nhận dạng thóc giống với độ chính xác cao nhất đạt gần 90%.
Mô hình LC-KSVD2 cho hiệu suất phân loại tốt hơn nhưng chi phí tính toán cao hơn so với DPL, trong khi DPL có ưu thế về tốc độ xử lý.
Kết quả thực nghiệm cho thấy biểu diễn thưa không phải yếu tố duy nhất quyết định hiệu quả phân loại, mở ra hướng nghiên cứu kết hợp các mô hình.
Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm cho việc ứng dụng học từ điển trong nông nghiệp công nghệ cao, đặc biệt trong tự động hóa nhận dạng thóc giống.
Các bước tiếp theo bao gồm tối ưu tham số, mở rộng dữ liệu và triển khai ứng dụng thực tế nhằm nâng cao hiệu quả và tính khả thi của hệ thống nhận dạng tự động.

Hành động khuyến nghị: Các nhà nghiên cứu và chuyên gia trong lĩnh vực thị giác máy tính và nông nghiệp công nghệ cao nên tiếp tục phát triển và ứng dụng các mô hình học từ điển, đồng thời phối hợp với các đơn vị sản xuất để triển khai hệ thống nhận dạng thóc giống tự động, góp phần nâng cao chất lượng và giá trị sản phẩm nông nghiệp Việt Nam.

Trích đoạn nội dung tài liệu

CHƯƠNG 1. MÔ HÌNH HỌC TỪ ĐIỂN VÀ MÃ THƯA Con người chúng ta ghi nhớ về một hiện tượng, sự vật; cách chúng ta phân biệt các hiện tượng, sự vật khác nhau không hề đầy đủ các tín hiệu về hiện tượng, sự vật đó mà chỉ qua một vài tín hiệu nhất định. Chúng ta phát hiện ra một bản nhạc có thể chỉ bằng vài nốt nhạc đầu tiên hay nhận ra khuôn mặt của ai đó sau nhiều năm không gặp chỉ thông qua vị trí nốt ruồi gần mắt. Đây chính là tiền đề cho một phương pháp biểu diễn tín hiệu được gọi là biểu diễn thưa.

Ban đầu mục đích cho việc biểu diễn thưa chỉ dừng lại ở việc biểu diễn tín hiệu một cách cô đọng, giảm không gian lưu trữ tín hiệu mà không làm mất mát thông tin có giá trị. Trong những năm gần đây, biểu diễn thưa cho một tín hiệu đầu vào đã được đông đảo các nhà nghiên cứu tham gia tìm hiểu và phát triển thêm những tính chất phù hợp hơn với các bài toán thực tế đa dạng. Với ý tưởng thực hiện biểu diễn thưa cho tín hiệu ban đầu dựa trên bộ các thành phần (atoms) được tạo nên từ chính tập tín hiệu đã có sẵn, mô hình học từ điển thưa trở thành một mô hình mạnh trong việc biểu diễn tín hiệu và mở rộng ra cho việc loại bỏ nhiễu, nén, phân loại tín hiệu [4,43]. Bởi thế, mô hình học từ điển thưa đáng được quan tâm và phát triển cũng như ứng dụng vào nhiều hơn nữa các bài toán thực tế đầy thách thức.

Chương này của luận văn sẽ trình bày cụ thể về mô hình học từ điển cổ điển cũng như cách để xác định từ điển và hệ số biểu diễn thưa (mã thưa). Ngoài ra, luận văn cũng trình bày một hướng phát triển khác của mô hình học từ điển ứng dụng cho phân lớp là mô hình học từ điển không cần đảm bảo tính thưa (tức yếu tố ràng buộc đối với hệ số biểu diễn thưa đã không còn được chú trọng). Biểu diễn thưa và học từ điển 1. Biểu diễn thưa Trong thế giới số, mọi tín hiệu đều được biểu diễn dưới dạng số và việc biểu diễn này có hiệu quả hay không sẽ ảnh hưởng đến các phép xử lý tiếp theo trong đó có truyền gửi và lưu trữ.

Vì vậy, các nhà nghiên cứu luôn mong muốn việc biểu diễn tín hiệu trong thế giới số gần nhất có thể với tín hiệu thế giới thực nhưng có thể truyền đưa và lưu trữ ngắn gọn dẫn tới tín hiệu thường không được biễu diễn trùng khớp hoàn toàn mà sẽ được biểu diễn thông qua các đặc trưng đủ để phân biệt tín hiệu này với tín hiệu khác giúp quá LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 trình truyền đưa và lưu trữ bớt tốn kém cũng như tăng tốc độ của việc xử lý tín hiệu sau đó. Ý tưởng này hình thành nên một phương pháp biểu diễn tuyến tính gọi là biểu diễn thưa. Về mặt nguồn gốc lý thuyết, biểu diễn thưa có liên quan đến lý thuyết cảm biến nén (Compressed Sensing – CS) [43]. Theo lý thuyết CS thì những tín hiệu thưa hoặc được nén thì tín hiệu ban đầu có thể được khôi phục bằng cách triển khai một vài giá trị đo được trong khi số lượng những giá trị này ít hơn nhiều so với cách lấy mẫu của Shannon (Shannon’sampling theorem - SST) và luật lấy mẫu Nyquist (Nyquist sampling law - NSL).

Các thành tố cơ bản trong lý thuyết CS bao gồm biểu diễn thưa, mã hóa và thuật toán khôi phục. Mục đích của biểu diễn thưa là đưa không gian biểu diễn tín hiệu ban đầu sang không gian nhiều chiều hơn giúp những thành phần đặc trưng của tín hiệu “nổi lên” rõ ràng hơn so với “bề mặt”, sau đó tín hiệu sẽ được “ghi nhớ” thông qua những thành phần đặc trưng này thay vì toàn bộ các thành phần như lúc ban đầu để đưa vào các quá trình xử lý tiếp theo. Mỗi ảnh số là một ảnh tự nhiên được số hóa dưới dạng ma trận số. Với ảnh màu ta sẽ có 3 ma trận số tương ứng với các kênh màu tùy thuộc vào hệ màu biểu diễn khác nhau và thông thường các ma trận biểu diễn này là ma trận “dày” với hầu hết các giá trị trong đó khác không [1].1 biểu diễn một mẫu ảnh đa mức xám kích thước 14x14.

Mẫu ảnh đa mức xám và biểu diễn dày Ta hoàn toàn có thể biểu diễn mẫu ảnh này bằng một vec-tơ có 14x14 = 156 chiều, tuy nhiên cách biểu diễn này sẽ dễ bị tác động bởi nhiễu và “cồng kềnh” khi phải truyền gửi và lưu trữ. Khi áp dụng biểu diễn thưa vào, mặc dù sẽ đẩy số chiều vecto biểu diễn cho ảnh lên cao hơn nhưng số lượng giá trị thực tế cần “ghi nhớ” lại rất ít do hầu hết thành phần của vec-tơ mang giá trị không. Vì vậy, việc biểu diễn hầu như chỉ liên quan đến một vài thành phần có giá trị khác không. Ví dụ mẫu ảnh có thể được biểu diễn bằng mô hình thưa như trong hình 1.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Ảnh đa mức xám với biểu diễn thưa Khi đó, để lưu trữ và xử lý mẫu ảnh đã cho ta có thể sử dụng vec-tơ hệ số biểu diễn X sau: [a1,. Trong ví dụ này, vec-tơ hệ số được dùng để đại diện cho mẫu ảnh chỉ có ba thành phần có giá trị khác không, số lượng thành phần có giá trị khác không này sẽ đóng vai trò là ngưỡng đảm bảo thưa cho mô hình biểu diễn. Ngưỡng đảm bảo thưa này không có quy định rõ ràng về giá trị mà chỉ được lựa chọn tùy thuộc vào bài toán và dữ liệu cụ thể của bài toán đó.

Học từ điển Trong ngôn ngữ học, bộ từ điển được hình thành bao gồm tất cả các từ đơn, từ ghép, từ láy,. đủ để giúp diễn đạt mọi câu nói, viết trong ngữ pháp của ngôn ngữ đó. Trong học máy cũng có một mô hình có tên gọi tương tự đó là học từ điển. Với góc nhìn của toán học, nếu coi từ điển là một ma trận vecto trong đó mỗi thành tố hay từ là một vecto thì từ điển trong mô hình học từ điển giống như một hệ sinh vecto mà tại đó các thành tố hay các từ không đảm bảo độc lập tuyến tính với nhau.

Việc xác định từ điển sẽ được học từ chính những tín hiệu đầu vào và quá trình sinh là quá trình biểu diễn lại đối tượng bằng tập hợp các từ trong từ điển sao cho việc biểu diễn chính xác tín hiệu đầu vào hoặc gần “giống” tín hiệu đó. Mô hình học từ điển có thể có lịch sử hình thành từ những năm 1960 với sự ra đời của biến đổi nhanh Fourier (FFT). Ban đầu từ điển được tạo ra bằng các biến đổi miền của tín hiệu như biến đổi bước sóng, biến đổi wavelet [39],… Tuy nhiên những biến đổi đó không thực sự đem lại hiệu quả, thay vào đó, phương pháp học từ điển biểu diễn thưa lại đem lại những kết quả thuyết phục hơn. Khi từ điển có số từ nhiều hơn số chiều (tính LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 over-complete) thì có thể dẫn tới một biểu diễn thưa và khi đó ta có mô hình học từ điển thưa.

Mô hình học từ điển, với ý nghĩa ban đầu dùng để biểu diễn tín hiệu (representation) [25], được ứng dụng cho các bài toán khôi phục dữ liệu (reconstruction) [18] , khử nhiễu [8,20] và mã hóa thưa (sparse coding), gần đây được mở rộng cho bài toán phân lớp (classification) [9,21,29,30,34]. Mô hình học từ điển và mã thưa Cho 𝑦1 , 𝑦2 , ., 𝑦𝑛 ∈ 𝑅𝑝 là tất cả n mẫu tín hiệu và Y ∈ 𝑅𝑝∗𝑁 là ma trận tín hiệu đầu vào với N tín hiệu đầu vào mà mỗi tín hiệu 𝑦𝑖 ∈ 𝑅𝑝 tương ứng với một cột của ma trận Y. Từ n mẫu tín hiệu xác định một ma trận D ∈ 𝑅𝑝∗𝐾 (p ≪ K) được gọi là từ điển cơ bản quá hoàn chỉnh (tính overcomplete) mà mỗi từ 𝑑𝑗 ∈ 𝑅𝑝. Một mẫu mới cần biểu diễn 𝑦𝑛𝑒𝑤 ∈ 𝑅𝑝.

Nếu tất cả các mẫu đã biết được sử dụng để biểu diễn tuyến tính cho mẫu mới thì mẫu mới phải được biểu diễn bằng: 𝑦𝑛𝑒𝑤 = 𝑥𝑛𝑒𝑤_1 𝑑1 + 𝑥𝑛𝑒𝑤_2 𝑑2 + ⋯ + 𝑥𝑛𝑒𝑤𝑛 𝑑𝑛 (1) X ∈ 𝑅𝐾∗𝑁 là ma trận hệ số với 𝑥𝑖 là hệ số tương ứng biểu diễn tín hiệu 𝑦𝑖 và phương trình (1) có thể được viết lại bởi phương trình sau: 𝑦𝑛𝑒𝑤 = 𝐷 ∗ 𝑥𝑛𝑒𝑤 (2) Khi đó, mô hình bài toán học từ điển thưa được thể hiện qua biểu thức (3) sau: 2 (3) argmin‖𝑌 − 𝐷𝑋 ‖22 𝑠𝑎𝑜 𝑐ℎ𝑜 ‖𝑥𝑖 ‖0 ≤ T và ‖𝑑𝑗 ‖2 = 1 𝐷 Trong đó, ‖. ‖0 là chuẩn 𝑙0 nhận giá trị số lượng phần tử khác không của vec-tơ. T là giá trị ngưỡng thưa được lựa chọn trước. Việc giải bài toán tối ưu (3) sẽ dẫn tới xác định được một phương pháp biểu diễn mới cho bộ tín hiệu đầu vào Y với không gian biểu diễn lớn hơn và có khả năng khôi phục lại tín hiệu Y thông qua từ điển D và hệ số biểu diễn X.

Quá trình học ra từ điển D và X từ chính dữ liệu ban đầu giúp cho việc biểu diễn lại dữ liệu ban đầu là hiệu quả. Quá trình này bao gồm hai nhiệm vụ: tìm D và xác định X. Việc tìm từ điển D sẽ được gọi là cập nhật từ điển và việc xác định X được gọi là xác LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 định mã thưa. Thông thường ta sẽ cố định X trong khi cập nhật từ điển và khi xác định mã thưa thì từ điển D sẽ được cố định.

Vấn đề tìm lời giải cho phương trình tuyến tính (2) với quan điểm đại số tuyến tính, nếu không có bất kỳ ràng buộc nào được áp đặt đối với hệ số biểu diễn x thì phương trình (2) sẽ không có lời giải duy nhất. Với việc coi từ điển như một hệ sinh vec-tơ, với tính chất số chiều nhỏ hơn nhiều so với số từ (p ≪ K), theo lý thuyết hình học không gian, ta có vô số lời giải cho biểu diễn vec-tơ. Để giảm bớt khó khăn, các ràng buộc chuẩn hóa thích hợp được áp dụng cho hệ số biểu diễn [19]. Với phương pháp biểu diễn thưa thì yêu cầu đặt ra là giải pháp biểu diễn thu được phải thưa thớt.

Ràng buộc theo chuẩn 𝑙0 giúp cho bài toán có nghiệm đảm bảo tính chất thưa cho véc-tơ hệ số tìm được.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng AI trong nông nghiệp

Machine Learning và Computer Vision

Công nghệ nhận dạng và phân loại