Luận văn thạc sĩ nghiên cứu thuật toán filter wrapper tìm tập rút gọn của bảng quyết định không đầy đủ và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh

Luận văn thạc sĩ nghiên cứu thuật toán filter wrapper tìm tập rút gọn bảng quyết định không đầy đủ, ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh.

Trường đại học

Học viện khoa học và công nghệ

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ DUNG SAI

1.1. Hệ thông tin và mô hình tập thô truyền thống

1.1.1. Hệ thông tin

1.1.2. Mô hình tập thô truyền thống

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai

1.2.1. Hệ thông tin không đầy đủ

1.2.2. Mô hình tập thô dung sai

1.3. Bảng quyết định không đầy đủ

2. CHƯƠNG 2: THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ

2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp

2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính

2.2. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách

2.3. Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định không đầy đủ

2.4. Thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ

2.5. Thực nghiệm và đánh giá kết quả

2.6. Kết luận chương 2

3. CHƯƠNG 3: THỬ NGHIỆM RÚT GỌN THUỘC TÍNH VỚI BÀI TOÁN PHÂN LỚP ĐỐI TƯỢNG TRONG ẢNH VIỄN THÁM

3.1. Xây dựng mô hình giải quyết bài toán

3.2. Thực thi mô hình phân lớp gán nhãn cho ảnh viễn thám

3.2.1. Môi trường chạy thử nghiệm

3.2.2. Thực hiện chương trình

3.2.2.1. Tiền xử lý dữ liệu

3.2.2.2. Huấn luyện mô hình

3.2.2.3. Thực thi mô hình

4. CHƯƠNG 4: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về thuật toán Filter Wrapper

Thuật toán Filter Wrapper là một phương pháp quan trọng trong việc rút gọn thuộc tính, đặc biệt trong bối cảnh các bảng quyết định không đầy đủ. Phương pháp này kết hợp giữa hai cách tiếp cận: filter và wrapper. Cách tiếp cận filter thực hiện việc rút gọn thuộc tính độc lập với thuật toán khai phá dữ liệu, trong khi wrapper sử dụng thuật toán khai phá để đánh giá độ chính xác của các thuộc tính được chọn. Việc áp dụng Filter Wrapper giúp tối ưu hóa số lượng thuộc tính, từ đó cải thiện hiệu suất của các mô hình học máy. Theo nghiên cứu, việc sử dụng Filter Wrapper trong các bài toán thực tế như phát hiện tàu thuyền từ ảnh vệ tinh đã cho thấy hiệu quả rõ rệt trong việc giảm thiểu số lượng thuộc tính mà vẫn đảm bảo độ chính xác cao.

1.1. Đặc điểm của thuật toán Filter

Thuật toán filter tập trung vào việc đánh giá các thuộc tính dựa trên độ quan trọng của chúng mà không cần đến thuật toán khai phá dữ liệu. Điều này giúp giảm thiểu thời gian tính toán và tăng tốc độ xử lý dữ liệu. Các thuộc tính được chọn sẽ được đánh giá dựa trên các tiêu chí như độ chính xác và khả năng phân loại. Việc áp dụng filter trong các bài toán như phân loại dữ liệu giúp loại bỏ các thuộc tính không cần thiết, từ đó nâng cao hiệu quả của mô hình.

1.2. Đặc điểm của thuật toán Wrapper

Khác với filter, thuật toán wrapper thực hiện việc lựa chọn thuộc tính bằng cách áp dụng ngay thuật toán khai phá dữ liệu. Điều này có nghĩa là độ chính xác của mô hình được sử dụng làm tiêu chuẩn để lựa chọn các thuộc tính. Mặc dù wrapper có thể cho kết quả chính xác hơn, nhưng nó cũng đòi hỏi nhiều thời gian tính toán hơn do phải thực hiện nhiều lần thuật toán khai phá. Việc kết hợp giữa filter và wrapper trong Filter Wrapper giúp tận dụng ưu điểm của cả hai phương pháp, từ đó tối ưu hóa quá trình rút gọn thuộc tính.

II. Ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh

Việc phát hiện tàu thuyền từ ảnh vệ tinh là một ứng dụng thực tiễn quan trọng của thuật toán Filter Wrapper. Trong bối cảnh hiện nay, với sự gia tăng về số lượng ảnh vệ tinh và dữ liệu thu thập được, việc rút gọn thuộc tính trở nên cần thiết để xử lý hiệu quả. Thuật toán Filter Wrapper giúp xác định các thuộc tính quan trọng nhất từ các bức ảnh, từ đó cải thiện độ chính xác của mô hình phân loại. Các nghiên cứu đã chỉ ra rằng việc áp dụng thuật toán này không chỉ giúp giảm thiểu số lượng thuộc tính mà còn nâng cao khả năng phát hiện tàu thuyền trong các bức ảnh, đặc biệt là trong các điều kiện không đầy đủ thông tin.

2.1. Quy trình phát hiện tàu thuyền

Quy trình phát hiện tàu thuyền từ ảnh vệ tinh bao gồm nhiều bước, từ tiền xử lý dữ liệu đến việc áp dụng mô hình phân loại. Đầu tiên, dữ liệu từ ảnh vệ tinh cần được tiền xử lý để loại bỏ nhiễu và cải thiện chất lượng hình ảnh. Sau đó, thuật toán Filter Wrapper được áp dụng để rút gọn thuộc tính, giúp xác định các đặc trưng quan trọng nhất cho việc phân loại. Cuối cùng, mô hình phân loại được huấn luyện và đánh giá để đảm bảo độ chính xác cao trong việc phát hiện tàu thuyền.

2.2. Kết quả và đánh giá

Kết quả từ việc áp dụng thuật toán Filter Wrapper cho thấy sự cải thiện đáng kể trong độ chính xác của mô hình phát hiện tàu thuyền. Các thử nghiệm trên các bộ dữ liệu từ ảnh vệ tinh đã chứng minh rằng số lượng thuộc tính cần thiết để đạt được độ chính xác cao đã giảm đi đáng kể. Điều này không chỉ giúp tiết kiệm thời gian tính toán mà còn nâng cao hiệu quả của các hệ thống giám sát và phát hiện tàu thuyền trong thực tế.

III. Đánh giá giá trị và ứng dụng thực tiễn

Nghiên cứu về thuật toán Filter Wrapper không chỉ có giá trị lý thuyết mà còn mang lại nhiều ứng dụng thực tiễn. Việc rút gọn thuộc tính trong các bảng quyết định không đầy đủ giúp cải thiện hiệu suất của các mô hình học máy, đặc biệt trong các lĩnh vực như y tế, tài chính và giám sát môi trường. Thuật toán này có thể được áp dụng để xử lý các dữ liệu lớn, giúp loại bỏ các thuộc tính dư thừa và nâng cao độ chính xác của các mô hình phân loại. Điều này cho thấy sự cần thiết và tính ứng dụng cao của nghiên cứu trong bối cảnh hiện đại.

3.1. Tính ứng dụng trong các lĩnh vực khác

Ngoài việc phát hiện tàu thuyền từ ảnh vệ tinh, thuật toán Filter Wrapper còn có thể được áp dụng trong nhiều lĩnh vực khác như chẩn đoán y tế, phân tích tài chính và quản lý dữ liệu. Việc rút gọn thuộc tính giúp cải thiện độ chính xác của các mô hình dự đoán, từ đó hỗ trợ ra quyết định hiệu quả hơn trong các lĩnh vực này.

3.2. Hướng phát triển trong tương lai

Hướng phát triển trong tương lai của nghiên cứu này có thể bao gồm việc cải tiến thuật toán Filter Wrapper để xử lý các bảng quyết định không đầy đủ phức tạp hơn. Việc áp dụng các công nghệ mới như machine learning và học máy có thể giúp nâng cao hiệu quả và độ chính xác của các mô hình rút gọn thuộc tính. Điều này mở ra nhiều cơ hội nghiên cứu và ứng dụng trong các lĩnh vực khác nhau.

01/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ nghiên cứu thuật toán filter wrapper tìm tập rút gọn của bảng quyết định không đầy đủ và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin và dữ liệu lớn, việc xử lý các bảng quyết định không đầy đủ trở thành thách thức lớn trong khai phá dữ liệu và học máy. Theo ước tính, các bảng quyết định thường chứa nhiều thuộc tính dư thừa hoặc không cần thiết, làm tăng độ phức tạp và giảm hiệu quả của các thuật toán phân lớp. Rút gọn thuộc tính, hay còn gọi là rút gọn chiều, là bước tiền xử lý quan trọng nhằm loại bỏ các thuộc tính không cần thiết, từ đó nâng cao hiệu quả và độ chính xác của mô hình phân lớp. Mục tiêu nghiên cứu của luận văn là phát triển thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ dựa trên mô hình tập thô dung sai, nhằm giảm thiểu số lượng thuộc tính trong tập rút gọn đồng thời cải thiện độ chính xác phân lớp.

Phạm vi nghiên cứu tập trung vào các bảng quyết định không đầy đủ trong hệ thống thông tin, áp dụng lý thuyết tập thô dung sai và các phương pháp rút gọn thuộc tính theo tiếp cận kết hợp filter-wrapper. Thời gian nghiên cứu chủ yếu trong giai đoạn 2019-2021, với các bộ dữ liệu thực nghiệm lấy từ kho dữ liệu UCI. Ý nghĩa nghiên cứu thể hiện rõ qua việc nâng cao hiệu quả xử lý dữ liệu thiếu giá trị trong các lĩnh vực như chẩn đoán y tế, tài chính ngân hàng và đặc biệt là ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh, góp phần cải thiện an ninh quốc phòng và quản lý dân sự.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên lý thuyết tập thô truyền thống của Pawlak, trong đó các tập đối tượng được xấp xỉ bằng các lớp tương đương dựa trên quan hệ tương đương. Tuy nhiên, trong thực tế, bảng quyết định thường không đầy đủ do thiếu giá trị thuộc tính, dẫn đến việc mở rộng lý thuyết tập thô sang mô hình tập thô dung sai do Kryszkiewicz đề xuất. Mô hình này sử dụng quan hệ dung sai (tolerance relation) thay cho quan hệ tương đương, cho phép xử lý các giá trị thiếu trong bảng quyết định.

Hai phương pháp rút gọn thuộc tính chính được nghiên cứu là filter và wrapper. Phương pháp filter đánh giá độ quan trọng của thuộc tính độc lập với thuật toán phân lớp, trong khi phương pháp wrapper sử dụng độ chính xác phân lớp làm tiêu chuẩn lựa chọn thuộc tính. Luận văn tập trung phát triển thuật toán kết hợp filter-wrapper dựa trên độ đo khoảng cách mới được xây dựng giữa các tập thuộc tính trong bảng quyết định không đầy đủ, nhằm tối ưu hóa số lượng thuộc tính và độ chính xác phân lớp.

Các khái niệm chính bao gồm:

Hệ thông tin không đầy đủ và bảng quyết định không đầy đủ
Quan hệ dung sai và lớp dung sai
Độ đo khoảng cách giữa các phủ trong bảng quyết định không đầy đủ
Độ quan trọng của thuộc tính dựa trên độ đo khoảng cách
Thuật toán heuristic tìm tập rút gọn theo tiếp cận filter và filter-wrapper

Phương pháp nghiên cứu

Nguồn dữ liệu sử dụng là các bộ dữ liệu mẫu từ kho dữ liệu UCI, gồm 10 bộ dữ liệu có đặc điểm thiếu giá trị, số lượng thuộc tính dao động từ 10 đến 1558, số đối tượng từ 155 đến hơn 8000. Phương pháp nghiên cứu bao gồm:

Nghiên cứu lý thuyết: Phân tích các thuật toán rút gọn thuộc tính hiện có theo mô hình tập thô dung sai, đánh giá ưu nhược điểm và đề xuất độ đo khoảng cách mới.
Nghiên cứu thực nghiệm: Cài đặt thuật toán filter-wrapper IDS_FW_DAR trên Matlab R2016a, thực hiện thử nghiệm so sánh với các thuật toán filter truyền thống như IDS_F_DAR và NEW-R về thời gian thực hiện, số lượng thuộc tính tập rút gọn và độ chính xác phân lớp.
Timeline nghiên cứu: Từ năm 2019 đến 2021, bao gồm giai đoạn xây dựng lý thuyết, phát triển thuật toán, thực nghiệm và ứng dụng vào bài toán phát hiện tàu thuyền từ ảnh vệ tinh.

Phương pháp phân tích sử dụng bộ phân lớp C4.5 với kỹ thuật kiểm tra chéo 10-fold để đánh giá độ chính xác phân lớp.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ đo khoảng cách mới: Luận văn xây dựng thành công độ đo khoảng cách giữa hai phủ trong bảng quyết định không đầy đủ, thỏa mãn tính chất bất đẳng thức tam giác và tính phản đơn điệu theo tập thuộc tính. Độ đo này được sử dụng làm tiêu chuẩn đánh giá độ quan trọng của thuộc tính trong thuật toán rút gọn.
Thuật toán filter IDS_F_DAR: Thuật toán filter dựa trên độ đo khoảng cách giúp tìm tập rút gọn hiệu quả, giảm thiểu số lượng thuộc tính đáng kể. Ví dụ, trên bộ dữ liệu có 19 thuộc tính, thuật toán chỉ chọn khoảng 2 thuộc tính làm tập rút gọn. Độ phức tạp tính toán là O(C * U²), với C là số thuộc tính và U là số đối tượng.
Thuật toán filter-wrapper IDS_FW_DAR: Kết hợp giai đoạn filter tìm tập rút gọn ứng viên và giai đoạn wrapper đánh giá độ chính xác phân lớp, thuật toán này giảm số lượng thuộc tính tập rút gọn thấp hơn đáng kể so với các thuật toán filter truyền thống, đồng thời cải thiện hoặc duy trì độ chính xác phân lớp. Trên 10 bộ dữ liệu thử nghiệm, IDS_FW_DAR đạt độ chính xác phân lớp cao hơn từ 1-5% so với NEW-R và IDS_F_DAR, với số lượng thuộc tính rút gọn giảm trung bình 20-30%.
Thời gian thực hiện: Thuật toán filter-wrapper IDS_FW_DAR mất nhiều thời gian hơn do phải thực hiện thêm giai đoạn đánh giá phân lớp, ví dụ trên bộ dữ liệu Arrhythmia, thời gian thực hiện tăng gấp đôi so với thuật toán filter. Tuy nhiên, với các bài toán có số lượng thuộc tính lớn, việc giảm số thuộc tính giúp giảm độ phức tạp mô hình và tăng hiệu quả tổng thể.

Thảo luận kết quả

Kết quả thử nghiệm cho thấy việc áp dụng độ đo khoảng cách mới trong mô hình tập thô dung sai là hiệu quả trong việc xử lý bảng quyết định không đầy đủ. Thuật toán filter-wrapper IDS_FW_DAR tận dụng ưu điểm của cả hai phương pháp filter và wrapper, vừa giảm thiểu số lượng thuộc tính vừa nâng cao độ chính xác phân lớp. So với các nghiên cứu trước đây chỉ sử dụng phương pháp filter, kết quả này thể hiện sự cải tiến rõ rệt.

Việc tăng thời gian tính toán là hệ quả tất yếu của giai đoạn wrapper, tuy nhiên, trong các ứng dụng thực tế như phân lớp ảnh viễn thám để phát hiện tàu thuyền, việc giảm số lượng thuộc tính giúp giảm tải cho các bộ phân lớp và tăng tốc độ xử lý tổng thể. Dữ liệu có thể được trình bày qua biểu đồ so sánh thời gian thực hiện, số lượng thuộc tính rút gọn và độ chính xác phân lớp giữa các thuật toán, minh họa sự vượt trội của IDS_FW_DAR.

Đề xuất và khuyến nghị

Áp dụng thuật toán filter-wrapper IDS_FW_DAR trong các hệ thống khai phá dữ liệu có bảng quyết định không đầy đủ: Động từ hành động: triển khai; Target metric: giảm số lượng thuộc tính rút gọn ít nhất 20%; Timeline: 6-12 tháng; Chủ thể thực hiện: các tổ chức nghiên cứu và doanh nghiệp phát triển phần mềm khai phá dữ liệu.
Tối ưu hóa hiệu năng tính toán của thuật toán bằng cách áp dụng các kỹ thuật song song hoặc phân tán: Động từ hành động: phát triển; Target metric: giảm thời gian thực thi xuống dưới 50%; Timeline: 12 tháng; Chủ thể thực hiện: nhóm nghiên cứu công nghệ cao và các nhà phát triển phần mềm.
Mở rộng ứng dụng thuật toán vào các lĩnh vực có dữ liệu thiếu giá trị như y tế, tài chính, an ninh quốc phòng: Động từ hành động: tích hợp; Target metric: nâng cao độ chính xác phân lớp trên các bộ dữ liệu thực tế; Timeline: 12-18 tháng; Chủ thể thực hiện: các viện nghiên cứu chuyên ngành và doanh nghiệp ứng dụng.
Phát triển giao diện người dùng thân thiện cho việc tiền xử lý dữ liệu và gán nhãn trong các ứng dụng thực tế: Động từ hành động: thiết kế; Target metric: tăng hiệu quả gán nhãn và tiền xử lý dữ liệu; Timeline: 6 tháng; Chủ thể thực hiện: nhóm phát triển phần mềm và nhà nghiên cứu UX/UI.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành khoa học máy tính, hệ thống thông tin: Luận văn cung cấp kiến thức nền tảng và phương pháp mới về rút gọn thuộc tính trong bảng quyết định không đầy đủ, hỗ trợ nghiên cứu sâu hơn về lý thuyết tập thô dung sai và ứng dụng filter-wrapper.
Chuyên gia phát triển phần mềm khai phá dữ liệu và học máy: Thuật toán và phương pháp được trình bày giúp cải thiện hiệu quả xử lý dữ liệu lớn, đặc biệt trong các hệ thống có dữ liệu thiếu giá trị, nâng cao độ chính xác mô hình phân lớp.
Nhà quản lý và kỹ sư trong lĩnh vực viễn thám và an ninh quốc phòng: Ứng dụng thực tiễn của luận văn trong phát hiện tàu thuyền từ ảnh vệ tinh giúp nâng cao khả năng giám sát và quản lý tài nguyên biển.
Chuyên gia trong lĩnh vực y tế và tài chính: Các phương pháp rút gọn thuộc tính có thể được áp dụng để xử lý dữ liệu thiếu giá trị trong chẩn đoán y tế hoặc phân tích rủi ro tài chính, giúp nâng cao hiệu quả phân tích và dự báo.

Câu hỏi thường gặp

Thuật toán filter-wrapper IDS_FW_DAR khác gì so với các thuật toán filter truyền thống?
IDS_FW_DAR kết hợp giai đoạn filter để tìm tập rút gọn ứng viên và giai đoạn wrapper đánh giá độ chính xác phân lớp, giúp giảm số lượng thuộc tính hơn và cải thiện độ chính xác phân lớp so với các thuật toán filter chỉ dựa trên độ quan trọng thuộc tính.
Độ đo khoảng cách được xây dựng trong luận văn có ưu điểm gì?
Độ đo khoảng cách mới thỏa mãn tính chất bất đẳng thức tam giác và tính phản đơn điệu, cho phép đánh giá chính xác sự khác biệt giữa các tập thuộc tính trong bảng quyết định không đầy đủ, từ đó nâng cao hiệu quả lựa chọn thuộc tính.
Thuật toán có thể áp dụng cho những loại dữ liệu nào?
Thuật toán phù hợp với các bảng quyết định không đầy đủ, đặc biệt là dữ liệu có giá trị thiếu, như dữ liệu y tế, tài chính, viễn thám, và các hệ thống cơ sở dữ liệu lớn có nhiều thuộc tính.
Thời gian thực hiện của thuật toán filter-wrapper có phải là hạn chế lớn?
Thuật toán filter-wrapper mất nhiều thời gian hơn do giai đoạn wrapper đánh giá phân lớp, nhưng lợi ích về giảm số lượng thuộc tính và tăng độ chính xác phân lớp thường bù đắp cho nhược điểm này, đặc biệt với dữ liệu có số lượng thuộc tính lớn.
Làm thế nào để áp dụng thuật toán vào bài toán phát hiện tàu thuyền từ ảnh vệ tinh?
Ảnh viễn thám được chia thành các cửa sổ nhỏ, mỗi cửa sổ được trích xuất thuộc tính điểm ảnh, sau đó áp dụng thuật toán rút gọn thuộc tính để giảm chiều dữ liệu, cuối cùng sử dụng bộ phân lớp xây dựng mô hình phân lớp cửa sổ có hoặc không có tàu thuyền, giúp tự động phát hiện hiệu quả.

Kết luận

Luận văn đã xây dựng thành công độ đo khoảng cách mới trong bảng quyết định không đầy đủ dựa trên mô hình tập thô dung sai, làm cơ sở cho thuật toán rút gọn thuộc tính hiệu quả.
Thuật toán filter-wrapper IDS_FW_DAR được phát triển giúp giảm thiểu số lượng thuộc tính trong tập rút gọn và cải thiện độ chính xác phân lớp so với các thuật toán filter truyền thống.
Kết quả thực nghiệm trên 10 bộ dữ liệu UCI cho thấy sự vượt trội về hiệu năng và độ chính xác của thuật toán đề xuất.
Ứng dụng thực tiễn trong bài toán phát hiện tàu thuyền từ ảnh vệ tinh chứng minh tính khả thi và hiệu quả của phương pháp.
Hướng phát triển tiếp theo là tối ưu hóa thời gian tính toán và mở rộng ứng dụng trong các lĩnh vực có dữ liệu thiếu giá trị phức tạp.

Các nhà nghiên cứu và chuyên gia ứng dụng được khuyến khích triển khai và phát triển thêm thuật toán filter-wrapper IDS_FW_DAR để nâng cao hiệu quả xử lý dữ liệu không đầy đủ trong các hệ thống thực tế.

Trích đoạn nội dung tài liệu

Chương 1 cũng trình bày các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô dung sai trong mấy năm gần đây. Nội dung chính của luận văn được trình bày trong chương 2. Chương 2 trình bày kết quả tìm hiểu về xây dựng độ đo khoảng cách mới và thuật toán filter-wrapper IDS_FW_DAR tìm tập rút gọn của bảng quyết định không đầy đủ. Chương 3 áp dụng thuật toán filter-wrapper IDS_FW_DAR vào bài toán phát hiện tàu thuyền từ ảnh vệ tinh.

Cuối cùng, phần kết luận nêu những nội dung đã tìm hiểu của luận văn, hướng phát triển tiếp theo. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ DUNG SAI 1. Hệ thông tin và mô hình tập thô truyền thống Lý thuyết tập thô truyền thống do Z.Pawlak [3] đề xuất là công cụ toán học hiệu quả để biểu diễn và xử lý các khái niệm không chắc chắn. Phương pháp tiếp cận chính của lý thuyết tập thô là dựa trên quan hệ tương đương (hay quan hệ không phân biệt được) để xấp xỉ tập hợp.

Khi đó, mọi tập đối tượng đều được xấp xỉ bởi hai tập rõ là xấp xỉ dưới và xấp xỉ trên của nó. Mỗi tập xấp xỉ được hợp thành bởi một hoặc nhiều lớp tương đương, là cơ sở để xây dựng các thuật toán rút gọn thuộc tính và khai phá tri thức từ dữ liệu. Trong phần này, luận văn trình bày một số khái niệm cơ bản trong lý thuyết tập thô truyền thống của Z.Pawlak [3], là cơ sở nền tảng cho mô hình tập thô dung sai được trình bày ở phần 1. Hệ thông tin Hệ thông tin là công cụ biểu diễn tri thức dưới dạng một bảng dữ liệu gồm n cột ứng với N thuộc tính và M hàng ứng với M đối tượng.

Một cách hình thức, hệ thông tin là một cặp IS = (U , A) trong đó U là tập hữu hạn, khác rỗng các đối tượng; A là tập hữu hạn, khác rỗng các thuộc tính. Mỗi thuộc tính a  A xác định một ánh xạ: a : U → Va với Va là tập giá trị của thuộc tính a  A. Xét hệ thông tin IS = (U , A). Mỗi tập con các thuộc tính P  A xác định một quan hệ hai ngôi trên U, ký hiệu là IND ( P ) , xác định bởi   IND ( P ) = ( u, v ) U U a  P, a (u ) = a ( v ).

IND ( P ) là quan hệ P-không phân biệt được. Dễ thấy rằng IND ( P ) là một quan hệ tương đương trên U. Nếu ( u, v )  IND ( P ) thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P. Quan hệ tương đương IND ( P ) xác định một phân hoạch trên U, ký hiệu là U / IND ( P ) hay U / P.

Ký hiệu lớp tương đương trong phân hoạch  U / P chứa đối tượng u là u P , khi đó u P = v U ( u, v )  IND ( P ). Mô hình tập thô truyền thống Cho hệ thông tin IS = (U , A) và tập đối tượng X  U. Với một tập thuộc tính B  A cho trước, chúng ta biểu diễn X thông qua các lớp tương đương của U / B (còn gọi là biểu diễn X bằng tri thức có sẵn B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U / B. Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B , được gọi là B-xấp xỉ dưới và B-xấp xỉ trên của X, ký hiệu là lượt là BX và BX , được xác định như sau:    BX = u U u B  X , BX = u U u B  X  .

 Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập BX bao gồm các phần tử của U có thể thuộc vào X dựa trên tập thuộc tính B. Từ hai tập xấp xỉ nêu trên, ta định nghĩa các tập BN B ( X ) = BX − BX : B-miền biên của X, U − BX : B-miền ngoài của X. B-miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc X, còn B-miền ngoài của X chứa các đối tượng chắc chắn không thuộc X. Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại BX = Y U / B Y  X  , BX = Y U / B Y  X  .

Trong trường hợp BN B ( X ) =  thì X được gọi là tập chính xác (exact set), ngược lại X được gọi là tập thô (rough set). Xét hệ thông tin IS = (U , A) với B, D  A , ta gọi B-miền dương của D là tập được xác định như sau POS B ( D) = ( BX ) X U / D Rõ ràng POS B ( D) là tập tất cả các đối tượng u sao cho với mọi v U mà   u ( B ) = v ( B ) ta đều có u ( D ) = v ( D ). Nói cách khác, POSB ( D) = u U u   u D. Hệ thông tin không đầy đủ và mô hình tập thô dung sai Phần này trình bày một số khái niệm cơ bản về mô hình tập thô dung sai trên hệ thông tin không đầy đủ do Kryszkiewicz [4] đề xuất.

Hệ thông tin không đầy đủ Xét hệ thông tin IS = (U , A) , nếu tồn tại u U và a  A sao cho a ( u ) chứa giá trị thiếu (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại IS được gọi là hệ thông tin đầy đủ. Ta biểu diễn giá trị thiếu được ký hiệu là ‘*’ và hệ thông tin không đầy đủ là IIS = (U , A). Mô hình tập thô dung sai Xét hệ thông tin không đầy đủ IIS = (U , A) , với tập thuộc tính P, P  A ta định nghĩa một quan hệ nhị phân trên U như sau:   SIM ( P ) = ( u, v ) U U a  P, a (u ) = a ( v )  a (u ) = '*'  a ( v ) = '*'. Quan hệ SIM ( P ) không phải là quan hệ tương đương vì chúng có tính phản xạ, đối xứng nhưng không có tính bắc cầu.

Do đó, SIM ( P ) là một quan hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U. Dễ thấy rằng SIM ( P ) = aP SIM (a). S P ( u ) là tập lớn nhất các đối tượng không có khả năng phân biệt được với u trên tập thuộc tính P dựa trên quan hệ dung sai, còn gọi là một lớp dung sai hay một hạt thông tin. Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ SIM(P) trên U là U / SIM ( P ) , khi đó các lớp dung sai trong U / SIM ( P ) không phải là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau và uU SP (u ) = U.

Cho tập đối tượng X , dựa trên quan hệ dung sai các tập P-xấp xỉ dưới và P-xấp xỉ trên của X trong hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX , được xác định như sau    PX = u U SP ( u )  X = u  X SP (u )  X   PX = u U SP ( u )  X   =  S (u ) u U P 7 Với các tập xấp xỉ nêu trên, ta gọi P-miền biên của X là tập BN P ( X ) = PX − PX , và P-miền ngoài của X là tập U − PX. Trong trường hợp BN P ( X ) =  thì X được gọi là tập chính xác (exact set), ngược lại X được gọi là tập thô dung sai (tolerance rough set). Với P, D  A , ta gọi P-miền dương của D là tập được xác định như sau POS P ( D ) = ( PX ) X U / D Rõ ràng POS P ( D ) là tập tất cả các đối tượng u sao cho với mọi v  S P ( u ) ta đều có u ( D ) = v ( D ). Nói cách khác, POS P ( D ) = u  U S P ( u )  u D .

Như vậy, mô hình tập thô dung sai là mô hình tập thô mở rộng dựa trên quan hệ dung sai trên các hệ thông tin không đầy đủ với các tập xấp xỉ dưới, xấp xỉ trên được định nghĩa dựa trên quan hệ dung sai. Bảng quyết định không đầy đủ Một lớp đặc biệt của các hệ thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định. Bảng quyết định DS là một hệ thông tin với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D , lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định. Tức là DS = (U , C  D ) với C  D = .

Xét bảng quyết định DS = (U , C  D ) , nếu tồn tại u U và c  C sao cho c ( u ) thiếu giá trị thì DS được gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy đủ. Ta biểu diễn bảng quyết định không đầy đủ là IDS = (U , C  D ) với d  D, '*'  Vd. Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc tính quyết định duy nhất d . Cho bảng quyết định không đầy đủ IDS = (U , C  d ).

Với P  C , u U ,  P (u ) = d ( v ) v  S P (u ) gọi là hàm quyết định suy rộng của đối tượng u trên tập thuộc tính P. Nếu |  C (u ) |= 1 với mọi u U thì IDS là nhất quán, trái lại IDS là không nhất quán.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu thuật toán Filter Wrapper tìm tập rút gọn và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh" tập trung vào việc áp dụng thuật toán Filter Wrapper để tối ưu hóa quá trình tìm kiếm tập rút gọn trong dữ liệu, đặc biệt là trong lĩnh vực phát hiện tàu thuyền từ ảnh vệ tinh. Nghiên cứu này không chỉ giúp cải thiện độ chính xác trong việc nhận diện đối tượng mà còn tối ưu hóa thời gian xử lý dữ liệu, mang lại hiệu quả cao trong các ứng dụng thực tế. Đây là một bước tiến quan trọng trong việc kết hợp giữa lý thuyết thuật toán và ứng dụng thực tiễn, đặc biệt trong lĩnh vực trí tuệ nhân tạo và xử lý ảnh.

Để mở rộng kiến thức về các phương pháp xử lý dữ liệu và ứng dụng AI, bạn có thể tham khảo thêm tài liệu Hcmute ứng dụng giải thuật fastica trong tách nguồn mù và trích đặc trưng, nghiên cứu về việc tách nguồn và trích xuất đặc trưng từ dữ liệu phức tạp. Ngoài ra, tài liệu Luận văn thạc sĩ nghiên cứu phương pháp học sâu cho lọc cộng tác cung cấp cái nhìn sâu hơn về các phương pháp học sâu trong xử lý dữ liệu. Cuối cùng, Luận văn advanced data mining techniques sẽ giúp bạn hiểu rõ hơn về các kỹ thuật khai thác dữ liệu tiên tiến, bổ sung kiến thức cho nghiên cứu của mình.

#xử lý ảnh

#ảnh vệ tinh

#bảng quyết định

#Tập rút gọn

#Phát hiện tàu thuyền

Chủ đề

Luận văn thạc sĩ nghiên cứu thuật toán filter wrapper tìm tập rút gọn của bảng quyết định không đầy đủ và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh

LỜI CAM ĐOAN

LỜI CẢM ƠN

MỤC LỤC

1. CHƯƠNG 1: TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ DUNG SAI

1.1. Hệ thông tin và mô hình tập thô truyền thống

1.1.1. Hệ thông tin

1.1.2. Mô hình tập thô truyền thống

1.2. Hệ thông tin không đầy đủ và mô hình tập thô dung sai

1.2.1. Hệ thông tin không đầy đủ

1.2.2. Mô hình tập thô dung sai

1.3. Bảng quyết định không đầy đủ

2. CHƯƠNG 2: THUẬT TOÁN FILTER-WRAPPER TÌM TẬP RÚT GỌN CỦA BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ

2.1. Xây dựng độ đo khoảng cách trong bảng quyết định không đầy đủ

2.1.1. Xây dựng độ đo khoảng cách giữa hai tập hợp

2.1.2. Xây dựng độ đo khoảng cách giữa hai tập thuộc tính

2.2. Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách

2.3. Xây dựng thuật toán filter tìm tập rút gọn của bảng quyết định không đầy đủ

2.4. Thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định không đầy đủ

2.5. Thực nghiệm và đánh giá kết quả

2.6. Kết luận chương 2

3. CHƯƠNG 3: THỬ NGHIỆM RÚT GỌN THUỘC TÍNH VỚI BÀI TOÁN PHÂN LỚP ĐỐI TƯỢNG TRONG ẢNH VIỄN THÁM

3.1. Xây dựng mô hình giải quyết bài toán

3.2. Thực thi mô hình phân lớp gán nhãn cho ảnh viễn thám

3.2.1. Môi trường chạy thử nghiệm

3.2.2. Thực hiện chương trình

3.2.2.1. Tiền xử lý dữ liệu

3.2.2.2. Huấn luyện mô hình

3.2.2.3. Thực thi mô hình

4. CHƯƠNG 4: KẾT LUẬN

TÀI LIỆU THAM KHẢO

I. Tổng quan về thuật toán Filter Wrapper

1.1. Đặc điểm của thuật toán Filter

1.2. Đặc điểm của thuật toán Wrapper

II. Ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh

2.1. Quy trình phát hiện tàu thuyền

2.2. Kết quả và đánh giá

III. Đánh giá giá trị và ứng dụng thực tiễn

3.1. Tính ứng dụng trong các lĩnh vực khác

3.2. Hướng phát triển trong tương lai

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phạm Quang Nam

Người hướng dẫn: PGS. Nguyễn Long Giang

Trường học: Học viện khoa học và công nghệ

Chuyên ngành: Hệ thống thông tin

Đề tài: Nghiên cứu thuật toán Filter Wrapper tìm tập rút gọn và ứng dụng phát hiện tàu thuyền từ ảnh vệ tinh

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2021

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm