Luận văn phát triển thuật toán nhận dạng đống đổ nát tái chế - IFI

Luận văn thạc sĩ nghiên cứu thuật toán nhận dạng hình ảnh ứng dụng deep learning để phân loại và phân đoạn đống đổ nát tái chế bằng Mask R-CNN.

2020

75
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Cách nhận dạng hình dạng đống đổ nát tái chế bằng AI

Việc nhận dạng hình dạng đống đổ nát tái chế đang trở thành một nhu cầu cấp thiết trong ngành xây dựng và quản lý chất thải. Mỗi năm, hàng triệu tấn vật liệu xây dựng thải được tạo ra, nhưng tỷ lệ tái chế còn thấp do thiếu công nghệ phân loại hiệu quả. Các thuật toán nhận dạng hình dạng dựa trên học sâu (deep learning) cung cấp giải pháp tự động hóa quy trình này. Nghiên cứu của Saidi Daouda Kadri (2020) tại Đại học Quốc gia Việt Nam, Hà Nội đã chứng minh rằng việc kết hợp phân đoạn ngữ nghĩaphát hiện đối tượng giúp xác định chính xác hình dạng, kích thước và loại vật liệu tái chế trong đống đổ nát. Hệ thống này mô phỏng khả năng thị giác của con người – nhận diện và phân loại đối tượng chỉ trong một cái nhìn – nhưng thực hiện bằng mạng nơ-ron tích hợp. Điều này không chỉ tiết kiệm thời gian mà còn nâng cao hiệu quả tái chế, góp phần bảo vệ tài nguyên thiên nhiên và giảm thiểu ô nhiễm môi trường.

1.1. Vai trò của nhận dạng hình dạng trong tái chế vật liệu xây dựng

Nhận dạng hình dạng giúp phân biệt bê tông vỡ, gạch vụn, kim loại, hay gỗ tái chế trong hỗn hợp đổ nát. Việc phân loại thủ công tốn kém và dễ sai sót. Trong khi đó, thuật toán nhận dạng hình dạng tự động hóa bước đầu tiên trong chuỗi tái chế, làm nền tảng cho xử lý tiếp theo. Theo nghiên cứu tại L3i Laboratory, khả năng phân loại chính xác lên tới 92% khi sử dụng mô hình Mask R-CNN trên tập dữ liệu do nhóm xây dựng.

1.2. Cơ sở dữ liệu hình ảnh đống đổ nát tái chế

Một yếu tố then chốt là tập dữ liệu hình ảnh được gán nhãn chính xác. Nghiên cứu đã xây dựng cơ sở dữ liệu gồm hơn 5.000 ảnh chụp từ nhiều góc độ, điều kiện ánh sáng và mức độ lộn xộn. Mỗi ảnh được gán nhãn theo phân đoạn theo thực thể (instance segmentation), cho phép hệ thống học đặc trưng hình học và kết cấu của từng loại vật liệu. Đây là bước nền tảng để huấn luyện các mô hình học máy hiệu quả.

II. Thách thức trong thuật toán nhận dạng hình dạng đống đổ nát

Mặc dù tiềm năng lớn, thuật toán nhận dạng hình dạng đống đổ nát tái chế đối mặt với nhiều thách thức kỹ thuật. Các đống đổ nát thường có cấu trúc phi cấu trúc, chồng lấn, che khuất lẫn nhau và thiếu đặc trưng hình học rõ ràng. Điều này làm giảm độ chính xác của các hệ thống thị giác máy tính truyền thống. Ngoài ra, sự đa dạng về kết cấu bề mặt, màu sắc và độ ẩm cũng gây nhiễu cho mô hình. Một vấn đề nữa là thiếu tiêu chuẩn hóa trong dữ liệu đầu vào – mỗi bãi phế liệu có điều kiện ánh sáng, nền và bố cục khác nhau. Theo Kadri (2020), các mô hình học sâu cần được huấn luyện trên tập dữ liệu đa dạng để đạt độ khái quát hóa cao. Việc xử lý thời gian thực cũng là thách thức, đặc biệt khi triển khai trên thiết bị di động hoặc hệ thống nhúng tại hiện trường.

2.1. Vấn đề chồng lấn và che khuất trong hình ảnh

Khi các mảnh vỡ chồng lấn hoặc che khuất nhau, mô hình khó xác định ranh giới chính xác. Điều này ảnh hưởng nghiêm trọng đến phân đoạn theo thực thể. Giải pháp đề xuất là sử dụng mạng kim tự tháp đặc trưng (Feature Pyramid Network – FPN) để trích xuất thông tin ở nhiều tỷ lệ, giúp phát hiện cả vật thể lớn và nhỏ trong cùng khung hình.

2.2. Thiếu dữ liệu chuẩn hóa cho đào tạo mô hình

Hiện chưa có bộ dữ liệu công khai chuẩn cho đống đổ nát tái chế. Các nhóm nghiên cứu buộc phải tự xây dựng, tốn kém thời gian và chi phí. Việc thiếu đa dạng trong dữ liệu dẫn đến quá khớp (overfitting), khiến mô hình hoạt động kém trên dữ liệu thực tế. Giải pháp là áp dụng tăng cường dữ liệu (data augmentation) và học chuyển giao (transfer learning) từ các mô hình được huấn luyện trên tập tổng quát như COCO.

III. Phương pháp học sâu cho nhận dạng hình dạng đống đổ nát

Các phương pháp học sâu hiện đại đã cách mạng hóa lĩnh vực nhận dạng hình dạng đống đổ nát tái chế. Trong đó, Mask R-CNN nổi bật nhờ khả năng kết hợp phát hiện đối tượngphân đoạn mặt nạ trong cùng một kiến trúc. Mô hình này mở rộng từ Faster R-CNN bằng cách thêm nhánh phân đoạn song song, cho phép xác định không chỉ vị trí mà còn hình dạng chi tiết của từng mảnh vỡ. Ngoài ra, YOLO (You Only Look Once) cũng được xem xét nhờ tốc độ xử lý cao, phù hợp cho ứng dụng thời gian thực. Tuy nhiên, YOLO có độ chính xác phân đoạn thấp hơn so với Mask R-CNN. Nghiên cứu của Kadri (2020) đã thử nghiệm cả hai và kết luận rằng Mask R-CNN phù hợp hơn cho mục tiêu tái chế do yêu cầu độ chính xác cao hơn tốc độ.

3.1. Ứng dụng Mask R CNN trong phân tích đống đổ nát

Mask R-CNN sử dụng mạng kim tự tháp đặc trưng (FPN) để xử lý đa tỷ lệ và RoIAlign để trích xuất đặc trưng không bị mất thông tin vị trí. Kết quả thử nghiệm cho thấy độ chính xác IoU (Intersection over Union) đạt 0.87 trên tập dữ liệu nội bộ. Mô hình này không chỉ phân loại mà còn vẽ mặt nạ pixel cho từng vật thể, hỗ trợ robot hoặc băng chuyền tự động phân loại.

3.2. So sánh hiệu suất giữa YOLO và R CNN

YOLO xử lý nhanh hơn (~45 FPS) nhưng độ chính xác phân đoạn thấp (~70% IoU). Trong khi đó, Mask R-CNN đạt ~92% IoU nhưng tốc độ chậm (~5 FPS). Tùy vào yêu cầu ứng dụng – tốc độ hay độ chính xác – mà lựa chọn kiến trúc phù hợp. Với mục tiêu tái chế vật liệu xây dựng, độ chính xác được ưu tiên hàng đầu.

IV. Ứng dụng thực tiễn của thuật toán trong ngành xây dựng

Các thuật toán nhận dạng hình dạng đống đổ nát tái chế đã bắt đầu được triển khai trong các hệ thống phân loại tự động tại châu Âu và Nhật Bản. Tại Pháp, nơi mỗi năm thải ra hơn 40 triệu tấn rác xây dựng, các công ty như Valorem và Paprec đang thử nghiệm hệ thống thị giác máy tính tích hợp học sâu để phân tách bê tông, kim loại, và gạch. Ở Việt Nam, nghiên cứu của Đại học Quốc gia Hà Nội mở ra khả năng ứng dụng tại các trung tâm xử lý rác đô thị. Hệ thống có thể tích hợp với robot công nghiệp hoặc băng chuyền thông minh để tự động phân loại, giảm 70% lao động thủ công. Ngoài ra, dữ liệu hình dạng thu được còn hỗ trợ tính toán khối lượng tái chế, chất lượng vật liệu, và giá trị kinh tế của đống đổ nát – yếu tố then chốt cho mô hình kinh tế tuần hoàn.

4.1. Tích hợp với hệ thống phân loại tự động

Hệ thống camera công nghiệp chụp ảnh đống đổ nát, gửi dữ liệu đến mô hình Mask R-CNN chạy trên máy chủ hoặc thiết bị biên (edge device). Kết quả phân đoạn được truyền đến cánh tay robot để gắp vật liệu phù hợp. Thử nghiệm tại L3i Laboratory cho thấy hiệu suất phân loại đạt 89% trong điều kiện thực tế.

4.2. Đóng góp cho kinh tế tuần hoàn và phát triển bền vững

Việc tái chế vật liệu xây dựng giúp giảm khai thác cát, đá tự nhiên – nguồn tài nguyên đang cạn kiệt. Thuật toán nhận dạng hình dạng đóng vai trò then chốt trong chuỗi giá trị tuần hoàn, biến rác thành nguyên liệu thô. Theo ước tính, nếu áp dụng rộng rãi, ngành xây dựng có thể giảm 30% lượng CO₂ phát thải nhờ tái chế hiệu quả.

V. Tương lai của nhận dạng hình dạng đống đổ nát tái chế

Tương lai của thuật toán nhận dạng hình dạng đống đổ nát tái chế nằm ở sự kết hợp giữa học tăng cường, học không giám sát, và mô hình 3D. Hiện tại, hầu hết hệ thống chỉ xử lý ảnh 2D, nhưng việc sử dụng LiDAR hoặc cảm biến độ sâu sẽ cung cấp thông tin hình học không gian, giúp phân biệt lớp chồng lấn hiệu quả hơn. Ngoài ra, các mô hình tự giám sát (self-supervised) có thể giảm phụ thuộc vào dữ liệu gán nhãn – vốn tốn kém và chậm. Nghiên cứu tiếp theo có thể hướng đến hệ thống đa cảm biến, tích hợp nhiệt, quang phổ và hình ảnh để nhận diện không chỉ hình dạng mà cả thành phần hóa học của vật liệu. Điều này sẽ mở ra kỷ nguyên mới cho nhà máy thông minh trong ngành xử lý phế liệu.

5.1. Hướng phát triển mô hình 3D và đa cảm biến

Cảm biến độ sâu như Intel RealSense hoặc LiDAR cho phép xây dựng bản đồ 3D của đống đổ nát. Kết hợp với ảnh RGB, mô hình có thể suy luận thể tích, khối lượng, và góc nghiêng – thông tin quan trọng cho robot gắp. Nghiên cứu tương lai cần phát triển kiến trúc mạng xử lý đa luồng dữ liệu này.

5.2. Vai trò của học không giám sát trong mở rộng ứng dụng

Học không giám sát giúp mô hình tự học đặc trưng từ dữ liệu thô, không cần gán nhãn. Điều này đặc biệt hữu ích ở các quốc gia đang phát triển, nơi thiếu nguồn lực xây dựng tập dữ liệu lớn. Các kỹ thuật như contrastive learning hoặc clustering-based representation đang được thử nghiệm để nâng cao khả năng khái quát hóa.

14/03/2026
Luận văn phát triển các thuật toán nhận dạng hình dạng để xác định và mô tả đặc tính của đống đổ nát tái chế