Tổng quan nghiên cứu
Trong sản xuất công nghiệp, giám sát ngoại quan để quản lý chất lượng sản phẩm đóng vai trò thiết yếu nhằm phát hiện các khuyết điểm bề mặt. Theo ước tính, việc kiểm tra thủ công chiếm nhiều thời gian và nguồn lực, gây lãng phí đáng kể. Do đó, các hệ thống tự động nhận diện lỗi bề mặt dựa trên hình ảnh đang được quan tâm rộng rãi. Tuy nhiên, thách thức lớn nhất là thiếu hụt dữ liệu huấn luyện, đặc biệt trong môi trường công nghiệp thực tế, khi số lượng ảnh lỗi thường rất hạn chế. Mục tiêu nghiên cứu là xây dựng một mô hình phân lớp hiệu quả cho giám sát ngoại quan, ứng dụng trong quản lý chất lượng sản phẩm, với khả năng hoạt động tốt trên các tập dữ liệu nhỏ. Phạm vi nghiên cứu tập trung vào các loại lỗi bề mặt trong sản xuất thép cán nóng và tấm bán dẫn, sử dụng các bộ dữ liệu NEU và MixedWM38 với tổng cộng hơn 40.000 ảnh. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác phân loại lỗi, giảm thiểu thời gian kiểm tra và hỗ trợ công nhân trong việc ra quyết định nhanh chóng dựa trên dữ liệu hình ảnh.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình học sâu trong thị giác máy tính, bao gồm:
- Mạng nơ-ron tích chập (CNN): Kiến trúc mạng chuyên trích xuất đặc trưng hình ảnh, với các tầng tích chập, gộp và kết nối đầy đủ, giúp nhận dạng các đặc điểm phức tạp của lỗi bề mặt.
- Học chuyển tiếp (Transfer Learning): Sử dụng mô hình được huấn luyện trước trên tập dữ liệu lớn (ImageNet) để trích xuất đặc trưng, giảm yêu cầu về dữ liệu huấn luyện mới.
- Học biểu diễn (Representation Learning): Tập trung vào việc học các biểu diễn đặc trưng có khả năng phân biệt cao, đặc biệt là trong điều kiện dữ liệu hạn chế.
- Học tự giám sát (Self-Supervised Learning): Phương pháp học không cần nhãn hoặc sử dụng nhãn giả, như mô hình SimCLR, giúp tận dụng dữ liệu chưa gán nhãn để cải thiện biểu diễn.
- Hàm mất mát Additive Angular Margin Loss (ArcFace): Tăng cường khả năng phân biệt giữa các lớp bằng cách thêm biên góc vào hàm mất mát softmax, giúp tối ưu hóa khoảng cách giữa các lớp trong không gian đặc trưng.
- Mô hình Siamese Neural Network (SNN): Kiến trúc mạng đôi học sự tương đồng giữa các ảnh, phù hợp với bài toán Few-Shot Learning khi dữ liệu huấn luyện rất ít.
Các khái niệm chính bao gồm: đặc trưng sâu, contrastive loss, angular margin penalty, tăng cường dữ liệu, và few-shot classification.
Phương pháp nghiên cứu
Nguồn dữ liệu chính gồm hai bộ dữ liệu công nghiệp: NEU (1800 ảnh lỗi bề mặt thép cán nóng, 6 loại lỗi) và MixedWM38 (38.015 ảnh tấm bán dẫn với 38 loại lỗi đơn và hỗn hợp). Phương pháp phân tích sử dụng mô hình học sâu ResNet-50 làm backbone, kết hợp hai mô-đun chính:
- Self-Contrastive Learning (SCL): Tăng cường dữ liệu bằng các phép biến đổi ảnh (cắt ngẫu nhiên, xoay, lật), học biểu diễn đặc trưng qua hàm Contrastive Loss dựa trên các cặp ảnh tăng cường.
- Angular Margin Penalty (AMP): Áp dụng hàm ArcFace để tăng cường phân biệt các lớp bằng cách thêm biên góc vào hàm softmax.
Mô hình được huấn luyện end-to-end với hàm mất mát tổng hợp:
$$L_{Total} = \alpha \cdot L_{Con} + \beta \cdot L_{Arc}$$
với $$\alpha = 0.75$$ và $$\beta = 0.25$$.
Cỡ mẫu huấn luyện dao động từ 10 đến 100 ảnh mỗi lớp, sử dụng kỹ thuật sampling để đảm bảo mini-batch chứa các lớp khác nhau nhằm tối ưu hóa biểu diễn. Quá trình huấn luyện thực hiện trên GPU NVIDIA Tesla T4 và A100, với batch size 32, learning rate 5e-4, trong 100 epochs, sử dụng bộ tối ưu Adam. Hiệu suất đánh giá dựa trên độ chính xác phân loại và trực quan hóa Grad-CAM để phân tích vùng ảnh mô hình tập trung.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu suất phân loại trên tập NEU: Mô hình đề xuất đạt độ chính xác trung bình 99% khi sử dụng 70% dữ liệu huấn luyện, vượt trội so với các phương pháp SNN (92.58%) và các mô hình attention hay semi-supervised khác. Khi giảm dữ liệu huấn luyện xuống còn 10 ảnh mỗi lớp, mô hình vẫn đạt 98.39% độ chính xác, trong khi ResNet-50 chỉ đạt 93.72%.
Hiệu quả trong bài toán Few-Shot Learning: Với k = 1, 3, 5 ảnh đại diện cho các lớp mới chưa huấn luyện, mô hình đạt độ chính xác lần lượt 82.29%, cạnh tranh với kết quả 83.22% của mô hình One-Shot Recognition.
Kết quả trên tập MixedWM38: Mô hình đạt độ chính xác trung bình 98.22% trên 38 lớp lỗi, vượt trội so với DC-Net (93%) và tương đương với WaferSegClassNet (98.36%). Đặc biệt, mô hình có hiệu quả cao trong phân loại các loại lỗi hỗn hợp phức tạp, với độ chính xác trên 98.8%.
Hiệu quả với dữ liệu nhỏ trên MixedWM38: Khi huấn luyện với chỉ 20 ảnh mỗi lớp, mô hình đạt 92.27% độ chính xác trên tập kiểm thử, trong khi ResNet-50 chỉ đạt 55.83%.
Thảo luận kết quả
Nguyên nhân chính của hiệu quả vượt trội là sự kết hợp hài hòa giữa học tự giám sát và học có giám sát qua hai hàm mất mát Contrastive Loss và ArcFace Loss, giúp mô hình học được biểu diễn đặc trưng phân biệt ngay cả với lượng dữ liệu hạn chế. Việc sử dụng kỹ thuật tăng cường dữ liệu đa dạng giúp mô hình tránh over-fitting và tăng khả năng khái quát hóa. So với các nghiên cứu trước đây, mô hình đề xuất không chỉ đạt độ chính xác cao mà còn thể hiện khả năng phân loại tốt các tổ hợp lỗi phức tạp, điều mà nhiều mô hình khác gặp khó khăn. Các biểu đồ Grad-CAM minh họa rõ ràng vùng ảnh mà mô hình tập trung, cho thấy sự chú ý chính xác vào các vùng lỗi, giảm thiểu ảnh hưởng của nhiễu nền. Điều này có ý nghĩa quan trọng trong thực tế sản xuất, giúp giảm sai sót và tăng tốc độ kiểm tra.
Đề xuất và khuyến nghị
Triển khai mô hình trong hệ thống kiểm tra tự động: Áp dụng mô hình đề xuất vào dây chuyền sản xuất để tự động hóa giám sát ngoại quan, giảm thiểu nhân công và tăng tốc độ kiểm tra, hướng tới mục tiêu giảm thời gian kiểm tra xuống dưới 50% so với phương pháp thủ công trong vòng 6 tháng.
Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu ảnh lỗi từ các nhà máy khác nhau để tăng tính đa dạng và khả năng khái quát của mô hình, đồng thời áp dụng các kỹ thuật tổng hợp dữ liệu nâng cao trong 12 tháng tới.
Tối ưu hóa mô hình cho thiết bị nhúng: Nghiên cứu giảm kích thước mô hình và tăng tốc độ inference bằng kỹ thuật pruning và quantization, nhằm triển khai trên các thiết bị kiểm tra tại chỗ với yêu cầu thời gian thực, dự kiến hoàn thành trong 9 tháng.
Phát triển giao diện hỗ trợ người dùng: Xây dựng phần mềm trực quan giúp công nhân dễ dàng sử dụng và hiểu kết quả phân loại, đồng thời cung cấp cảnh báo sớm về chất lượng sản phẩm, triển khai trong 6 tháng.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Thị giác máy tính: Nghiên cứu về học sâu, học biểu diễn và ứng dụng trong công nghiệp, có thể áp dụng mô hình và phương pháp đề xuất cho các bài toán tương tự.
Kỹ sư và chuyên gia trong ngành sản xuất công nghiệp: Đặc biệt là các lĩnh vực sản xuất thép, điện tử, bán dẫn, có thể ứng dụng mô hình để nâng cao hiệu quả quản lý chất lượng sản phẩm.
Nhà phát triển phần mềm và hệ thống tự động hóa: Tận dụng kiến thức về mô hình học sâu và kỹ thuật tăng cường dữ liệu để phát triển các hệ thống kiểm tra tự động, cải thiện độ chính xác và tốc độ xử lý.
Quản lý chất lượng và vận hành nhà máy: Hiểu rõ về các công nghệ mới trong giám sát ngoại quan, từ đó đưa ra các quyết định đầu tư và cải tiến quy trình sản xuất phù hợp.
Câu hỏi thường gặp
Mô hình có thể áp dụng cho các loại sản phẩm khác ngoài thép và bán dẫn không?
Có, mô hình dựa trên học biểu diễn và học tự giám sát có tính tổng quát cao, có thể được điều chỉnh và huấn luyện lại cho các loại sản phẩm khác có đặc điểm lỗi bề mặt tương tự.Lượng dữ liệu tối thiểu cần thiết để mô hình hoạt động hiệu quả là bao nhiêu?
Nghiên cứu cho thấy mô hình vẫn đạt trên 98% độ chính xác với chỉ 10 ảnh lỗi mỗi lớp, nhờ kỹ thuật tăng cường dữ liệu và hàm mất mát tối ưu.Mô hình có thể hoạt động trong thời gian thực trên dây chuyền sản xuất không?
Với kiến trúc ResNet-50 và các kỹ thuật tối ưu, mô hình có thể được triển khai trên các thiết bị GPU hiện đại để đáp ứng yêu cầu thời gian thực, tuy nhiên cần tối ưu thêm cho các thiết bị nhúng.Phương pháp tăng cường dữ liệu nào được sử dụng?
Bao gồm cắt ngẫu nhiên, xoay với các góc 0, 90, 180, 270 độ, lật ngang và dọc, giúp tạo ra các biến thể ảnh đa dạng từ dữ liệu gốc.Làm thế nào để đánh giá hiệu quả mô hình ngoài độ chính xác?
Có thể sử dụng các biểu đồ Grad-CAM để trực quan hóa vùng ảnh mô hình tập trung, đồng thời đánh giá tốc độ inference và khả năng khái quát trên các tập dữ liệu khác nhau.
Kết luận
- Đề tài đã xây dựng thành công mô hình phân lớp hiệu quả cho giám sát ngoại quan trong quản lý chất lượng sản phẩm công nghiệp, đặc biệt phù hợp với dữ liệu hạn chế.
- Kết hợp hàm mất mát Contrastive Loss và ArcFace Loss giúp cải thiện đáng kể khả năng phân biệt các lớp lỗi, đạt độ chính xác trên 98% với dữ liệu nhỏ.
- Mô hình được đánh giá trên hai bộ dữ liệu công nghiệp lớn NEU và MixedWM38, cho thấy hiệu suất vượt trội so với các phương pháp hiện có.
- Các kết quả trực quan hóa Grad-CAM chứng minh mô hình tập trung chính xác vào vùng lỗi, giảm thiểu ảnh hưởng nhiễu nền.
- Hướng phát triển tiếp theo bao gồm mở rộng dữ liệu, tối ưu mô hình cho thiết bị nhúng và phát triển giao diện hỗ trợ người dùng nhằm ứng dụng thực tế hiệu quả hơn.
Để tiếp tục nghiên cứu và ứng dụng, các nhà khoa học và kỹ sư được khuyến khích triển khai mô hình trong môi trường sản xuất thực tế, đồng thời phát triển các giải pháp mở rộng nhằm nâng cao hiệu quả quản lý chất lượng sản phẩm.