Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và học máy (ML), việc ứng dụng các mô hình này trong công nghiệp sản xuất ngày càng được quan tâm. Theo ước tính, ngành công nghiệp hóa chất, đặc biệt là sản xuất sản phẩm nước vệ sinh nhà cửa, đóng vai trò quan trọng trong chuỗi cung ứng toàn cầu với hàng nghìn lô sản phẩm được sản xuất mỗi năm. Tuy nhiên, việc dự đoán chất lượng sản phẩm trong ngành này vẫn còn nhiều thách thức do tính phức tạp của quá trình sản xuất và yêu cầu cao về độ chính xác cũng như khả năng giải thích của mô hình.

Nghiên cứu này tập trung vào việc phát triển giải pháp dự đoán chất lượng sản phẩm nước vệ sinh nhà cửa dựa trên dữ liệu chuỗi thời gian thu thập từ các thiết bị công nghiệp. Mục tiêu chính là xây dựng hệ thống trí tuệ nhân tạo có khả năng giải thích được các dự đoán, giúp người vận hành hiểu và tin tưởng vào kết quả mô hình. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ các thiết bị tại dây chuyền sản xuất của một nhà máy tại Việt Nam trong khoảng thời gian từ đầu năm 2023 đến giữa năm 2024.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả kiểm soát chất lượng sản phẩm, giảm thiểu lô hàng lỗi, đồng thời hỗ trợ quá trình ra quyết định của nhà quản lý và kỹ thuật viên. Độ chính xác của mô hình dự đoán đạt trên 70%, với các đặc trưng quan trọng phù hợp với kiến thức chuyên môn trong ngành hóa chất, góp phần thúc đẩy ứng dụng AI có thể giải thích được trong các ngành công nghiệp truyền thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính trong lĩnh vực trí tuệ nhân tạo giải thích được (Explainable Artificial Intelligence - XAI):

  1. Mô hình trong suốt (Transparent Models): Sử dụng các mô hình có kiến trúc đơn giản, dễ hiểu như Hồi quy tuyến tính (Linear Regression), giúp người dùng dễ dàng nhận biết mối quan hệ giữa các biến đầu vào và kết quả dự đoán. Tuy nhiên, mô hình này có thể hạn chế về khả năng xử lý các mối quan hệ phi tuyến phức tạp.

  2. Phân tích hậu nghiệm với SHAP (SHapley Additive exPlanations): Áp dụng cho các mô hình phức tạp như Rừng ngẫu nhiên (Random Forest Regression), SHAP giúp giải thích ảnh hưởng của từng đặc trưng đến kết quả dự đoán, dựa trên lý thuyết trò chơi. Phương pháp này vừa đảm bảo hiệu suất mô hình cao vừa cung cấp khả năng giải thích chi tiết.

Các khái niệm chuyên ngành được sử dụng bao gồm: chuỗi thời gian (time series), trích xuất đặc trưng dựa trên kiến thức miền (domain-based feature engineering), giá trị SHAP (SHAP values), và các chỉ số chất lượng sản phẩm như pH và độ nhớt (viscosity).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các chuỗi thời gian thu thập từ 53 loại cảm biến và thiết bị trên dây chuyền sản xuất, bao gồm các tín hiệu về trọng lượng, nhiệt độ, áp suất, tốc độ máy bơm, và lượng vật liệu được cấp vào máy trộn chính. Dữ liệu nhãn (label) là kết quả kiểm tra chất lượng sản phẩm (pH và độ nhớt) được ghi nhận thủ công trong bảng tính Excel với tổng số khoảng 6.322 lô sản phẩm hợp lệ.

Quy trình nghiên cứu gồm các bước:

  • Tiền xử lý dữ liệu: Làm sạch dữ liệu nhãn, xác định và loại bỏ các giá trị ngoại lai, phân tách dữ liệu chuỗi thời gian theo từng lô sản phẩm dựa trên tên lô và khoảng thời gian tương ứng.

  • Trích xuất đặc trưng: Áp dụng các thuật toán phát hiện giai đoạn ổn định trong chuỗi thời gian để tính toán các đặc trưng như giá trị trung bình trọng lượng, nhiệt độ, áp suất trong giai đoạn ổn định, cũng như tổng lượng vật liệu được cấp vào trong từng lô.

  • Phân tích và xây dựng mô hình: So sánh hai mô hình chính là Hồi quy tuyến tính và Rừng ngẫu nhiên, sử dụng phương pháp chọn đặc trưng dựa trên giá trị SHAP để tối ưu hóa tập đặc trưng đầu vào.

  • Thời gian nghiên cứu: Từ tháng 1/2024 đến tháng 5/2024, với các mốc quan trọng gồm tổng hợp tài liệu (tháng 3), xây dựng phương pháp (tháng 3), phân tích kết quả (tháng 4) và hoàn thiện luận văn (tháng 5).

Phương pháp phân tích sử dụng các kỹ thuật thống kê mô tả, kiểm định chất lượng dữ liệu, và đánh giá hiệu suất mô hình qua chỉ số R-squared, độ chính xác dự đoán, cùng với trực quan hóa giá trị SHAP để giải thích mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu suất mô hình: Mô hình Rừng ngẫu nhiên đạt độ chính xác dự đoán trên 70% với chỉ số R-squared khoảng 0.71 cho cả hai chỉ tiêu pH và độ nhớt, vượt trội so với mô hình Hồi quy tuyến tính truyền thống.

  2. Đặc trưng quan trọng: Các đặc trưng như trọng lượng máy trộn chính, nhiệt độ máy trộn, áp suất hệ thống tuần hoàn, tốc độ bơm tuần hoàn, và lượng nước clo được xác định là có ảnh hưởng lớn đến chất lượng sản phẩm, phù hợp với kiến thức chuyên môn trong ngành.

  3. Phân tích SHAP: Giá trị SHAP cho thấy các đặc trưng được lựa chọn không chỉ có ý nghĩa thống kê mà còn có tính giải thích cao, giúp người vận hành hiểu được nguyên nhân ảnh hưởng đến chất lượng sản phẩm.

  4. Phân bố dữ liệu: Khoảng 82 lô sản phẩm có thời gian sản xuất bất thường (trên 3 giờ), được loại bỏ để đảm bảo tính ổn định và chính xác của mô hình. Phần lớn các lô sản xuất có thời gian từ 30 đến 60 phút.

Thảo luận kết quả

Nguyên nhân của hiệu suất cao của mô hình Rừng ngẫu nhiên là do khả năng xử lý các mối quan hệ phi tuyến và tương tác phức tạp giữa các đặc trưng trong dữ liệu chuỗi thời gian. Việc áp dụng SHAP giúp khắc phục nhược điểm "hộp đen" thường gặp ở các mô hình phức tạp, tăng cường sự tin tưởng của người dùng.

So sánh với các nghiên cứu trong ngành công nghiệp khác, kết quả này phù hợp với xu hướng ứng dụng XAI để nâng cao khả năng chấp nhận và triển khai AI trong môi trường sản xuất truyền thống. Việc loại bỏ các lô sản xuất có dữ liệu bất thường cũng góp phần cải thiện độ tin cậy của mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố pH, độ nhớt, thời gian sản xuất, cùng với các biểu đồ tóm tắt giá trị SHAP để minh họa mức độ ảnh hưởng của từng đặc trưng. Bảng so sánh hiệu suất giữa các mô hình cũng giúp làm rõ ưu nhược điểm từng phương pháp.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống dự đoán chất lượng tự động: Áp dụng mô hình Rừng ngẫu nhiên kết hợp SHAP vào hệ thống giám sát sản xuất để dự đoán sớm chất lượng sản phẩm, giảm thiểu lô lỗi. Thời gian thực hiện dự kiến trong 6 tháng, do phòng kỹ thuật và IT chịu trách nhiệm.

  2. Đào tạo nhân sự vận hành: Tổ chức các khóa đào tạo về hiểu biết mô hình AI và cách giải thích kết quả dựa trên SHAP cho kỹ thuật viên và quản lý sản xuất, nhằm nâng cao khả năng tương tác và kiểm soát hệ thống. Thời gian đào tạo trong 3 tháng.

  3. Cải tiến quy trình thu thập và xử lý dữ liệu: Tăng cường tự động hóa trong việc thu thập dữ liệu chuỗi thời gian và nhãn chất lượng, đồng thời xây dựng quy trình làm sạch và loại bỏ dữ liệu bất thường để đảm bảo chất lượng đầu vào cho mô hình.

  4. Mở rộng nghiên cứu và phát triển: Nghiên cứu thêm các mô hình học sâu có khả năng giải thích cao, kết hợp với dữ liệu thời gian thực để nâng cao độ chính xác và khả năng dự báo trong các điều kiện sản xuất đa dạng. Thời gian nghiên cứu tiếp theo dự kiến 12 tháng.

Đối tượng nên tham khảo luận văn

  1. Chuyên gia và kỹ sư trong ngành hóa chất: Giúp hiểu rõ cách ứng dụng AI giải thích được trong kiểm soát chất lượng sản phẩm, từ đó cải tiến quy trình sản xuất.

  2. Nhà quản lý sản xuất và vận hành: Cung cấp công cụ hỗ trợ ra quyết định dựa trên dữ liệu, tăng cường hiệu quả và giảm thiểu rủi ro trong sản xuất.

  3. Nhà nghiên cứu và phát triển AI trong công nghiệp: Tham khảo phương pháp kết hợp giữa kiến thức chuyên môn và kỹ thuật giải thích mô hình để phát triển các giải pháp AI thực tiễn.

  4. Sinh viên và học viên ngành Khoa học Máy tính, Kỹ thuật Hóa học: Nắm bắt kiến thức về ứng dụng học máy trong công nghiệp, đặc biệt là các kỹ thuật giải thích mô hình và trích xuất đặc trưng từ dữ liệu chuỗi thời gian.

Câu hỏi thường gặp

  1. Tại sao cần mô hình AI có khả năng giải thích trong sản xuất?
    Mô hình giải thích được giúp người vận hành hiểu nguyên nhân dự đoán, tăng sự tin tưởng và khả năng kiểm soát, giảm rủi ro khi áp dụng AI trong môi trường sản xuất nghiêm ngặt.

  2. SHAP là gì và nó giúp gì cho mô hình?
    SHAP là phương pháp dựa trên lý thuyết trò chơi để đánh giá ảnh hưởng của từng đặc trưng đến dự đoán của mô hình, giúp minh bạch và giải thích kết quả một cách trực quan.

  3. Dữ liệu chuỗi thời gian được xử lý như thế nào để làm đầu vào mô hình?
    Dữ liệu được phân tách theo từng lô sản xuất, xác định giai đoạn ổn định trong chuỗi thời gian, sau đó tính toán các đặc trưng như giá trị trung bình, tổng lượng vật liệu, thời gian cấp liệu.

  4. Mô hình Rừng ngẫu nhiên có ưu điểm gì so với Hồi quy tuyến tính?
    Rừng ngẫu nhiên xử lý tốt các mối quan hệ phi tuyến và tương tác phức tạp giữa các biến, cho độ chính xác cao hơn trong dự đoán chất lượng sản phẩm.

  5. Làm thế nào để loại bỏ dữ liệu bất thường trong nghiên cứu?
    Sử dụng các phương pháp thống kê như phân tích phân vị (interquartile range) và kiểm tra tính hợp lệ của các chỉ số như thời gian sản xuất, lượng vật liệu để loại bỏ các lô sản xuất không hợp lệ.

Kết luận

  • Nghiên cứu đã xây dựng thành công mô hình dự đoán chất lượng sản phẩm nước vệ sinh nhà cửa với độ chính xác trên 70%, sử dụng kết hợp mô hình trong suốt và kỹ thuật giải thích SHAP.
  • Phương pháp trích xuất đặc trưng dựa trên kiến thức chuyên môn và xử lý dữ liệu chuỗi thời gian giúp đảm bảo tính giải thích và hiệu quả của mô hình.
  • Kết quả nghiên cứu góp phần thúc đẩy ứng dụng trí tuệ nhân tạo có thể giải thích được trong ngành công nghiệp hóa chất truyền thống.
  • Các đề xuất về triển khai hệ thống, đào tạo nhân sự và cải tiến quy trình dữ liệu được xây dựng dựa trên kết quả nghiên cứu.
  • Bước tiếp theo là mở rộng nghiên cứu với các mô hình học sâu giải thích được và áp dụng trong môi trường sản xuất thực tế để nâng cao độ chính xác và khả năng ứng dụng.

Hãy bắt đầu áp dụng các giải pháp AI giải thích được để nâng cao chất lượng sản phẩm và hiệu quả sản xuất ngay hôm nay!