Luận Văn Thạc Sĩ Khoa Học Máy Tính: Nghiên Cứu Dự Đoán Chất Lượng Sản Phẩm Chăm Sóc Nhà Ở

Luận văn thạc sĩ khoa học máy tính nghiên cứu dự đoán chất lượng sản phẩm chăm sóc nhà cửa dạng lỏng bằng phương pháp phân tích dữ liệu hiệu quả.

Trường đại học

Ho Chi Minh University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Master’s thesis

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

Acknowledgements

Abstract

Tóm tắt Luận văn

Declaration of Authorship

1. CHƯƠNG 1: Introduction

2. CHƯƠNG 2: Literature Review

2.1. Machine learning in Industry

2.2. Predict the quality of home care product

2.3. Application of Explainable AI

2.4. SHapley Additive exPlanation

2.4.1. Build batches time windows

2.4.2. Weight of the main mixer

2.4.3. Temperature of the main mixer

2.4.4. Pressure of main mixer circulation system

2.4.5. Speed of main mixer circulation pump

2.4.6. The amount of chlorinated water

2.4.7. The amount of liquid materials

2.4.8. The amount of Dehydol

2.4.9. The amount of hot water

2.4.10. The amount of Plantacare

2.4.11. The amount of enzyme

2.4.12. The amount of Glycerol

2.4.13. The agitator speed of the main mixer

2.4.14. The flow of chlorinated water, LAS, and NaOH

2.4.15. The amount of TEA

2.4.16. The temperature of chlorinated and hot water

3. CHƯƠNG 3

3.1. Baseline model for viscosity

3.2. Baseline model for pH

3.3. The features for liquid materials

3.4. The feature of physical signals

3.5. SHAP for feature selection and model explanation

4. CHƯƠNG 4: Result and analytics

4.1. Viscosity baseline model

4.2. pH baseline model

4.3. Model predictions explanation

4.4. Models with SHAP-based feature selection

5. CHƯƠNG 5: Conclusion

References

Appendices

A. Experiment with different architecture

List of Figures

List of Tables

Tóm tắt

I. Luận Văn Thạc Sĩ Khoa Học Máy Tính Dự Đoán Chất Lượng Sản Phẩm Chăm Sóc Nhà Ở

Luận văn thạc sĩ này tập trung vào việc áp dụng khoa học máy tính để giải quyết vấn đề dự đoán chất lượng sản phẩm trong ngành chăm sóc nhà ở. Nghiên cứu này nhằm mục đích phát triển một hệ thống thông minh có khả năng dự đoán chất lượng sản phẩm dựa trên dữ liệu thời gian từ các thiết bị công nghiệp. Nghiên cứu khoa học này không chỉ tập trung vào hiệu suất của mô hình mà còn đảm bảo tính giải thích được của các dự đoán, phù hợp với kiến thức chuyên môn trong ngành.

1.1. Mục tiêu và đóng góp

Mục tiêu chính của luận văn thạc sĩ là xây dựng một hệ thống dự đoán chất lượng sản phẩm có khả năng giải thích được. Nghiên cứu này đóng góp vào việc áp dụng trí tuệ nhân tạo trong ngành công nghiệp hóa chất, cụ thể là sản xuất sản phẩm chăm sóc nhà ở. Các đóng góp chính bao gồm: (1) Xử lý dữ liệu thời gian từ thiết bị công nghiệp, (2) Đánh giá hai mô hình học máy khác nhau về hiệu suất và khả năng giải thích, (3) Thử nghiệm cơ chế lựa chọn đặc trưng dựa trên SHAP (SHapley Additive exPlanations).

1.2. Phương pháp tiếp cận

Nghiên cứu sử dụng hai phương pháp chính: (1) Sử dụng mô hình hồi quy tuyến tính để đảm bảo tính minh bạch từ đầu, (2) Áp dụng SHAP để phân tích hậu nghiệm các dự đoán của mô hình rừng ngẫu nhiên. Cả hai phương pháp đều được đánh giá dựa trên hiệu suất và khả năng giải thích các đặc trưng quan trọng. Kết quả cho thấy các mô hình đạt độ chính xác trên 70%, với các đặc trưng quan trọng phù hợp với kiến thức chuyên môn.

II. Phân tích dữ liệu và kỹ thuật máy tính

Phần này tập trung vào việc phân tích dữ liệu và áp dụng các kỹ thuật máy tính để xử lý dữ liệu thời gian từ các thiết bị công nghiệp. Nghiên cứu sử dụng các phương pháp trích xuất đặc trưng dựa trên kiến thức chuyên môn để đảm bảo dữ liệu đầu vào có thể hiểu được và phù hợp với ngữ cảnh công nghiệp.

2.1. Xử lý dữ liệu thời gian

Dữ liệu thời gian từ các thiết bị công nghiệp được xử lý thông qua các bước tiền xử lý như làm sạch, chuẩn hóa và trích xuất đặc trưng. Các đặc trưng quan trọng bao gồm nhiệt độ, áp suất, tốc độ bơm, và lượng nguyên liệu sử dụng trong quá trình sản xuất. Các đặc trưng này được chọn dựa trên kiến thức chuyên môn và đảm bảo tính giải thích được của mô hình.

2.2. Mô hình dự đoán

Nghiên cứu thử nghiệm hai mô hình học máy: hồi quy tuyến tính và rừng ngẫu nhiên. Mô hình hồi quy tuyến tính được chọn vì tính minh bạch, trong khi rừng ngẫu nhiên được sử dụng để đạt hiệu suất cao hơn. Cả hai mô hình đều được đánh giá dựa trên độ chính xác và khả năng giải thích các đặc trưng quan trọng. Kết quả cho thấy mô hình rừng ngẫu nhiên đạt độ chính xác cao hơn, với R-squared khoảng 71%.

III. Ứng dụng công nghệ và thực tiễn

Nghiên cứu này cung cấp một ví dụ thực tiễn về việc triển khai trí tuệ nhân tạo trong ngành công nghiệp hóa chất. Hệ thống dự đoán chất lượng sản phẩm được phát triển có thể giúp các nhà máy phát hiện sớm các lô sản phẩm có nguy cơ hỏng và điều chỉnh quy trình sản xuất dựa trên các đặc trưng quan trọng.

3.1. Giá trị thực tiễn

Hệ thống dự đoán chất lượng sản phẩm có thể được áp dụng trong các nhà máy sản xuất sản phẩm chăm sóc nhà ở để cải thiện hiệu quả sản xuất và giảm thiểu lỗi. Việc sử dụng SHAP để giải thích các dự đoán giúp các nhà quản lý hiểu rõ hơn về các yếu tố ảnh hưởng đến chất lượng sản phẩm, từ đó đưa ra các quyết định chính xác hơn.

3.2. Hướng phát triển

Nghiên cứu này mở ra hướng phát triển mới trong việc áp dụng trí tuệ nhân tạo trong các ngành công nghiệp truyền thống. Các nghiên cứu tiếp theo có thể tập trung vào việc cải thiện hiệu suất của mô hình và mở rộng ứng dụng sang các lĩnh vực khác như quản lý dự án và phát triển phần mềm.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính predicting quality of home care liquid products

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo (AI) và học máy (ML), việc ứng dụng các mô hình này trong công nghiệp sản xuất ngày càng được quan tâm. Theo ước tính, ngành công nghiệp hóa chất, đặc biệt là sản xuất sản phẩm nước vệ sinh nhà cửa, đóng vai trò quan trọng trong chuỗi cung ứng toàn cầu với hàng nghìn lô sản phẩm được sản xuất mỗi năm. Tuy nhiên, việc dự đoán chất lượng sản phẩm trong ngành này vẫn còn nhiều thách thức do tính phức tạp của quá trình sản xuất và yêu cầu cao về độ chính xác cũng như khả năng giải thích của mô hình.

Nghiên cứu này tập trung vào việc phát triển giải pháp dự đoán chất lượng sản phẩm nước vệ sinh nhà cửa dựa trên dữ liệu chuỗi thời gian thu thập từ các thiết bị công nghiệp. Mục tiêu chính là xây dựng hệ thống trí tuệ nhân tạo có khả năng giải thích được các dự đoán, giúp người vận hành hiểu và tin tưởng vào kết quả mô hình. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ các thiết bị tại dây chuyền sản xuất của một nhà máy tại Việt Nam trong khoảng thời gian từ đầu năm 2023 đến giữa năm 2024.

Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả kiểm soát chất lượng sản phẩm, giảm thiểu lô hàng lỗi, đồng thời hỗ trợ quá trình ra quyết định của nhà quản lý và kỹ thuật viên. Độ chính xác của mô hình dự đoán đạt trên 70%, với các đặc trưng quan trọng phù hợp với kiến thức chuyên môn trong ngành hóa chất, góp phần thúc đẩy ứng dụng AI có thể giải thích được trong các ngành công nghiệp truyền thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết chính trong lĩnh vực trí tuệ nhân tạo giải thích được (Explainable Artificial Intelligence - XAI):

Mô hình trong suốt (Transparent Models): Sử dụng các mô hình có kiến trúc đơn giản, dễ hiểu như Hồi quy tuyến tính (Linear Regression), giúp người dùng dễ dàng nhận biết mối quan hệ giữa các biến đầu vào và kết quả dự đoán. Tuy nhiên, mô hình này có thể hạn chế về khả năng xử lý các mối quan hệ phi tuyến phức tạp.
Phân tích hậu nghiệm với SHAP (SHapley Additive exPlanations): Áp dụng cho các mô hình phức tạp như Rừng ngẫu nhiên (Random Forest Regression), SHAP giúp giải thích ảnh hưởng của từng đặc trưng đến kết quả dự đoán, dựa trên lý thuyết trò chơi. Phương pháp này vừa đảm bảo hiệu suất mô hình cao vừa cung cấp khả năng giải thích chi tiết.

Các khái niệm chuyên ngành được sử dụng bao gồm: chuỗi thời gian (time series), trích xuất đặc trưng dựa trên kiến thức miền (domain-based feature engineering), giá trị SHAP (SHAP values), và các chỉ số chất lượng sản phẩm như pH và độ nhớt (viscosity).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các chuỗi thời gian thu thập từ 53 loại cảm biến và thiết bị trên dây chuyền sản xuất, bao gồm các tín hiệu về trọng lượng, nhiệt độ, áp suất, tốc độ máy bơm, và lượng vật liệu được cấp vào máy trộn chính. Dữ liệu nhãn (label) là kết quả kiểm tra chất lượng sản phẩm (pH và độ nhớt) được ghi nhận thủ công trong bảng tính Excel với tổng số khoảng 6.322 lô sản phẩm hợp lệ.

Quy trình nghiên cứu gồm các bước:

Tiền xử lý dữ liệu: Làm sạch dữ liệu nhãn, xác định và loại bỏ các giá trị ngoại lai, phân tách dữ liệu chuỗi thời gian theo từng lô sản phẩm dựa trên tên lô và khoảng thời gian tương ứng.
Trích xuất đặc trưng: Áp dụng các thuật toán phát hiện giai đoạn ổn định trong chuỗi thời gian để tính toán các đặc trưng như giá trị trung bình trọng lượng, nhiệt độ, áp suất trong giai đoạn ổn định, cũng như tổng lượng vật liệu được cấp vào trong từng lô.
Phân tích và xây dựng mô hình: So sánh hai mô hình chính là Hồi quy tuyến tính và Rừng ngẫu nhiên, sử dụng phương pháp chọn đặc trưng dựa trên giá trị SHAP để tối ưu hóa tập đặc trưng đầu vào.
Thời gian nghiên cứu: Từ tháng 1/2024 đến tháng 5/2024, với các mốc quan trọng gồm tổng hợp tài liệu (tháng 3), xây dựng phương pháp (tháng 3), phân tích kết quả (tháng 4) và hoàn thiện luận văn (tháng 5).

Phương pháp phân tích sử dụng các kỹ thuật thống kê mô tả, kiểm định chất lượng dữ liệu, và đánh giá hiệu suất mô hình qua chỉ số R-squared, độ chính xác dự đoán, cùng với trực quan hóa giá trị SHAP để giải thích mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình: Mô hình Rừng ngẫu nhiên đạt độ chính xác dự đoán trên 70% với chỉ số R-squared khoảng 0.71 cho cả hai chỉ tiêu pH và độ nhớt, vượt trội so với mô hình Hồi quy tuyến tính truyền thống.
Đặc trưng quan trọng: Các đặc trưng như trọng lượng máy trộn chính, nhiệt độ máy trộn, áp suất hệ thống tuần hoàn, tốc độ bơm tuần hoàn, và lượng nước clo được xác định là có ảnh hưởng lớn đến chất lượng sản phẩm, phù hợp với kiến thức chuyên môn trong ngành.
Phân tích SHAP: Giá trị SHAP cho thấy các đặc trưng được lựa chọn không chỉ có ý nghĩa thống kê mà còn có tính giải thích cao, giúp người vận hành hiểu được nguyên nhân ảnh hưởng đến chất lượng sản phẩm.
Phân bố dữ liệu: Khoảng 82 lô sản phẩm có thời gian sản xuất bất thường (trên 3 giờ), được loại bỏ để đảm bảo tính ổn định và chính xác của mô hình. Phần lớn các lô sản xuất có thời gian từ 30 đến 60 phút.

Thảo luận kết quả

Nguyên nhân của hiệu suất cao của mô hình Rừng ngẫu nhiên là do khả năng xử lý các mối quan hệ phi tuyến và tương tác phức tạp giữa các đặc trưng trong dữ liệu chuỗi thời gian. Việc áp dụng SHAP giúp khắc phục nhược điểm "hộp đen" thường gặp ở các mô hình phức tạp, tăng cường sự tin tưởng của người dùng.

So sánh với các nghiên cứu trong ngành công nghiệp khác, kết quả này phù hợp với xu hướng ứng dụng XAI để nâng cao khả năng chấp nhận và triển khai AI trong môi trường sản xuất truyền thống. Việc loại bỏ các lô sản xuất có dữ liệu bất thường cũng góp phần cải thiện độ tin cậy của mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ phân bố pH, độ nhớt, thời gian sản xuất, cùng với các biểu đồ tóm tắt giá trị SHAP để minh họa mức độ ảnh hưởng của từng đặc trưng. Bảng so sánh hiệu suất giữa các mô hình cũng giúp làm rõ ưu nhược điểm từng phương pháp.

Đề xuất và khuyến nghị

Triển khai hệ thống dự đoán chất lượng tự động: Áp dụng mô hình Rừng ngẫu nhiên kết hợp SHAP vào hệ thống giám sát sản xuất để dự đoán sớm chất lượng sản phẩm, giảm thiểu lô lỗi. Thời gian thực hiện dự kiến trong 6 tháng, do phòng kỹ thuật và IT chịu trách nhiệm.
Đào tạo nhân sự vận hành: Tổ chức các khóa đào tạo về hiểu biết mô hình AI và cách giải thích kết quả dựa trên SHAP cho kỹ thuật viên và quản lý sản xuất, nhằm nâng cao khả năng tương tác và kiểm soát hệ thống. Thời gian đào tạo trong 3 tháng.
Cải tiến quy trình thu thập và xử lý dữ liệu: Tăng cường tự động hóa trong việc thu thập dữ liệu chuỗi thời gian và nhãn chất lượng, đồng thời xây dựng quy trình làm sạch và loại bỏ dữ liệu bất thường để đảm bảo chất lượng đầu vào cho mô hình.
Mở rộng nghiên cứu và phát triển: Nghiên cứu thêm các mô hình học sâu có khả năng giải thích cao, kết hợp với dữ liệu thời gian thực để nâng cao độ chính xác và khả năng dự báo trong các điều kiện sản xuất đa dạng. Thời gian nghiên cứu tiếp theo dự kiến 12 tháng.

Đối tượng nên tham khảo luận văn

Chuyên gia và kỹ sư trong ngành hóa chất: Giúp hiểu rõ cách ứng dụng AI giải thích được trong kiểm soát chất lượng sản phẩm, từ đó cải tiến quy trình sản xuất.
Nhà quản lý sản xuất và vận hành: Cung cấp công cụ hỗ trợ ra quyết định dựa trên dữ liệu, tăng cường hiệu quả và giảm thiểu rủi ro trong sản xuất.
Nhà nghiên cứu và phát triển AI trong công nghiệp: Tham khảo phương pháp kết hợp giữa kiến thức chuyên môn và kỹ thuật giải thích mô hình để phát triển các giải pháp AI thực tiễn.
Sinh viên và học viên ngành Khoa học Máy tính, Kỹ thuật Hóa học: Nắm bắt kiến thức về ứng dụng học máy trong công nghiệp, đặc biệt là các kỹ thuật giải thích mô hình và trích xuất đặc trưng từ dữ liệu chuỗi thời gian.

Câu hỏi thường gặp

Tại sao cần mô hình AI có khả năng giải thích trong sản xuất?
Mô hình giải thích được giúp người vận hành hiểu nguyên nhân dự đoán, tăng sự tin tưởng và khả năng kiểm soát, giảm rủi ro khi áp dụng AI trong môi trường sản xuất nghiêm ngặt.
SHAP là gì và nó giúp gì cho mô hình?
SHAP là phương pháp dựa trên lý thuyết trò chơi để đánh giá ảnh hưởng của từng đặc trưng đến dự đoán của mô hình, giúp minh bạch và giải thích kết quả một cách trực quan.
Dữ liệu chuỗi thời gian được xử lý như thế nào để làm đầu vào mô hình?
Dữ liệu được phân tách theo từng lô sản xuất, xác định giai đoạn ổn định trong chuỗi thời gian, sau đó tính toán các đặc trưng như giá trị trung bình, tổng lượng vật liệu, thời gian cấp liệu.
Mô hình Rừng ngẫu nhiên có ưu điểm gì so với Hồi quy tuyến tính?
Rừng ngẫu nhiên xử lý tốt các mối quan hệ phi tuyến và tương tác phức tạp giữa các biến, cho độ chính xác cao hơn trong dự đoán chất lượng sản phẩm.
Làm thế nào để loại bỏ dữ liệu bất thường trong nghiên cứu?
Sử dụng các phương pháp thống kê như phân tích phân vị (interquartile range) và kiểm tra tính hợp lệ của các chỉ số như thời gian sản xuất, lượng vật liệu để loại bỏ các lô sản xuất không hợp lệ.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình dự đoán chất lượng sản phẩm nước vệ sinh nhà cửa với độ chính xác trên 70%, sử dụng kết hợp mô hình trong suốt và kỹ thuật giải thích SHAP.
Phương pháp trích xuất đặc trưng dựa trên kiến thức chuyên môn và xử lý dữ liệu chuỗi thời gian giúp đảm bảo tính giải thích và hiệu quả của mô hình.
Kết quả nghiên cứu góp phần thúc đẩy ứng dụng trí tuệ nhân tạo có thể giải thích được trong ngành công nghiệp hóa chất truyền thống.
Các đề xuất về triển khai hệ thống, đào tạo nhân sự và cải tiến quy trình dữ liệu được xây dựng dựa trên kết quả nghiên cứu.
Bước tiếp theo là mở rộng nghiên cứu với các mô hình học sâu giải thích được và áp dụng trong môi trường sản xuất thực tế để nâng cao độ chính xác và khả năng ứng dụng.

Hãy bắt đầu áp dụng các giải pháp AI giải thích được để nâng cao chất lượng sản phẩm và hiệu quả sản xuất ngay hôm nay!

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH UNIVERSITY OF TECHNOLOGY NGUYỄN ĐỨC PHÚ PREDICTING QUALITY OF HOME CARE LIQUID PRODUCTS Major: Computer Science Major code: 8480101 MASTER’S THESIS HO CHI MINH CITY, June 2024 THIS THESIS IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisor: 1. Lê Thành Sách Examiner 1: Dr. Hà Việt Uyên Sinh - Ho Chi Minh International University Examiner 2: Dr. Nguyễn Quang Hùng This master’s thesis is defended at HCM City University of Technology, VNU- HCM City on June 18th, 2024.

Master’s Thesis Committee: 1. Nguyễn Lê Duy Lai 2. Lê Thanh Vân 3. Hà Việt Uyên Sinh 4.

Nguyễn Quang Hùng 5. Huỳnh Tường Nguyên Approval of the Chair of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis being corrected (If any). CHAIR OF THESIS COMMITTEE DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: Nguyễn Đức Phú Student ID: 2171014 Date of birth: 19/06/1999 Place of birth: Hồ Chí Minh Major: Computer Science Major ID: 8480101 I. THESIS TITLE (In Vietnamese): Giải pháp dự đoán chất lượng sản phẩm nước vệ sinh nhà cửa II.

THESIS TITLE (In English): Predicting quality of home care liquid products III. TASKS AND CONTENTS: Task Content Timeline Literature Review Review and analyze key theories, models and 01/03/2024 studies related to quality prediction and explanable AI. Methodology Describe the data sets, data preprocessing and 15/03/2024 feature engineering in the thesis. Result and Analytics Run analysis and interpret the results.

15/04/2024 Conclusion Summarize key contributions and limitations. THESIS START DAY: 15/01/2024 V. THESIS COMPLETION DAY: 20/05/2024 VI. SUPERVISOR (Please fill in the supervisor’s full name and academic rank) Associate Professor Thoại Nam Doctor Lê Thành Sách Ho Chi Minh City, June 2024 SUPERVISOR SUPERVISOR DEPARTMENTAL BOARD DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING Note: Student must pin this task sheet as the first page of the Master’s Thesis booklet i Acknowledgements I would like to express my sincere gratefulness to my supervisor, Assoc.

Thoại Nam, for his enthusiastic guidance and continuous support during my research. Thanks to his broad knowledge and deep experience, his feedback has greatly increased my knowledge and scientific research skills. The inspiring weekly catchups with him have encouraged me to push myself further and complete such challenging work. I would like to show my all-hearted love for my family, Mom, Dad and my younger brother, for always being by my side along the journey.

Their warmness and cheerfulness significantly boosted my confidence and energy to continue working on the study. There is no time that they did not show me the pride they take in. Special thanks to my love, Nhàn, for the empathy and emotional support she shows me all the time. They are so prestigious and invaluable to me and I heartfully appreciate them.

I also want to thank my supervisors and teammates, Mr. Nam, Huy, Quân, Trân, Mr. Tâm, Mr Thọ and Khôi, in the companies, both previous and current, for providing me the opportunity to balance the time spent on daily work and the research, especially, Mr. Quý and Mr.

Điền to help me with the industrial expertise and experience, Hiếu for suggesting I try out the SHAP, and Quỳnh for helping me organize my thesis and providing proofreading. Finally, I want to thank all my family members and friends who are looking forward to my com- pletion of this study and show me all the love. ii VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY Abstract Faculty of Computer Science and Engineering HO CHI MINH UNIVERSITY OF TECHNOLOGY Master of Science PREDICTING QUALITY OF HOME CARE LIQUID PRODUCTS by Nguyễn Đức Phú The industrial applications for machine learning are the main concern for the research community, with interpretability increasingly gaining attention. We contribute this study to propose an ap- proach for a traditional problem in the industry of chemical engineering, predicting the quality of home care liquid products but only focusing on the explainability of the intelligence system.

By conducting domain-based feature engineering, we ensure the inputs extracted from industrial in- strument time series data are understandable by users. Two different approaches, which are using a transparent architecture like Linear Regression and conducting post hoc analysis with SHAP value for an ensemble model Random Forest Regression, are experimented with in the study. The results are promising in that the ensemble models achieved over 70% accuracy while the influencing features are aligned with domain expertise. In conclusion, the study provides a practical example of deploying an explainable artificial intelligence solution in a traditional industry such as chemical engineering.

iii Tóm tắt Luận văn by Nguyễn Đức Phú Ứng dụng Học máy trong công nghiệp là mối quan tâm chính của cộng đồng nghiên cứu, trong đó tăng cường khả năng diễn giải cho mô hình học máy ngày càng được chú ý. Nghiên cứu này đề xuất một phương pháp cho một vấn đề truyền thống trong ngành công nghiệp hóa chất là dự đoán chất lượng sản phẩm nước vệ sinh nhà cửa, tập trung vào khả năng giải thích của hệ thống thông minh. Bằng cách thực hiện trích xuất đặc trưng mô hình dựa trên kiến thức lĩnh vực chuyên môn, luận văn đảm bảo các dữ liệu đầu vào xử lý từ chuỗi giá trị từ máy móc thiết bị có thể hiểu được bởi người dùng. Nghiên cứu đã thử nghiệm hai phương pháp khác nhau: sử dụng kiến trúc “trong suốt” như Hồi quy tuyến tính và thực hiện phân tích hậu nghiệm bằng giá trị SHAP cho mô hình Hồi quy Rừng ngẫu nhiên.

Kết quả cho thấy các mô hình xây dựng được đạt độ chính xác trên 70%. Các đặc trưng quan trọng tìm được phù hợp với kiến thức chuyên môn. Tổng kết, nghiên cứu cung cấp một ví dụ thực tiễn về việc triển khai giải pháp trí tuệ nhân tạo có thể giải thích được trong một ngành truyền thống như hóa chất. iv Declaration of Authorship I, Nguyễn Đức Phú, declare that this thesis titled, PREDICTING QUALITY OF HOME CARE LIQUID PRODUCTSand the work presented in it are my own.

I confirm that: • This work was done wholly or mainly while in candidature for a research degree at this University. • Where any part of this thesis has previously been submitted for a degree or any other quali- fication at this University or any other institution, this has been clearly stated. • Where I have consulted the published work of others, this is always clearly attributed. • Where I have quoted from the work of others, the source is always given.

With the exception of such quotations, this thesis is entirely my own work. • I have acknowledged all main sources of help. • Where the thesis is based on work done by myself jointly with others, I have made clear exactly what was done by others and what I have contributed myself. Signed: Date: v “It’s not the destination, it’s the journey.” Ralph Waldo Emerson vi Table of contents Acknowledgements i Abstract ii Declaration of Authorship iv 1 Introduction 1 2 Literature Review 3 2.1 Machine learning in Industry .2 Predict the quality of home care product .3 Application of Explainable AI .4 SHapley Additive exPlanation .1 Build batches time windows .2 Weight of the main mixer .3 Temperature of the main mixer .4 Pressure of main mixer circulation system .5 Speed of main mixer circulation pump .6 The amount of chlorinated water .7 The amount of liquid materials .8 The amount of Dehydol .9 The amount of hot water .10 The amount of Plantacare .11 The amount of enzyme .12 The amount of Glycerol .13 The agitator speed of the main mixer .14 The flow of chlorinated water, LAS, and NaOH .15 The amount of TEA .16 The temperature of chlorinated and hot water .1 Baseline model for viscosity .2 Baseline model for pH .3 The features for liquid materials .4 The feature of physical signals .4 SHAP for feature selection and model explanation.

37 4 Result and analytics 42 4.1 Viscosity baseline model .2 pH baseline model .2 Model predictions explanation .3 Models with SHAP-based feature selection. 49 5 Conclusion 54 References 56 Appendices 59 A Experiment with different architecture 59 A. 60 viii List of Figures 3.1 Distribution of products pH .2 Distribution of products viscosity .3 Distribution of batches duration .4 An example of filtered main mixer volume .5 An example of filtered main mixer temperature .6 An example of filtered main mixer pipe pressure of circulation system .7 Comparision two time-series of circulation pump speed .8 The amount of chlorinated water used in a batch .9 More of dosing materials .10 The amount of dehydol used in a batch .11 The amount of Hot water used in a batch .12 The amount of reworked water used in a batch .13 The amount of Plantacare used in a batch .14 The amount of Enzyme used in a batch .15 The amount of Glycerol used in a batch .16 The speed of the main mixer agitator .17 The speed of flushing chlorinated water to the main mixer .18 The amount of TEA .19 The temperature of chlorinated water and hot water .20 An example of detecting a stable time window .21 Distribution of first stable index found .22 Distributions of baseline model features .23 Boxplot of flushed water .24 Boxplot of major liquid material .25 Boxplot features of liquid materials .26 Boxplot features of liquid materials, outlier removed .27 Boxplot physical features .28 Boxplot physical features .29 Boxplot physical features .30 Boxplot physical features for dosing phases .1 Predicted value and truth value for baseline viscosity models .2 Predicted value and truth value for baseline ph models .3 SHAP Summary plot for baseline viscosity .4 SHAP Summary plot for baseline viscosity, accurately predicted points .5 SHAP Interaction values of Press and Temp .6 SHAP Summary plot for baseline pH .7 SHAP Summary plot for baseline pH, accurately predicted points .8 Feature importances over iterations, above 0.9 Feature importances over iterations, above 50 only .1 Comparison in performance for pH .2 Comparision in performance for viscosity. 60 x List of Tables 3.1 Descriptive analysis for pH .2 Descriptive analysis for Vis .2 Descriptive analysis for Vis .3 Data type of time series batch_name .4 Descriptive analysis of batches duration .4 Descriptive analysis of batches duration .5 Inputs of Viscosity baseline model .6 Descriptive analysis for detecting stable indexes with threshold 5% .7 Summary of the features for the baseline model .8 Inputs of pH baseline model .9 The amount of water found in batches (raw) .10 Summary amount of liquid materials .11 Summary duration of liquid materials .11 Summary duration of liquid materials .1 Performance of Viscosity baseline models .2 Performance of pH baseline models .3 Performance of Random Forest pH models .4 Feature importance of the final pH model .5 Performance of Random Forest pH models .5 Performance of Random Forest pH models .6 Feature importance of the final viscosity model .1 Selected features of the final iteration for pH models .2 Selected features of the final iteration for viscosity models.

61 1 Chapter 1 Introduction In recent years, the raising of machine learning and deep learning has been kept at the highest level. The same is true for the attention they attracted from the research community. The introduction of Large Language Models is still one of the hottest topics around the world. However, alongside the influence deep learning has brought, its application in manufacturing and heavy industries is still questionable.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Dự Đoán Chất Lượng Sản Phẩm Chăm Sóc Nhà Ở là một nghiên cứu chuyên sâu ứng dụng trí tuệ nhân tạo và học máy để dự đoán chất lượng các sản phẩm chăm sóc nhà ở. Tài liệu này không chỉ cung cấp các phương pháp tiên tiến trong phân tích dữ liệu mà còn mang lại những hiểu biết sâu sắc về cách tối ưu hóa quy trình sản xuất và đảm bảo chất lượng sản phẩm. Đây là nguồn tài liệu quý giá cho các nhà nghiên cứu, sinh viên và chuyên gia trong lĩnh vực khoa học máy tính và công nghệ.

Để mở rộng kiến thức về các ứng dụng của khoa học máy tính, bạn có thể tham khảo Luận văn thạc sĩ xây dựng thuật toán trích xuất số phách trên phiếu trả lời trắc nghiệm của trường đại học phan thiết, một nghiên cứu liên quan đến xử lý dữ liệu và tự động hóa. Ngoài ra, nếu quan tâm đến các vấn đề chất lượng và phân tích, Luận văn thạc sĩ khoa học xác định mức độ ô nhiễm các hợp chất hydrocarbons thơm đa vòng pahs trong trà cà phê tại việt nam sẽ cung cấp góc nhìn chi tiết về đánh giá rủi ro và chất lượng. Cuối cùng, Luận văn đề xuất các giải pháp nhằm nâng cao hiệu quả áp dụng là tài liệu hữu ích để tìm hiểu cách cải thiện hiệu suất trong nghiên cứu và ứng dụng thực tiễn.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#nghiên cứu khoa học

#khoa học máy tính

#chất lượng sản phẩm

#dự đoán chất lượng

Chủ đề