Luận văn thạc sĩ: Ứng dụng thuật toán học máy trong dự đoán tính chất điện tử của hợp chất đa ...

Trường đại học

Đại Học Bách Khoa - ĐHQG - HCM

Chuyên ngành

Kỹ Thuật Hóa Học

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

MỤC LỤC

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG BIỂU

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT VÀ CHÚ GIẢI THUẬT NGỮ TIẾNG ANH

1. CHƯƠNG 1: GIỚI THIỆU

1.1. Giới thiệu về vật liệu bán dẫn hữu cơ dựa trên phân tử đa vòng thơm

1.2. Giới thiệu về machine learning trong hóa học

1.3. Tổng quan về thuật toán supervised machine learning

1.4. Một số thuật toán toán Supervised Machine learning

1.5. Biểu diễn cấu trúc hóa học

1.6. Huấn luyện và đánh giá mô hình machine learning

1.7. Các công trình ứng dụng ML cho hóa học tiêu biểu

1.8. Ứng dụng machine learning trong mô hình vật liệu hóa bán dẫn hữu cơ

1.9. Ứng dụng ML trong hóa tính toán/ hóa lý thuyết và hóa lý

1.10. Ứng dụng ML trong hóa hữu cơ, hóa dược/độc chất học

1.11. Các công trình về machine learning khác

2. PHƯƠNG PHÁP THÍ NGHIỆM

2.1. Cơ sở lý thuyết phương pháp Weisfeiler-Lehman kernel

2.2. Thuật toán Weisfeiler-Lehman

2.3. Phương pháp Weisfeiler-Lehman Graph Kernel theo nguyên tử

2.4. Phương pháp Weisfeiler-Lehman kernel dựa trên liên kết

2.5. Phương pháp Weisfeiler-Lehman kernel dựa trên khoảng cách liên nguyên tử

2.6. Mô hình ML hoàn chỉnh

2.7. Phân tích và diễn giải dự đoán của mô hình RR/WL-A

2.8. Ngôn ngữ lập trình và thư viện sử dụng

2.9. Một số thư viện Python cơ bản cho khoa học dữ liệu

2.10. Thư viện Python – RDKit

2.11. Thư viện Python – Scikit-learn

2.12. Dữ liệu và phương pháp thu thập dữ liệu

2.13. Xây dựng mô hình và lập trình

2.14. Lập trình mô hình WL kernel

2.15. Lập trình việc huấn luyện, tối ưu, và kiểm tra mô hình máy học

2.16. Lập trình giao thức học active learning

3. KẾT QUẢ VÀ BÀN LUẬN

3.1. Khảo sát ảnh hưởng của số vòng lặp của thuật toán WL lên mô hình

3.2. Độ chính xác của phương pháp các mô hình GPR/WL và GPR/ECFP

3.3. Các mô hình tuyến tính và giải thích về mô hình

3.4. Phân tích sai số của mô hình

3.5. So sánh dự đoán của mô hình và giá trị thực nghiệm

3.6. Mã nguồn và hướng dẫn sử dụng

4. KẾT LUẬN VÀ KIẾN NGHỊ

4.1. Các nhiệm đã hoàn thành và kết quả

4.2. Các thiếu sót và hạn chế

4.3. Hướng phát triển trong tương lai

DANH MỤC CÔNG TRÌNH KHOA HỌC

DANH MỤC TÀI LIỆU THAM KHẢO

PHẦN LÝ LỊCH TRÍCH NGANG

4.4. Thông tin cá nhân

4.5. Quá trình đào tạo

4.5.1. Sau đại học

4.6. Quá trình công tác

Tóm tắt

I. Giới thiệu về hợp chất đa vòng thơm

Hợp chất đa vòng thơm (PAH) là một nhóm các hợp chất hữu cơ nổi bật trong hóa học, với cấu trúc phức tạp và tính chất điện tử độc đáo. Các hợp chất này được biết đến với khả năng tham gia vào nhiều phản ứng hóa học và ứng dụng trong công nghệ, đặc biệt là trong lĩnh vực vật liệu bán dẫn hữu cơ. Việc dự đoán tính chất điện tử của các hợp chất này là một nhiệm vụ quan trọng, bởi chúng có liên quan mật thiết đến hiệu suất của các thiết bị điện tử. Nghiên cứu gần đây đã chỉ ra rằng việc sử dụng các phương pháp máy học có thể giúp cải thiện độ chính xác trong việc dự đoán các tính chất như band gap, electron affinity, và ionization potential của PAH. Đặc biệt, các mô hình dựa trên thuật toán máy học có thể xử lý khối lượng dữ liệu lớn từ các nghiên cứu trước đó để tạo ra các dự đoán chính xác hơn.

1.1. Tính chất điện tử của hợp chất đa vòng thơm

Tính chất điện tử của hợp chất đa vòng thơm được xác định bởi cấu trúc phân tử và sự phân bố điện tử. Các hợp chất này thường có các orbital π, ảnh hưởng đến khả năng dẫn điện và các tính chất quang học. Việc hiểu rõ về tính chất điện tử không chỉ giúp trong việc phát triển các vật liệu mới mà còn trong việc tối ưu hóa các ứng dụng hiện có. Nghiên cứu cho thấy rằng các mô hình học máy có thể dự đoán các tính chất này với độ chính xác cao, mở ra cơ hội cho việc phát triển các vật liệu bán dẫn hữu cơ hiệu quả hơn.

II. Ứng dụng thuật toán học máy trong hóa học

Thuật toán học máy đã trở thành một công cụ mạnh mẽ trong hóa học, đặc biệt trong việc dự đoán tính chất của các hợp chất. Các mô hình học máy như Gaussian Process Regressor (GPR) và Weisfeiler-Lehman graph kernel đã được áp dụng để phân tích và dự đoán các tính chất điện tử của PAH. Việc sử dụng các thuật toán này cho phép xây dựng các mô hình có thể học từ dữ liệu và tự động cải thiện độ chính xác theo thời gian. Thực tế, các nghiên cứu đã chỉ ra rằng mô hình GPR/WL kernel có thể đạt được sai số gốc trung bình bình phương thấp, cho thấy khả năng của chúng trong việc dự đoán các tính chất của hợp chất đa vòng thơm.

2.1. Các phương pháp học máy

Các phương pháp học máy có thể chia thành hai loại chính: supervised và unsupervised learning. Trong nghiên cứu này, các mô hình supervised learning được sử dụng để dự đoán các tính chất điện tử dựa trên dữ liệu đã biết. Việc áp dụng các phương pháp như GPR và WL kernel cho phép tối ưu hóa quá trình dự đoán, giúp cải thiện độ chính xác của các kết quả. Sự phát triển của các thuật toán này đã mở ra một hướng đi mới trong việc nghiên cứu và phát triển các vật liệu mới, đặc biệt trong lĩnh vực hóa học và vật liệu.

III. Phân tích và diễn giải kết quả

Kết quả từ mô hình học máy cho thấy rằng các phương pháp GPR/WL kernel có thể dự đoán chính xác các tính chất điện tử của PAH và các dẫn xuất của chúng với sai số rất nhỏ. Việc áp dụng giao thức active learning đã chứng minh hiệu quả trong việc cải thiện độ chính xác của mô hình, đặc biệt là với các tập dữ liệu đa dạng. Các kết quả này không chỉ có giá trị trong lý thuyết mà còn có ứng dụng thực tiễn trong việc phát triển các vật liệu mới cho công nghệ điện tử.

3.1. Đánh giá mô hình

Mô hình được phát triển trong nghiên cứu này đã cho thấy khả năng dự đoán đáng tin cậy. Việc so sánh giữa các dự đoán của mô hình và giá trị thực nghiệm cho thấy sự phù hợp cao, cho phép khẳng định rằng các phương pháp học máy có thể trở thành công cụ hữu ích trong việc nghiên cứu và phát triển các hợp chất hóa học mới. Điều này mở ra khả năng ứng dụng rộng rãi cho các mô hình học máy trong lĩnh vực hóa học, đặc biệt là trong việc phát triển các vật liệu bán dẫn hữu cơ.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ kỹ thuật hóa học ứng dụng thuật toán học máy dự đoán tính chất điện tử của hợp chất đa vòng thơm và một số dẫn xuất của chúng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh khoa học vật liệu và hóa học hiện đại, việc tìm kiếm các hợp chất hóa học mới có tính chất đột phá là một thách thức lớn do không gian cấu trúc hóa học rộng lớn, có thể lên đến khoảng 10^60 cấu trúc khác nhau. Việc khảo sát toàn bộ không gian này bằng phương pháp thực nghiệm hoặc tính toán lý thuyết truyền thống là không khả thi về mặt thời gian và chi phí. Luận văn thạc sĩ này tập trung vào ứng dụng thuật toán máy học (Machine Learning - ML) để dự đoán tính chất điện tử của các hợp chất hydrocarbon đa vòng thơm (Polycyclic Aromatic Hydrocarbons - PAH) và một số dẫn xuất của chúng, bao gồm thienoacenes và các PAH có nhóm thế như cyano (-CN) và nitro (-NO2). Mục tiêu chính là xây dựng mô hình ML có khả năng dự đoán chính xác các tính chất điện tử như năng lượng vùng cấm (band gap), ái lực điện tử (Electron Affinity - EA), và thế ion hóa (Ionization Potential - IP) dựa trên cấu trúc 2 chiều của phân tử. Nghiên cứu được thực hiện tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. HCM trong năm 2023, với dữ liệu đầu vào được tính toán bằng phương pháp lý thuyết hàm mật độ (Density Functional Theory - DFT). Kết quả nghiên cứu không chỉ góp phần nâng cao hiệu quả sàng lọc vật liệu bán dẫn hữu cơ mà còn mở rộng ứng dụng của ML trong lĩnh vực hóa học tính toán, giúp giảm thiểu chi phí và thời gian nghiên cứu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính:

Thuật toán Weisfeiler-Lehman (WL) Graph Kernel: Đây là thuật toán đẳng cấu đồ thị dùng để biểu diễn cấu trúc phân tử dưới dạng đồ thị có nhãn, giúp trích xuất đặc trưng cấu trúc phân tử một cách hiệu quả. Ba biến thể của WL kernel được sử dụng: theo nguyên tử (WL-A), theo liên kết (WL-AB), và theo khoảng cách liên nguyên tử (WL-AD).
Mô hình Gaussian Process Regressor (GPR): Mô hình học máy hồi quy phi tham số, sử dụng phân phối Gaussian để dự đoán giá trị tính chất điện tử và ước lượng độ không chắc chắn của dự đoán. GPR kết hợp với WL kernel giúp mô hình hóa các tính chất phi tuyến của phân tử.

Các khái niệm chuyên ngành quan trọng bao gồm: band gap, electron affinity (EA), ionization potential (IP), molecular orbital (HOMO và LUMO), active learning (học chủ động), và molecular descriptor (đặc trưng phân tử).

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu gồm các phân tử PAH, thienoacenes, PAH có nhóm thế cyano và nitro, được tính toán bằng phương pháp DFT với độ chính xác cao.
Phương pháp phân tích: Mô hình ML được xây dựng dựa trên thuật toán GPR kết hợp với WL graph kernel để trích xuất đặc trưng cấu trúc phân tử. Phương pháp active learning được áp dụng để tối ưu hóa bộ dữ liệu huấn luyện, chọn lọc các mẫu dữ liệu có độ không chắc chắn cao nhằm nâng cao hiệu quả mô hình.
Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 2/2023 và hoàn thành vào tháng 7/2023, bao gồm các bước thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá và phân tích kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Mô hình GPR/WL kernel đạt độ chính xác cao với sai số gốc trung bình bình phương (RMSD) khoảng 0.15 eV trong dự đoán band gap, EA và IP của các phân tử PAH và dẫn xuất.
So sánh giữa các biến thể WL kernel cho thấy WL-A (theo nguyên tử) và WL-AB (theo nguyên tử và liên kết) có hiệu quả vượt trội so với các mô hình truyền thống như Extended Connectivity Fingerprint (ECFP) kết hợp với Ridge Regression (RR).
Giao thức active learning giúp giảm đáng kể kích thước bộ dữ liệu huấn luyện cần thiết mà vẫn duy trì độ chính xác mô hình, đặc biệt hiệu quả với các bộ dữ liệu đa dạng hơn như PAH có nhóm thế nitro.
Phân tích đóng góp của từng nguyên tử trong phân tử cho thấy mô hình có khả năng giải thích được cơ sở vật lý của tính chất điện tử, phù hợp với mô hình Degree of π-orbital Overlap (DPO) đã được công bố trước đó.

Thảo luận kết quả

Nguyên nhân của độ chính xác cao đến từ việc kết hợp hiệu quả giữa thuật toán WL kernel trong việc trích xuất đặc trưng cấu trúc phân tử và mô hình GPR có khả năng mô hình hóa phi tuyến và ước lượng độ không chắc chắn. So với các nghiên cứu trước đây, mô hình này không chỉ nâng cao độ chính xác mà còn giảm thiểu chi phí tính toán nhờ vào active learning. Kết quả này có ý nghĩa quan trọng trong việc phát triển các công cụ tính toán nhanh và chính xác cho sàng lọc vật liệu bán dẫn hữu cơ, góp phần thúc đẩy nghiên cứu và ứng dụng trong lĩnh vực hóa học tính toán và vật liệu mới.

Dữ liệu kết quả có thể được trình bày qua các biểu đồ hộp (boxplot) thể hiện phân phối sai số RMSD của các mô hình khác nhau, biểu đồ đường thể hiện sự hội tụ của sai số theo số vòng lặp thuật toán WL, và bảng so sánh sai số giữa các mô hình.

Đề xuất và khuyến nghị

Mở rộng bộ dữ liệu huấn luyện: Tăng cường thu thập dữ liệu tính toán và thực nghiệm cho các phân tử đa dạng hơn, đặc biệt là các dẫn xuất có nhóm thế khác nhau, nhằm nâng cao khả năng tổng quát của mô hình.
Ứng dụng rộng rãi giao thức active learning: Áp dụng phương pháp học chủ động để tối ưu hóa quá trình thu thập dữ liệu, giảm chi phí và thời gian tính toán mà vẫn đảm bảo độ chính xác.
Phát triển giao diện phần mềm thân thiện: Xây dựng công cụ phần mềm tích hợp mô hình GPR/WL kernel để hỗ trợ các nhà nghiên cứu trong việc dự đoán tính chất điện tử nhanh chóng và chính xác.
Nâng cao khả năng giải thích mô hình: Tiếp tục nghiên cứu và phát triển các phương pháp giải thích đóng góp của từng nguyên tử và nhóm cấu trúc trong phân tử, giúp tăng tính minh bạch và tin cậy của mô hình.
Đào tạo và chuyển giao công nghệ: Tổ chức các khóa đào tạo về ứng dụng ML trong hóa học tính toán cho sinh viên và nhà nghiên cứu, đồng thời thúc đẩy hợp tác nghiên cứu giữa các viện, trường và doanh nghiệp.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và giảng viên trong lĩnh vực kỹ thuật hóa học và hóa học tính toán: Nghiên cứu phương pháp ứng dụng ML trong dự đoán tính chất vật liệu, phục vụ phát triển vật liệu mới.
Sinh viên cao học và nghiên cứu sinh: Tham khảo phương pháp luận, thuật toán và ứng dụng thực tiễn trong xây dựng mô hình ML cho hóa học.
Doanh nghiệp công nghệ vật liệu và hóa chất: Áp dụng mô hình dự đoán để rút ngắn thời gian phát triển sản phẩm mới, giảm chi phí thử nghiệm.
Chuyên gia phát triển phần mềm khoa học dữ liệu: Tích hợp thuật toán và mô hình ML vào các công cụ hỗ trợ nghiên cứu và phát triển trong lĩnh vực hóa học và vật liệu.

Câu hỏi thường gặp

Mô hình ML có thể dự đoán chính xác tính chất điện tử của phân tử đa vòng thơm đến mức nào?
Mô hình GPR kết hợp WL kernel đạt sai số RMSD khoảng 0.15 eV, cho phép dự đoán với độ chính xác cao so với các phương pháp tính toán lý thuyết truyền thống.
Active learning giúp gì trong quá trình xây dựng mô hình?
Active learning chọn lọc các mẫu dữ liệu có độ không chắc chắn cao để thêm vào bộ huấn luyện, giúp giảm số lượng dữ liệu cần thiết mà vẫn duy trì độ chính xác mô hình.
Tại sao sử dụng thuật toán Weisfeiler-Lehman trong biểu diễn cấu trúc phân tử?
Thuật toán WL giúp trích xuất đặc trưng cấu trúc phân tử dưới dạng nhãn đồ thị, tăng khả năng mô hình hóa các đặc tính phi tuyến và phức tạp của phân tử.
Mô hình có thể áp dụng cho các loại phân tử khác ngoài PAH không?
Mô hình có thể mở rộng cho các phân tử có cấu trúc tương tự hoặc dẫn xuất, tuy nhiên cần có bộ dữ liệu huấn luyện phù hợp để đảm bảo độ chính xác.
Làm thế nào để đánh giá hiệu quả mô hình ML trong nghiên cứu này?
Hiệu quả được đánh giá qua sai số RMSD trên tập kiểm tra, so sánh với giá trị thực nghiệm và tính toán DFT, cùng với khả năng giải thích đóng góp của từng nguyên tử.

Kết luận

Đã xây dựng thành công mô hình máy học dựa trên Gaussian Process Regressor kết hợp Weisfeiler-Lehman graph kernel để dự đoán tính chất điện tử của hợp chất đa vòng thơm và dẫn xuất với độ chính xác cao (RMSD ~0.15 eV).
Giao thức active learning được chứng minh hiệu quả trong việc tối ưu bộ dữ liệu huấn luyện, giảm chi phí tính toán mà vẫn duy trì độ chính xác.
Mô hình có khả năng giải thích đóng góp của từng nguyên tử, phù hợp với mô hình vật lý Degree of π-orbital Overlap, tăng tính minh bạch và tin cậy.
Kết quả nghiên cứu góp phần thúc đẩy ứng dụng ML trong hóa học tính toán và phát triển vật liệu bán dẫn hữu cơ.
Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng bộ dữ liệu, phát triển công cụ phần mềm và đào tạo chuyển giao công nghệ.

Hành động tiếp theo: Khuyến khích các nhà nghiên cứu và doanh nghiệp áp dụng mô hình vào thực tiễn, đồng thời tiếp tục nghiên cứu mở rộng và hoàn thiện mô hình để nâng cao hiệu quả và phạm vi ứng dụng.

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ: Ứng dụng thuật toán học máy trong dự đoán tính chất điện tử của hợp chất đa vòng thơm của tác giả Nguyễn Hoàng Tuấn, dưới sự hướng dẫn của TS. Phạm Hồ Mỹ Phương tại Đại Học Bách Khoa - ĐHQG - HCM, tập trung vào việc áp dụng các thuật toán học máy để dự đoán tính chất điện tử của các hợp chất đa vòng thơm. Nghiên cứu này không chỉ làm sáng tỏ các phương pháp dự đoán mà còn mở ra hướng đi mới trong việc nghiên cứu và phát triển các hợp chất hữu cơ, đặc biệt trong lĩnh vực hóa học và vật liệu.

Đối với những ai quan tâm đến việc ứng dụng công nghệ trong nghiên cứu hóa học, có thể tham khảo thêm bài viết Luận án tiến sĩ về cấu trúc nano vàng bạc trên silic trong nhận biết phân tử hữu cơ bằng tán xạ Raman. Bài viết này cũng đề cập đến các ứng dụng công nghệ tiên tiến trong việc nghiên cứu vật liệu điện tử.

Ngoài ra, bài viết Luận án tiến sĩ: Tính chất xúc tác quang của vật liệu composite TiO2 trên nền graphene và carbon nitride cũng sẽ cung cấp thêm cái nhìn sâu sắc về các vật liệu mới và ứng dụng của chúng trong lĩnh vực xúc tác quang.

Cuối cùng, bài viết Luận án tiến sĩ: Nghiên cứu và tổng hợp tính chất polythiophene từ 3 thiophenecarbaldehyde sẽ giúp độc giả hiểu rõ hơn về các hợp chất hữu cơ và tính chất của chúng, liên quan mật thiết đến nghiên cứu mà Nguyễn Hoàng Tuấn đã thực hiện.

Những tài liệu này không chỉ bổ sung kiến thức mà còn mở rộng hiểu biết cho những ai đang tìm hiểu về ứng dụng của thuật toán học máy trong nghiên cứu hóa học và vật liệu.

#Phân tích dữ liệu

#mô hình hóa

#tính chất điện tử

#thuật toán học máy

#hợp chất đa vòng thơm

#dự đoán tính chất

Chủ đề

Ứng dụng học máy trong hóa học

Nghiên cứu hợp chất hữu cơ

Phân tích tính chất vật liệu

Công nghệ và đổi mới trong khoa học vật liệu