Tổng quan nghiên cứu
Trong bối cảnh cuộc cách mạng công nghiệp 4.0, sự bùng nổ của dữ liệu lớn đã thúc đẩy sự phát triển nhanh chóng của các ngành khoa học hiện đại. Theo ước tính, các hệ thống tính toán hiệu năng cao (High Performance Computing - HPC) đang trở thành nền tảng thiết yếu để xử lý và lưu trữ lượng dữ liệu khổng lồ, phức tạp. Các hệ thống HPC không chỉ hỗ trợ các nghiên cứu khoa học mà còn đóng vai trò quan trọng trong việc giải quyết các vấn đề toàn cầu như biến đổi khí hậu, phát triển bền vững và đại dịch COVID-19. Tuy nhiên, việc quản lý tài nguyên và công việc trên các hệ thống này vẫn còn nhiều thách thức do sự sai lệch trong dự đoán thông số công việc của người dùng và sự phức tạp ngày càng tăng của hạ tầng phần cứng, phần mềm.
Mục tiêu nghiên cứu của luận văn là đề xuất các giải pháp ứng dụng học máy nhằm cải thiện hiệu quả quản lý tài nguyên và định thời công việc trên các hệ thống HPC. Cụ thể, luận văn tập trung vào việc hiệu chỉnh các thông số đầu vào của công việc mới dựa trên lịch sử công việc tương tự bằng thuật toán k-Nearest Neighbors (kNN) và nâng cao hiệu suất định thời thông qua mô hình học sâu tăng cường (Deep Reinforcement Learning - DRL) với thuật toán Advantage Actor-Critic (A2C). Phạm vi nghiên cứu bao gồm các hệ thống HPC trên thế giới và hệ thống SuperNode-XP tại Trường Đại học Bách Khoa – ĐHQG TP. HCM, với dữ liệu thu thập trong khoảng thời gian từ năm 2002 đến 2021. Ý nghĩa nghiên cứu được thể hiện qua việc cải thiện hiệu suất sử dụng tài nguyên, đảm bảo tính công bằng và an toàn trong quản lý công việc, đồng thời mở ra hướng phát triển mới cho các thuật toán định thời hiện đại trên hệ thống HPC.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai khung lý thuyết chính: quản lý tài nguyên và định thời công việc trên hệ thống HPC, cùng với các kỹ thuật học máy hiện đại.
Quản lý tài nguyên và định thời công việc trên HPC: Các hệ thống HPC sử dụng các trình quản lý tài nguyên và công việc (Resource and Job Management System - RJMS) như Slurm, PBS Pro để phân bổ tài nguyên và sắp xếp thứ tự thực thi công việc. Chính sách phổ biến là First-Come-First-Served (FCFS) kết hợp với thuật toán Backfilling nhằm tối ưu hóa việc sử dụng tài nguyên. Tuy nhiên, các thuật toán này còn hạn chế do phụ thuộc vào dự đoán thời gian chạy của người dùng, vốn thường không chính xác.
Thuật toán học máy k-Nearest Neighbors (kNN): Đây là thuật toán học có giám sát đơn giản và hiệu quả trong việc dự đoán thông số công việc dựa trên các công việc tương tự trong lịch sử. Khoảng cách Euclide được sử dụng để xác định các láng giềng gần nhất, từ đó hiệu chỉnh các thông số đầu vào nhằm giảm sai lệch dự đoán.
Học sâu tăng cường (Deep Reinforcement Learning - DRL): Mô hình DRL với thuật toán Advantage Actor-Critic (A2C) được áp dụng để tối ưu hóa quá trình định thời công việc. Mô hình này kết hợp giữa học dựa trên giá trị và học dựa trên chiến lược, giúp agent học cách lựa chọn hành động tối ưu trong môi trường phức tạp và không chắc chắn của hệ thống HPC.
Các khái niệm chính bao gồm: hệ thống HPC, RJMS, thuật toán Backfilling, kNN, DRL, A2C, Soft Walltime (kỹ thuật giới hạn thời gian chạy mềm để đảm bảo tính công bằng và an toàn).
Phương pháp nghiên cứu
Nguồn dữ liệu nghiên cứu bao gồm bốn tập dữ liệu lịch sử công việc từ kho Parallel Workload Archive (PWA) với tổng số khoảng 388,000 công việc, cùng với tập dữ liệu thực tế từ hệ thống SuperNode-XP tại Trường Đại học Bách Khoa – ĐHQG TP. HCM với hơn 14,000 công việc sau khi làm sạch. Các dữ liệu này được chuẩn hóa theo định dạng Standard Workload Format (SWF) để thuận tiện cho phân tích và mô phỏng.
Phương pháp phân tích gồm:
Hiệu chỉnh dự đoán thông số công việc: Sử dụng thuật toán kNN để dự đoán lại các thông số như thời gian chạy dựa trên lịch sử các công việc tương tự, từ đó giảm sai lệch so với dự đoán của người dùng.
Định thời công việc bằng học sâu tăng cường: Xây dựng mô hình DRL với kiến trúc mạng nơ-ron tích chập (CNN) và thuật toán A2C để học cách phân bổ tài nguyên và sắp xếp công việc nhằm tối đa hóa phần thưởng tích lũy (hiệu suất hệ thống).
Áp dụng kỹ thuật Soft Walltime: Giới hạn việc sử dụng các thông số hiệu chỉnh chỉ trong quá trình ra quyết định định thời, đảm bảo không gây ảnh hưởng tiêu cực đến người dùng.
Timeline nghiên cứu kéo dài từ tháng 9/2020 đến tháng 6/2021, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, thực nghiệm và đánh giá kết quả.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Sai lệch dự đoán thời gian chạy của người dùng rất lớn: Trên các tập dữ liệu PWA, có tới hơn 60% công việc được người dùng dự đoán thời gian chạy vượt quá 1 ngày, trong khi thời gian thực tế thấp hơn nhiều. Trên hệ thống SuperNode-XP, đa số dự đoán thời gian chạy đều rất lớn và gần như không thay đổi theo thời gian, phản ánh việc người dùng không quan tâm điều chỉnh dự đoán.
Hiệu chỉnh dự đoán bằng kNN cải thiện đáng kể độ chính xác: Kết quả thí nghiệm cho thấy thuật toán kNN với các hệ số k phù hợp đã giảm đáng kể độ lệch giữa thời gian chạy thực tế và dự đoán, cải thiện hiệu suất phân bổ tài nguyên. Ví dụ, trên tập dữ liệu SDSC-DS-2004, thời gian chờ trung bình giảm khoảng 15% so với phương pháp truyền thống.
Mô hình học sâu tăng cường kết hợp với dự đoán thời gian chạy nâng cao hiệu suất định thời: Mô hình DRL với thuật toán A2C và kỹ thuật Soft Walltime đã đạt được phần thưởng tích lũy cao hơn 20% so với các thuật toán định thời thông dụng như FCFS và Backfilling. Thời gian chờ trung bình và tối đa của các công việc cũng giảm đáng kể trên các tập dữ liệu thực nghiệm.
Giải pháp đề xuất có tính thực tiễn cao và an toàn: Việc áp dụng kỹ thuật Soft Walltime giúp đảm bảo các thông số hiệu chỉnh chỉ ảnh hưởng đến quyết định phân bổ tài nguyên mà không làm thay đổi quyền lợi của người dùng, tránh việc chấm dứt công việc sớm hoặc gây mất công bằng.
Thảo luận kết quả
Nguyên nhân chính của sự sai lệch trong dự đoán thời gian chạy là do người dùng có xu hướng cung cấp giá trị lớn để tránh bị chấm dứt công việc sớm, hoặc do thiếu kinh nghiệm và sự biến động trong ứng dụng. Việc sử dụng thuật toán kNN tận dụng lịch sử công việc tương tự giúp hiệu chỉnh các dự đoán này một cách chính xác hơn, từ đó cải thiện trạng thái dự đoán của hệ thống.
Mô hình học sâu tăng cường với A2C cho phép agent học cách định thời linh hoạt trong môi trường phức tạp và không chắc chắn, vượt trội hơn các thuật toán tĩnh như FCFS hay Backfilling. Kết quả này phù hợp với các nghiên cứu gần đây trong lĩnh vực HPC và học máy, đồng thời mở ra hướng phát triển mới cho các thuật toán định thời hiện đại.
Việc áp dụng Soft Walltime là bước tiến quan trọng nhằm đảm bảo tính công bằng và an toàn khi tích hợp các mô hình học máy vào hệ thống HPC thực tế, tránh các tác động tiêu cực đến người dùng và hệ thống.
Dữ liệu có thể được trình bày qua các biểu đồ heatmap thể hiện sự cải thiện thời gian chờ và độ lệch dự đoán trên các tập dữ liệu, cùng bảng so sánh hiệu suất định thời giữa các phương pháp.
Đề xuất và khuyến nghị
Triển khai thuật toán kNN để hiệu chỉnh dự đoán thời gian chạy công việc: Các quản trị viên hệ thống HPC nên áp dụng thuật toán kNN dựa trên lịch sử công việc để cải thiện độ chính xác dự đoán, giảm sai lệch và nâng cao hiệu quả phân bổ tài nguyên. Thời gian triển khai dự kiến trong vòng 3-6 tháng.
Áp dụng mô hình học sâu tăng cường với thuật toán A2C trong định thời công việc: Đề xuất xây dựng và huấn luyện mô hình DRL để thay thế hoặc hỗ trợ các thuật toán định thời truyền thống, nhằm tối ưu hóa hiệu suất hệ thống. Chủ thể thực hiện là nhóm nghiên cứu và đội ngũ kỹ thuật HPC, với timeline 6-12 tháng.
Sử dụng kỹ thuật Soft Walltime để đảm bảo tính công bằng và an toàn: Khi áp dụng các thông số hiệu chỉnh, cần giới hạn việc sử dụng chúng chỉ trong quá trình ra quyết định định thời, tránh ảnh hưởng trực tiếp đến quyền lợi người dùng. Đây là giải pháp cần được tích hợp song song với các mô hình học máy.
Phát triển công cụ hỗ trợ chuyển đổi và chuẩn hóa dữ liệu: Để thuận tiện cho việc thu thập và phân tích dữ liệu, các công cụ như pbspro2swf nên được hoàn thiện và phổ biến rộng rãi trong cộng đồng HPC. Điều này giúp tăng tính minh bạch và khả năng so sánh kết quả nghiên cứu.
Đào tạo và nâng cao nhận thức người dùng HPC về việc cung cấp dự đoán chính xác: Tổ chức các khóa đào tạo, hướng dẫn người dùng cách ước lượng thời gian chạy công việc hợp lý, góp phần giảm sai lệch đầu vào và nâng cao hiệu quả chung của hệ thống.
Đối tượng nên tham khảo luận văn
Quản trị viên hệ thống HPC: Luận văn cung cấp các giải pháp thực tiễn giúp cải thiện hiệu suất quản lý tài nguyên và định thời công việc, hỗ trợ họ trong việc vận hành và tối ưu hệ thống.
Nhà nghiên cứu và phát triển trong lĩnh vực khoa học máy tính và trí tuệ nhân tạo: Các mô hình học máy và học sâu tăng cường được trình bày chi tiết, mở ra hướng nghiên cứu mới trong ứng dụng AI cho HPC.
Người dùng hệ thống HPC (nhà khoa học, kỹ sư): Hiểu rõ về tầm quan trọng của việc cung cấp dự đoán chính xác và cách các thuật toán học máy hỗ trợ cải thiện hiệu quả sử dụng tài nguyên.
Các tổ chức và doanh nghiệp phát triển phần mềm quản lý tài nguyên HPC: Tham khảo các kỹ thuật mới để tích hợp vào sản phẩm, nâng cao tính cạnh tranh và hiệu quả sử dụng.
Câu hỏi thường gặp
Tại sao dự đoán thời gian chạy của người dùng thường không chính xác?
Người dùng thường dự đoán thời gian chạy lớn hơn thực tế để tránh bị chấm dứt công việc sớm hoặc do thiếu kinh nghiệm. Ngoài ra, sự biến động trong ứng dụng và hạ tầng cũng gây khó khăn cho việc ước lượng chính xác.Thuật toán kNN giúp cải thiện dự đoán như thế nào?
kNN sử dụng lịch sử các công việc tương tự để hiệu chỉnh dự đoán, giảm sai lệch so với dự đoán ban đầu của người dùng, từ đó giúp hệ thống phân bổ tài nguyên hiệu quả hơn.Mô hình học sâu tăng cường có ưu điểm gì so với các thuật toán định thời truyền thống?
Mô hình DRL với A2C học được cách ra quyết định tối ưu trong môi trường phức tạp và không chắc chắn, giúp giảm thời gian chờ và tăng hiệu suất sử dụng tài nguyên so với FCFS hay Backfilling.Kỹ thuật Soft Walltime có vai trò gì trong quản lý tài nguyên?
Soft Walltime giới hạn việc sử dụng các thông số hiệu chỉnh chỉ trong quá trình ra quyết định định thời, đảm bảo không gây ảnh hưởng tiêu cực đến người dùng như chấm dứt công việc sớm hoặc mất công bằng.Giải pháp này có thể áp dụng ngay trên các hệ thống HPC hiện tại không?
Có, các phương pháp đề xuất như kNN và Soft Walltime có thể tích hợp trực tiếp vào các hệ thống RJMS phổ biến như PBS Pro mà không ảnh hưởng đến vận hành hiện tại, giúp nâng cao hiệu quả quản lý tài nguyên.
Kết luận
- Luận văn đã đề xuất thành công mô hình học máy kNN để hiệu chỉnh dự đoán thông số công việc, giảm sai lệch dự đoán của người dùng trên các hệ thống HPC.
- Mô hình học sâu tăng cường với thuật toán Advantage Actor-Critic được áp dụng hiệu quả trong việc định thời công việc, nâng cao hiệu suất sử dụng tài nguyên.
- Kỹ thuật Soft Walltime đảm bảo tính công bằng và an toàn khi áp dụng các thông số hiệu chỉnh trong quá trình quản lý tài nguyên.
- Kết quả thực nghiệm trên các tập dữ liệu thực tế từ hệ thống SuperNode-XP và các hệ thống HPC trên thế giới cho thấy giải pháp đề xuất vượt trội so với các phương pháp truyền thống.
- Hướng phát triển tiếp theo là mở rộng mô hình cho các hệ thống HPC đa dạng hơn và tích hợp sâu hơn với các công cụ quản lý hiện có, đồng thời đào tạo người dùng nâng cao nhận thức về dự đoán công việc.
Để tiếp tục phát triển và ứng dụng các giải pháp này, các nhà nghiên cứu và quản trị viên hệ thống HPC được khuyến khích triển khai thử nghiệm trên quy mô thực tế và chia sẻ kết quả nhằm thúc đẩy sự phát triển bền vững của lĩnh vực tính toán hiệu năng cao.