Phân Tích Dữ Liệu Nhân Sự: Dự Đoán Khả Năng Rời Bỏ Nhân Viên Qua Phần Mềm Orange

Chuyên ngành

Phân Tích Dữ Liệu

Người đăng

Ẩn danh

2023

54
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Khám Phá Khoa Học Dữ Liệu Trong Phân Tích Nhân Sự

Trong bối cảnh cạnh tranh nhân tài gay gắt, việc giữ chân nhân viên giỏi đã trở thành ưu tiên hàng đầu của mọi doanh nghiệp. Tỷ lệ nhân viên rời bỏ (employee attrition) cao không chỉ gây tốn kém chi phí tuyển dụng, đào tạo mà còn ảnh hưởng tiêu cực đến tinh thần làm việc và hiệu suất chung. Đây là lúc khoa học dữ liệu phát huy vai trò của mình. Bằng cách áp dụng các kỹ thuật phân tích tiên tiến, phòng nhân sự có thể chuyển đổi từ việc phản ứng thụ động sang chủ động dự báo các xu hướng. Phân tích dữ liệu nhân sự giúp khám phá những yếu-tố-ngầm ảnh hưởng đến quyết định nghỉ việc của một nhân viên, chẳng hạn như mức độ hài lòng, khối lượng công việc, khoảng cách di chuyển hay cơ hội thăng tiến. Việc này cung cấp một cái nhìn sâu sắc, dựa trên bằng chứng thay vì cảm tính, để các nhà quản lý đưa ra chiến lược phù hợp. Thay vì dựa vào các cuộc khảo sát rời rạc, doanh nghiệp có thể xây dựng một hệ thống cảnh báo sớm, xác định các cá nhân hoặc nhóm có nguy cơ cao. Từ đó, các biện pháp can thiệp kịp thời như điều chỉnh chính sách lương thưởng, cải thiện môi trường làm việc, hoặc xây dựng lộ trình phát triển sự nghiệp rõ ràng có thể được triển khai. Phần mềm Orange nổi lên như một công cụ mạnh mẽ và trực quan, cho phép cả những người không chuyên về lập trình cũng có thể xây dựng các mô hình dự đoán phức tạp. Việc áp dụng Orange vào dự đoán khả năng rời bỏ nhân viên giúp dân chủ hóa quá trình phân tích, biến dữ liệu thô thành những thông tin chi tiết có giá trị hành động, tạo ra lợi thế cạnh tranh bền vững cho tổ chức.

1.1. Hiểu đúng về Employee Attrition trong quản trị nhân sự

Trong quản trị nhân sự, employee attrition hay tiêu hao nhân lực, mô tả sự sụt giảm tự nhiên và không lường trước về số lượng nhân viên. Nguyên nhân của hiện tượng này rất đa dạng, bao gồm việc nhân viên nghỉ hưu, từ chức vì lý do cá nhân, mất sức lao động, hoặc qua đời. Thuật ngữ này khác với "turnover" (biến động nhân sự), vốn thường bao hàm cả việc sa thải và các quyết định chủ động từ phía công ty. Theo tài liệu nghiên cứu của nhóm sinh viên UEH, việc hiểu rõ bản chất của attrition là bước đầu tiên để kiểm soát nó. Các doanh nghiệp cần tự đánh giá tỷ lệ tiêu hao nhân lực của mình để xác định mức độ nghiêm trọng. Một tỷ lệ cao không chỉ là dấu hiệu của các vấn đề nội tại mà còn có thể gây ra những tác động tiêu cực lan truyền, làm giảm tinh thần của những nhân viên còn lại và lạm dụng nguồn lực hiện có của công ty.

1.2. Tầm quan trọng của việc dự báo sớm nhân viên nghỉ việc

Dự báo sớm khả năng nhân viên rời đi mang lại lợi ích chiến lược to lớn. Thay vì đợi đến khi nhận được đơn xin nghỉ việc, doanh nghiệp có thể hành động trước để giữ chân nhân tài. Việc này giúp tiết kiệm chi phí tuyển dụng và đào tạo người mới, vốn rất tốn kém. Quan trọng hơn, nó duy trì sự ổn định và liên tục trong hoạt động kinh doanh, tránh gián đoạn các dự án quan trọng do thiếu hụt nhân sự chủ chốt. Phân tích dự báo cho phép các nhà lãnh đạo xác định các yếu tố rủi ro chính, từ đó xây dựng các chính sách nhân sự hiệu quả hơn. Ví dụ, nếu dữ liệu cho thấy mức độ hài lòng công việc thấp là nguyên nhân chính, công ty có thể tập trung vào cải thiện văn hóa và môi trường làm việc. Việc dự báo sớm cũng thể hiện sự quan tâm của tổ chức đến phúc lợi của nhân viên, góp phần xây dựng một thương hiệu nhà tuyển dụng mạnh mẽ.

II. Thách Thức Khi Tỷ Lệ Rời Bỏ Nhân Viên Tăng Cao

Tỷ lệ nhân viên rời bỏ cao là một bài toán đau đầu đối với mọi nhà quản lý. Thách thức lớn nhất đến từ những chi phí hữu hình và vô hình mà nó gây ra. Về mặt tài chính, công ty phải gánh chịu chi phí tuyển dụng mới, bao gồm quảng cáo, sàng lọc hồ sơ, phỏng vấn và kiểm tra. Sau khi tuyển được người, chi phí đào tạo và hội nhập lại tiếp tục phát sinh. Trong khoảng thời gian này, hiệu suất công việc của vị trí bị bỏ trống hoặc của nhân viên mới thường không đạt mức tối ưu, gây ảnh hưởng trực tiếp đến doanh thu. Tuy nhiên, những tổn thất vô hình còn nghiêm trọng hơn. Sự ra đi của một nhân viên, đặc biệt là người có kinh nghiệm, sẽ để lại một khoảng trống kiến thức và kỹ năng. Tinh thần của những người ở lại cũng bị ảnh hưởng, họ có thể cảm thấy quá tải vì phải đảm nhận thêm công việc, hoặc lo lắng về sự ổn định của công ty. Điều này có thể tạo ra hiệu ứng domino, khuyến khích thêm nhiều nhân viên khác tìm kiếm cơ hội mới. Việc phân tích dữ liệu nhân sự để tìm ra nguyên nhân gốc rễ trở nên cấp thiết. Nếu không có một hệ thống dự đoán khả năng rời bỏ nhân viên hiệu quả, doanh nghiệp sẽ mãi mắc kẹt trong vòng luẩn quẩn tuyển dụng - đào tạo - mất người, làm suy yếu năng lực cạnh tranh và cản trở sự phát triển bền vững trong dài hạn. Việc áp dụng các công cụ như phần mềm Orange có thể giúp phá vỡ vòng lặp này.

2.1. Tổn thất tài chính Chi phí tuyển dụng và đào tạo lại

Khi một nhân viên rời đi, chi phí tài chính là tác động trực tiếp và dễ đo lường nhất. Quá trình tuyển dụng thay thế bao gồm nhiều khoản chi: chi phí cho các nền tảng đăng tin, chi phí cho các công ty săn đầu người (headhunter), và thời gian mà bộ phận nhân sự và các nhà quản lý dành cho việc phỏng vấn. Sau khi tìm được ứng viên phùt hợp, chi phí không dừng lại. Giai đoạn đào tạo và hòa nhập (onboarding) đòi hỏi sự đầu tư về thời gian và nguồn lực. Nhân viên mới cần thời gian để làm quen với quy trình, văn hóa công ty và đạt được hiệu suất như người tiền nhiệm. Trong suốt quá trình này, năng suất tại vị trí đó thường bị sụt giảm, gây ảnh hưởng đến kết quả kinh doanh chung.

2.2. Ảnh hưởng vô hình Mất kiến thức và suy giảm tinh thần

Tác động của việc nhân viên nghỉ việc không chỉ dừng lại ở tiền bạc. Một trong những mất mát lớn nhất là kiến thức chuyên môn và kinh nghiệm tích lũy của người ra đi. Những thông tin này thường không được ghi lại đầy đủ trong tài liệu và rất khó để chuyển giao hoàn toàn. Sự ra đi của một thành viên kỳ cựu có thể làm gián đoạn các mối quan hệ với khách hàng và đối tác. Ngoài ra, tinh thần của những nhân viên còn lại cũng bị ảnh hưởng. Họ có thể cảm thấy khối lượng công việc tăng lên, lo lắng về tương lai của công ty, hoặc bắt đầu tự đặt câu hỏi về cơ hội phát triển của chính mình. Điều này có thể dẫn đến một làn sóng nghỉ việc tiếp theo, tạo ra một chu kỳ tiêu cực khó phá vỡ.

III. Hướng Dẫn Tiền Xử Lý Dữ Liệu Attrition Bằng Orange

Để xây dựng một mô hình dự đoán khả năng rời bỏ nhân viên chính xác, bước đầu tiên và quan trọng nhất là chuẩn bị dữ liệu. Tiền xử lý dữ liệu là quá trình làm sạch, cấu trúc và chuyển đổi dữ liệu thô thành một định dạng phù hợp cho việc phân tích. Phần mềm Orange cung cấp một giao diện kéo-thả trực quan, giúp đơn giản hóa quy trình phức tạp này. Nghiên cứu của UEH đã sử dụng bộ dữ liệu Employee Attrition hư cấu từ IBM, bao gồm 35 biến như tuổi, mức lương, phòng ban, và mức độ hài lòng. Quá trình bắt đầu bằng việc nạp dữ liệu vào Orange thông qua widget 'File' hoặc 'Datasets'. Sau đó, widget 'Data Table' được sử dụng để kiểm tra tổng quan bộ dữ liệu, xem xét các giá trị bị thiếu hoặc các định dạng không nhất quán. Mặc dù bộ dữ liệu này khá sạch và không có giá trị thiếu, trong thực tế, widget 'Preprocess' sẽ rất hữu ích để xử lý các vấn đề này. Bước tiếp theo là phân chia dữ liệu. Để đánh giá mô hình một cách khách quan, bộ dữ liệu cần được chia thành hai phần: tập huấn luyện (training set) và tập kiểm thử (testing set). Widget 'Data Sampler' trong Orange cho phép thực hiện việc này một cách dễ dàng. Theo nghiên cứu, nhóm đã chia dữ liệu theo tỷ lệ 70% cho huấn luyện và 30% còn lại để kiểm thử, đảm bảo mô hình được xây dựng trên phần lớn dữ liệu và được xác thực trên một tập dữ liệu hoàn toàn mới.

3.1. Nạp và khám phá bộ dữ liệu Employee Attrition

Bước khởi đầu trong mọi dự án phân tích dữ liệu nhân sự là nạp và tìm hiểu dữ liệu. Trong Orange, người dùng có thể sử dụng widget Datasets để truy cập các bộ dữ liệu mẫu, bao gồm cả Employee Attrition. Sau khi nạp, việc kết nối widget này với Data Table cho phép hiển thị toàn bộ dữ liệu dưới dạng bảng. Giao diện này cung cấp thông tin chi tiết về 1470 nhân viên và 35 thuộc tính khác nhau. Các thuộc tính này bao gồm thông tin nhân khẩu học (Tuổi, Giới tính), vai trò công việc (Phòng ban, Mức độ công việc), tài chính (Thu nhập hàng tháng) và các yếu tố tâm lý (Mức độ hài lòng công việc). Việc khám phá ban đầu giúp xác định biến mục tiêu (target variable), trong trường hợp này là cột 'Attrition' (Yes/No), và các biến độc lập sẽ được dùng để dự đoán.

3.2. Phân chia dữ liệu Tạo tập huấn luyện và kiểm thử

Một nguyên tắc cơ bản trong học máy là không bao giờ đánh giá mô hình trên chính dữ liệu đã dùng để huấn luyện nó. Do đó, việc phân chia dữ liệu thành các tập riêng biệt là bắt buộc. Widget Data Sampler trong Orange là công cụ lý tưởng cho nhiệm vụ này. Nhóm nghiên cứu đã áp dụng phương pháp lấy mẫu phân tầng (stratified sampling) để đảm bảo tỷ lệ nhân viên 'Yes' và 'No' trong biến 'Attrition' được giữ nguyên ở cả tập huấn luyện và tập kiểm thử. Cụ thể, 70% dữ liệu (1029 mẫu) được chọn làm tập huấn luyện (DuLieuHuanLuyen_70%) để xây dựng các mô hình phân lớp dữ liệu. 30% còn lại (441 mẫu) được dùng làm tập kiểm thử (DuLieuThuNghiem_30%) để đánh giá hiệu suất của các mô hình này trên dữ liệu mới.

IV. Phương Pháp Dự Đoán Khả Năng Rời Bỏ Nhân Viên Hiệu Quả

Sau khi dữ liệu đã được chuẩn bị, giai đoạn tiếp theo là xây dựng và đánh giá các mô hình phân lớp dữ liệu. Mục tiêu là tìm ra thuật toán hoạt động tốt nhất để dự đoán khả năng rời bỏ nhân viên. Phần mềm Orange hỗ trợ nhiều thuật toán học máy mạnh mẽ. Dựa trên báo cáo của UEH, ba mô hình chính đã được lựa chọn để so sánh, bao gồm: Hồi quy Logistic (Logistic Regression), Cây quyết định (Decision Tree), và Máy vector hỗ trợ (SVM - Support Vector Machine). Các mô hình này được kết nối với tập dữ liệu huấn luyện (70%). Để đánh giá một cách khoa học và toàn diện, widget 'Test & Score' được sử dụng. Widget này cho phép so sánh hiệu suất của nhiều mô hình cùng một lúc dựa trên các chỉ số đo lường phổ biến. Các chỉ số quan trọng bao gồm: Độ chính xác (CA - Classification Accuracy), F1-Score, Precision, Recall, và đặc biệt là AUC (Area Under the ROC Curve). AUC là một chỉ số tổng hợp, đo lường khả năng của mô hình trong việc phân biệt giữa hai lớp (nhân viên rời đi và ở lại). Một mô hình có AUC càng gần 1 thì khả năng phân loại càng tốt. Bằng cách so sánh các chỉ số này, nhóm nghiên cứu có thể xác định mô hình nào không chỉ chính xác nhất mà còn cân bằng tốt nhất giữa việc dự đoán đúng các trường hợp rời bỏ và không gây ra quá nhiều cảnh báo sai.

4.1. Xây dựng các mô hình phân lớp Logistic Tree SVM

Việc lựa chọn các thuật toán phân lớp phù hợp là yếu tố quyết định thành công của mô hình. Nghiên cứu đã tập trung vào ba phương pháp phổ biến: Hồi quy Logistic là một mô hình thống kê mạnh mẽ, dễ diễn giải, phù hợp cho các bài toán phân loại nhị phân. Cây quyết định tạo ra một chuỗi các quy tắc dạng 'nếu-thì', rất trực quan và dễ hiểu cho các nhà quản lý nhân sự. Cuối cùng, SVM là một thuật toán phức tạp hơn, hoạt động bằng cách tìm ra một siêu phẳng tối ưu để phân tách các lớp dữ liệu, thường cho kết quả rất tốt với các bộ dữ liệu phức tạp. Trong Orange, mỗi thuật toán này tương ứng với một widget riêng biệt, được kết nối trực tiếp vào luồng xử lý sau bước lấy mẫu dữ liệu.

4.2. Đánh giá và so sánh mô hình bằng Test Score

Widget Test & Score là trung tâm của quá trình đánh giá mô hình trong Orange. Nó nhận dữ liệu và các mô hình làm đầu vào, sau đó tự động tính toán một loạt các chỉ số hiệu suất. Nghiên cứu đã thử nghiệm nhiều phương pháp xác thực chéo (cross-validation) và lấy mẫu ngẫu nhiên (random sampling) khác nhau để tìm ra kết quả ổn định nhất. Bảng kết quả trong Test & Score trình bày một cách rõ ràng các chỉ số như AUC, CA, F1 cho từng mô hình. Dựa trên phân tích, mô hình Hồi quy Logistic liên tục cho thấy các chỉ số vượt trội, đặc biệt là chỉ số AUC đạt 82,5% trong trường hợp chia mẫu ngẫu nhiên 50-90%, cho thấy đây là ứng cử viên sáng giá nhất để dự đoán attrition.

V. Kết Quả Nghiên Cứu Dự Đoán Rời Bỏ Nhân Viên Từ UEH

Nghiên cứu của nhóm sinh viên Đại học UEH đã cung cấp những kết quả cụ thể và đáng tin cậy về việc áp dụng phần mềm Orange để dự đoán khả năng rời bỏ nhân viên. Sau khi so sánh ba mô hình, kết quả đã chỉ ra rằng Hồi quy Logistic (Logistic Regression) là phương pháp hiệu quả nhất cho bộ dữ liệu Employee Attrition. Điều này được chứng minh qua nhiều chỉ số đánh giá khác nhau. Phân tích ma trận nhầm lẫn (Confusion Matrix) cho thấy mô hình Hồi quy Logistic có tỷ lệ sai lầm loại 2 (dự đoán nhân viên ở lại trong khi thực tế họ rời đi) là thấp nhất. Đây là loại sai lầm nguy hiểm nhất trong bài toán này, vì nó bỏ lỡ cơ hội can thiệp để giữ chân nhân viên. Thêm vào đó, khi phân tích đường cong ROC (ROC Curve), đường cong của mô hình Hồi quy Logistic tiệm cận gần nhất với điểm (0,1) - điểm lý tưởng đại diện cho một mô hình phân loại hoàn hảo. Diện tích dưới đường cong (AUC) của mô hình này cũng cao nhất, đạt 82,5%, khẳng định khả năng phân biệt vượt trội giữa hai nhóm nhân viên. Dựa trên những bằng chứng vững chắc này, nghiên cứu đã kết luận chọn Hồi quy Logistic làm mô hình cuối cùng để dự báo trên 100 mẫu dữ liệu thử nghiệm mới. Kết quả dự báo cuối cùng được trình bày rõ ràng, cho thấy nhân viên nào được dự đoán sẽ rời đi (Attrition = 'Yes') và nhân viên nào sẽ ở lại (Attrition = 'No'), cung cấp thông tin hữu ích cho phòng nhân sự.

5.1. Phân tích Ma trận nhầm lẫn và sai lầm dự báo

Ma trận nhầm lẫn là một công cụ trực quan để đánh giá hiệu suất của mô hình phân loại. Nó cho biết số lượng dự đoán đúng (True Positives, True Negatives) và sai (False Positives, False Negatives). Trong bài toán này, sai lầm loại 1 (False Positive) là dự đoán sai một nhân viên sẽ nghỉ việc. Sai lầm loại 2 (False Negative) là dự đoán sai một nhân viên sẽ ở lại. Nghiên cứu chỉ ra rằng mô hình Hồi quy Logistic có sai lầm loại 2 thấp nhất (chỉ 9 trường hợp), trong khi Cây quyết định và SVM có tỷ lệ này cao hơn. Việc tối thiểu hóa sai lầm loại 2 là ưu tiên hàng đầu, vì nó giúp doanh nghiệp không bỏ sót các trường hợp có nguy cơ cao.

5.2. Đánh giá qua đường cong ROC và chỉ số AUC

Đường cong ROC thể hiện mối quan hệ giữa Tỷ lệ Dương tính Thật (TPR - khả năng phát hiện đúng người sẽ nghỉ việc) và Tỷ lệ Dương tính Giả (FPR - báo động nhầm). Một mô hình càng tốt thì đường cong càng cong về phía góc trên bên trái của biểu đồ. Phân tích từ nghiên cứu của UEH cho thấy đường cong của mô hình Hồi quy Logistic nổi bật hơn so với hai mô hình còn lại, cho thấy hiệu suất tổng thể tốt hơn ở mọi ngưỡng quyết định. Chỉ số AUC là thước đo định lượng cho hiệu suất này. Với AUC là 82,5%, mô hình Hồi quy Logistic được xác nhận là lựa chọn tối ưu nhất để dự đoán rời bỏ nhân viên một cách chính xác.

5.3. Ứng dụng mô hình dự báo cho 100 trường hợp thực tế

Sau khi xác định Hồi quy Logistic là mô hình tốt nhất, bước cuối cùng là áp dụng nó vào thực tế. Nhóm nghiên cứu đã sử dụng widget Predictions để đưa 100 mẫu dữ liệu từ tập kiểm thử vào mô hình đã được huấn luyện. Kết quả đầu ra là một bảng dữ liệu mới, có thêm các cột dự đoán. Các cột này cho biết xác suất một nhân viên sẽ rời đi và nhãn dự đoán cuối cùng ('Yes' hoặc 'No'). Bảng kết quả này chính là sản phẩm cuối cùng của quá trình phân tích dữ liệu nhân sự, cung cấp một danh sách các nhân viên cần được quan tâm đặc biệt. Dựa vào đây, phòng nhân sự có thể lên kế hoạch phỏng vấn, tìm hiểu nguyên nhân và đưa ra các giải pháp giữ chân kịp thời.

10/07/2025
Phân lớp bộ dữ liệu employee attrition qua ứng dụng orange