Phân Tích Dữ Liệu Nhân Sự: Dự Đoán Khả Năng Rời Bỏ Nhân Viên Qua Phần Mềm Orange

Chuyên khảo phân tích Phân lớp bộ dữ liệu employee attrition qua ứng dụng orange, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Trường Đại Học Kinh Tế Quốc Dân

Chuyên ngành

Phân Tích Dữ Liệu

Người đăng

Ẩn danh

Thể loại

Đồ Án Tốt Nghiệp

2023

Phí lưu trữ

30 Point

Tóm tắt

I. Khám Phá Khoa Học Dữ Liệu Trong Phân Tích Nhân Sự

Trong bối cảnh cạnh tranh nhân tài gay gắt, việc giữ chân nhân viên giỏi đã trở thành ưu tiên hàng đầu của mọi doanh nghiệp. Tỷ lệ nhân viên rời bỏ (employee attrition) cao không chỉ gây tốn kém chi phí tuyển dụng, đào tạo mà còn ảnh hưởng tiêu cực đến tinh thần làm việc và hiệu suất chung. Đây là lúc khoa học dữ liệu phát huy vai trò của mình. Bằng cách áp dụng các kỹ thuật phân tích tiên tiến, phòng nhân sự có thể chuyển đổi từ việc phản ứng thụ động sang chủ động dự báo các xu hướng. Phân tích dữ liệu nhân sự giúp khám phá những yếu-tố-ngầm ảnh hưởng đến quyết định nghỉ việc của một nhân viên, chẳng hạn như mức độ hài lòng, khối lượng công việc, khoảng cách di chuyển hay cơ hội thăng tiến. Việc này cung cấp một cái nhìn sâu sắc, dựa trên bằng chứng thay vì cảm tính, để các nhà quản lý đưa ra chiến lược phù hợp. Thay vì dựa vào các cuộc khảo sát rời rạc, doanh nghiệp có thể xây dựng một hệ thống cảnh báo sớm, xác định các cá nhân hoặc nhóm có nguy cơ cao. Từ đó, các biện pháp can thiệp kịp thời như điều chỉnh chính sách lương thưởng, cải thiện môi trường làm việc, hoặc xây dựng lộ trình phát triển sự nghiệp rõ ràng có thể được triển khai. Phần mềm Orange nổi lên như một công cụ mạnh mẽ và trực quan, cho phép cả những người không chuyên về lập trình cũng có thể xây dựng các mô hình dự đoán phức tạp. Việc áp dụng Orange vào dự đoán khả năng rời bỏ nhân viên giúp dân chủ hóa quá trình phân tích, biến dữ liệu thô thành những thông tin chi tiết có giá trị hành động, tạo ra lợi thế cạnh tranh bền vững cho tổ chức.

1.1. Hiểu đúng về Employee Attrition trong quản trị nhân sự

Trong quản trị nhân sự, employee attrition hay tiêu hao nhân lực, mô tả sự sụt giảm tự nhiên và không lường trước về số lượng nhân viên. Nguyên nhân của hiện tượng này rất đa dạng, bao gồm việc nhân viên nghỉ hưu, từ chức vì lý do cá nhân, mất sức lao động, hoặc qua đời. Thuật ngữ này khác với "turnover" (biến động nhân sự), vốn thường bao hàm cả việc sa thải và các quyết định chủ động từ phía công ty. Theo tài liệu nghiên cứu của nhóm sinh viên UEH, việc hiểu rõ bản chất của attrition là bước đầu tiên để kiểm soát nó. Các doanh nghiệp cần tự đánh giá tỷ lệ tiêu hao nhân lực của mình để xác định mức độ nghiêm trọng. Một tỷ lệ cao không chỉ là dấu hiệu của các vấn đề nội tại mà còn có thể gây ra những tác động tiêu cực lan truyền, làm giảm tinh thần của những nhân viên còn lại và lạm dụng nguồn lực hiện có của công ty.

1.2. Tầm quan trọng của việc dự báo sớm nhân viên nghỉ việc

Dự báo sớm khả năng nhân viên rời đi mang lại lợi ích chiến lược to lớn. Thay vì đợi đến khi nhận được đơn xin nghỉ việc, doanh nghiệp có thể hành động trước để giữ chân nhân tài. Việc này giúp tiết kiệm chi phí tuyển dụng và đào tạo người mới, vốn rất tốn kém. Quan trọng hơn, nó duy trì sự ổn định và liên tục trong hoạt động kinh doanh, tránh gián đoạn các dự án quan trọng do thiếu hụt nhân sự chủ chốt. Phân tích dự báo cho phép các nhà lãnh đạo xác định các yếu tố rủi ro chính, từ đó xây dựng các chính sách nhân sự hiệu quả hơn. Ví dụ, nếu dữ liệu cho thấy mức độ hài lòng công việc thấp là nguyên nhân chính, công ty có thể tập trung vào cải thiện văn hóa và môi trường làm việc. Việc dự báo sớm cũng thể hiện sự quan tâm của tổ chức đến phúc lợi của nhân viên, góp phần xây dựng một thương hiệu nhà tuyển dụng mạnh mẽ.

II. Thách Thức Khi Tỷ Lệ Rời Bỏ Nhân Viên Tăng Cao

Tỷ lệ nhân viên rời bỏ cao là một bài toán đau đầu đối với mọi nhà quản lý. Thách thức lớn nhất đến từ những chi phí hữu hình và vô hình mà nó gây ra. Về mặt tài chính, công ty phải gánh chịu chi phí tuyển dụng mới, bao gồm quảng cáo, sàng lọc hồ sơ, phỏng vấn và kiểm tra. Sau khi tuyển được người, chi phí đào tạo và hội nhập lại tiếp tục phát sinh. Trong khoảng thời gian này, hiệu suất công việc của vị trí bị bỏ trống hoặc của nhân viên mới thường không đạt mức tối ưu, gây ảnh hưởng trực tiếp đến doanh thu. Tuy nhiên, những tổn thất vô hình còn nghiêm trọng hơn. Sự ra đi của một nhân viên, đặc biệt là người có kinh nghiệm, sẽ để lại một khoảng trống kiến thức và kỹ năng. Tinh thần của những người ở lại cũng bị ảnh hưởng, họ có thể cảm thấy quá tải vì phải đảm nhận thêm công việc, hoặc lo lắng về sự ổn định của công ty. Điều này có thể tạo ra hiệu ứng domino, khuyến khích thêm nhiều nhân viên khác tìm kiếm cơ hội mới. Việc phân tích dữ liệu nhân sự để tìm ra nguyên nhân gốc rễ trở nên cấp thiết. Nếu không có một hệ thống dự đoán khả năng rời bỏ nhân viên hiệu quả, doanh nghiệp sẽ mãi mắc kẹt trong vòng luẩn quẩn tuyển dụng - đào tạo - mất người, làm suy yếu năng lực cạnh tranh và cản trở sự phát triển bền vững trong dài hạn. Việc áp dụng các công cụ như phần mềm Orange có thể giúp phá vỡ vòng lặp này.

2.1. Tổn thất tài chính Chi phí tuyển dụng và đào tạo lại

Khi một nhân viên rời đi, chi phí tài chính là tác động trực tiếp và dễ đo lường nhất. Quá trình tuyển dụng thay thế bao gồm nhiều khoản chi: chi phí cho các nền tảng đăng tin, chi phí cho các công ty săn đầu người (headhunter), và thời gian mà bộ phận nhân sự và các nhà quản lý dành cho việc phỏng vấn. Sau khi tìm được ứng viên phùt hợp, chi phí không dừng lại. Giai đoạn đào tạo và hòa nhập (onboarding) đòi hỏi sự đầu tư về thời gian và nguồn lực. Nhân viên mới cần thời gian để làm quen với quy trình, văn hóa công ty và đạt được hiệu suất như người tiền nhiệm. Trong suốt quá trình này, năng suất tại vị trí đó thường bị sụt giảm, gây ảnh hưởng đến kết quả kinh doanh chung.

2.2. Ảnh hưởng vô hình Mất kiến thức và suy giảm tinh thần

Tác động của việc nhân viên nghỉ việc không chỉ dừng lại ở tiền bạc. Một trong những mất mát lớn nhất là kiến thức chuyên môn và kinh nghiệm tích lũy của người ra đi. Những thông tin này thường không được ghi lại đầy đủ trong tài liệu và rất khó để chuyển giao hoàn toàn. Sự ra đi của một thành viên kỳ cựu có thể làm gián đoạn các mối quan hệ với khách hàng và đối tác. Ngoài ra, tinh thần của những nhân viên còn lại cũng bị ảnh hưởng. Họ có thể cảm thấy khối lượng công việc tăng lên, lo lắng về tương lai của công ty, hoặc bắt đầu tự đặt câu hỏi về cơ hội phát triển của chính mình. Điều này có thể dẫn đến một làn sóng nghỉ việc tiếp theo, tạo ra một chu kỳ tiêu cực khó phá vỡ.

III. Hướng Dẫn Tiền Xử Lý Dữ Liệu Attrition Bằng Orange

Để xây dựng một mô hình dự đoán khả năng rời bỏ nhân viên chính xác, bước đầu tiên và quan trọng nhất là chuẩn bị dữ liệu. Tiền xử lý dữ liệu là quá trình làm sạch, cấu trúc và chuyển đổi dữ liệu thô thành một định dạng phù hợp cho việc phân tích. Phần mềm Orange cung cấp một giao diện kéo-thả trực quan, giúp đơn giản hóa quy trình phức tạp này. Nghiên cứu của UEH đã sử dụng bộ dữ liệu Employee Attrition hư cấu từ IBM, bao gồm 35 biến như tuổi, mức lương, phòng ban, và mức độ hài lòng. Quá trình bắt đầu bằng việc nạp dữ liệu vào Orange thông qua widget 'File' hoặc 'Datasets'. Sau đó, widget 'Data Table' được sử dụng để kiểm tra tổng quan bộ dữ liệu, xem xét các giá trị bị thiếu hoặc các định dạng không nhất quán. Mặc dù bộ dữ liệu này khá sạch và không có giá trị thiếu, trong thực tế, widget 'Preprocess' sẽ rất hữu ích để xử lý các vấn đề này. Bước tiếp theo là phân chia dữ liệu. Để đánh giá mô hình một cách khách quan, bộ dữ liệu cần được chia thành hai phần: tập huấn luyện (training set) và tập kiểm thử (testing set). Widget 'Data Sampler' trong Orange cho phép thực hiện việc này một cách dễ dàng. Theo nghiên cứu, nhóm đã chia dữ liệu theo tỷ lệ 70% cho huấn luyện và 30% còn lại để kiểm thử, đảm bảo mô hình được xây dựng trên phần lớn dữ liệu và được xác thực trên một tập dữ liệu hoàn toàn mới.

3.1. Nạp và khám phá bộ dữ liệu Employee Attrition

Bước khởi đầu trong mọi dự án phân tích dữ liệu nhân sự là nạp và tìm hiểu dữ liệu. Trong Orange, người dùng có thể sử dụng widget Datasets để truy cập các bộ dữ liệu mẫu, bao gồm cả Employee Attrition. Sau khi nạp, việc kết nối widget này với Data Table cho phép hiển thị toàn bộ dữ liệu dưới dạng bảng. Giao diện này cung cấp thông tin chi tiết về 1470 nhân viên và 35 thuộc tính khác nhau. Các thuộc tính này bao gồm thông tin nhân khẩu học (Tuổi, Giới tính), vai trò công việc (Phòng ban, Mức độ công việc), tài chính (Thu nhập hàng tháng) và các yếu tố tâm lý (Mức độ hài lòng công việc). Việc khám phá ban đầu giúp xác định biến mục tiêu (target variable), trong trường hợp này là cột 'Attrition' (Yes/No), và các biến độc lập sẽ được dùng để dự đoán.

3.2. Phân chia dữ liệu Tạo tập huấn luyện và kiểm thử

Một nguyên tắc cơ bản trong học máy là không bao giờ đánh giá mô hình trên chính dữ liệu đã dùng để huấn luyện nó. Do đó, việc phân chia dữ liệu thành các tập riêng biệt là bắt buộc. Widget Data Sampler trong Orange là công cụ lý tưởng cho nhiệm vụ này. Nhóm nghiên cứu đã áp dụng phương pháp lấy mẫu phân tầng (stratified sampling) để đảm bảo tỷ lệ nhân viên 'Yes' và 'No' trong biến 'Attrition' được giữ nguyên ở cả tập huấn luyện và tập kiểm thử. Cụ thể, 70% dữ liệu (1029 mẫu) được chọn làm tập huấn luyện (DuLieuHuanLuyen_70%) để xây dựng các mô hình phân lớp dữ liệu. 30% còn lại (441 mẫu) được dùng làm tập kiểm thử (DuLieuThuNghiem_30%) để đánh giá hiệu suất của các mô hình này trên dữ liệu mới.

IV. Phương Pháp Dự Đoán Khả Năng Rời Bỏ Nhân Viên Hiệu Quả

Sau khi dữ liệu đã được chuẩn bị, giai đoạn tiếp theo là xây dựng và đánh giá các mô hình phân lớp dữ liệu. Mục tiêu là tìm ra thuật toán hoạt động tốt nhất để dự đoán khả năng rời bỏ nhân viên. Phần mềm Orange hỗ trợ nhiều thuật toán học máy mạnh mẽ. Dựa trên báo cáo của UEH, ba mô hình chính đã được lựa chọn để so sánh, bao gồm: Hồi quy Logistic (Logistic Regression), Cây quyết định (Decision Tree), và Máy vector hỗ trợ (SVM - Support Vector Machine). Các mô hình này được kết nối với tập dữ liệu huấn luyện (70%). Để đánh giá một cách khoa học và toàn diện, widget 'Test & Score' được sử dụng. Widget này cho phép so sánh hiệu suất của nhiều mô hình cùng một lúc dựa trên các chỉ số đo lường phổ biến. Các chỉ số quan trọng bao gồm: Độ chính xác (CA - Classification Accuracy), F1-Score, Precision, Recall, và đặc biệt là AUC (Area Under the ROC Curve). AUC là một chỉ số tổng hợp, đo lường khả năng của mô hình trong việc phân biệt giữa hai lớp (nhân viên rời đi và ở lại). Một mô hình có AUC càng gần 1 thì khả năng phân loại càng tốt. Bằng cách so sánh các chỉ số này, nhóm nghiên cứu có thể xác định mô hình nào không chỉ chính xác nhất mà còn cân bằng tốt nhất giữa việc dự đoán đúng các trường hợp rời bỏ và không gây ra quá nhiều cảnh báo sai.

4.1. Xây dựng các mô hình phân lớp Logistic Tree SVM

Việc lựa chọn các thuật toán phân lớp phù hợp là yếu tố quyết định thành công của mô hình. Nghiên cứu đã tập trung vào ba phương pháp phổ biến: Hồi quy Logistic là một mô hình thống kê mạnh mẽ, dễ diễn giải, phù hợp cho các bài toán phân loại nhị phân. Cây quyết định tạo ra một chuỗi các quy tắc dạng 'nếu-thì', rất trực quan và dễ hiểu cho các nhà quản lý nhân sự. Cuối cùng, SVM là một thuật toán phức tạp hơn, hoạt động bằng cách tìm ra một siêu phẳng tối ưu để phân tách các lớp dữ liệu, thường cho kết quả rất tốt với các bộ dữ liệu phức tạp. Trong Orange, mỗi thuật toán này tương ứng với một widget riêng biệt, được kết nối trực tiếp vào luồng xử lý sau bước lấy mẫu dữ liệu.

4.2. Đánh giá và so sánh mô hình bằng Test Score

Widget Test & Score là trung tâm của quá trình đánh giá mô hình trong Orange. Nó nhận dữ liệu và các mô hình làm đầu vào, sau đó tự động tính toán một loạt các chỉ số hiệu suất. Nghiên cứu đã thử nghiệm nhiều phương pháp xác thực chéo (cross-validation) và lấy mẫu ngẫu nhiên (random sampling) khác nhau để tìm ra kết quả ổn định nhất. Bảng kết quả trong Test & Score trình bày một cách rõ ràng các chỉ số như AUC, CA, F1 cho từng mô hình. Dựa trên phân tích, mô hình Hồi quy Logistic liên tục cho thấy các chỉ số vượt trội, đặc biệt là chỉ số AUC đạt 82,5% trong trường hợp chia mẫu ngẫu nhiên 50-90%, cho thấy đây là ứng cử viên sáng giá nhất để dự đoán attrition.

V. Kết Quả Nghiên Cứu Dự Đoán Rời Bỏ Nhân Viên Từ UEH

Nghiên cứu của nhóm sinh viên Đại học UEH đã cung cấp những kết quả cụ thể và đáng tin cậy về việc áp dụng phần mềm Orange để dự đoán khả năng rời bỏ nhân viên. Sau khi so sánh ba mô hình, kết quả đã chỉ ra rằng Hồi quy Logistic (Logistic Regression) là phương pháp hiệu quả nhất cho bộ dữ liệu Employee Attrition. Điều này được chứng minh qua nhiều chỉ số đánh giá khác nhau. Phân tích ma trận nhầm lẫn (Confusion Matrix) cho thấy mô hình Hồi quy Logistic có tỷ lệ sai lầm loại 2 (dự đoán nhân viên ở lại trong khi thực tế họ rời đi) là thấp nhất. Đây là loại sai lầm nguy hiểm nhất trong bài toán này, vì nó bỏ lỡ cơ hội can thiệp để giữ chân nhân viên. Thêm vào đó, khi phân tích đường cong ROC (ROC Curve), đường cong của mô hình Hồi quy Logistic tiệm cận gần nhất với điểm (0,1) - điểm lý tưởng đại diện cho một mô hình phân loại hoàn hảo. Diện tích dưới đường cong (AUC) của mô hình này cũng cao nhất, đạt 82,5%, khẳng định khả năng phân biệt vượt trội giữa hai nhóm nhân viên. Dựa trên những bằng chứng vững chắc này, nghiên cứu đã kết luận chọn Hồi quy Logistic làm mô hình cuối cùng để dự báo trên 100 mẫu dữ liệu thử nghiệm mới. Kết quả dự báo cuối cùng được trình bày rõ ràng, cho thấy nhân viên nào được dự đoán sẽ rời đi (Attrition = 'Yes') và nhân viên nào sẽ ở lại (Attrition = 'No'), cung cấp thông tin hữu ích cho phòng nhân sự.

5.1. Phân tích Ma trận nhầm lẫn và sai lầm dự báo

Ma trận nhầm lẫn là một công cụ trực quan để đánh giá hiệu suất của mô hình phân loại. Nó cho biết số lượng dự đoán đúng (True Positives, True Negatives) và sai (False Positives, False Negatives). Trong bài toán này, sai lầm loại 1 (False Positive) là dự đoán sai một nhân viên sẽ nghỉ việc. Sai lầm loại 2 (False Negative) là dự đoán sai một nhân viên sẽ ở lại. Nghiên cứu chỉ ra rằng mô hình Hồi quy Logistic có sai lầm loại 2 thấp nhất (chỉ 9 trường hợp), trong khi Cây quyết định và SVM có tỷ lệ này cao hơn. Việc tối thiểu hóa sai lầm loại 2 là ưu tiên hàng đầu, vì nó giúp doanh nghiệp không bỏ sót các trường hợp có nguy cơ cao.

5.2. Đánh giá qua đường cong ROC và chỉ số AUC

Đường cong ROC thể hiện mối quan hệ giữa Tỷ lệ Dương tính Thật (TPR - khả năng phát hiện đúng người sẽ nghỉ việc) và Tỷ lệ Dương tính Giả (FPR - báo động nhầm). Một mô hình càng tốt thì đường cong càng cong về phía góc trên bên trái của biểu đồ. Phân tích từ nghiên cứu của UEH cho thấy đường cong của mô hình Hồi quy Logistic nổi bật hơn so với hai mô hình còn lại, cho thấy hiệu suất tổng thể tốt hơn ở mọi ngưỡng quyết định. Chỉ số AUC là thước đo định lượng cho hiệu suất này. Với AUC là 82,5%, mô hình Hồi quy Logistic được xác nhận là lựa chọn tối ưu nhất để dự đoán rời bỏ nhân viên một cách chính xác.

5.3. Ứng dụng mô hình dự báo cho 100 trường hợp thực tế

Sau khi xác định Hồi quy Logistic là mô hình tốt nhất, bước cuối cùng là áp dụng nó vào thực tế. Nhóm nghiên cứu đã sử dụng widget Predictions để đưa 100 mẫu dữ liệu từ tập kiểm thử vào mô hình đã được huấn luyện. Kết quả đầu ra là một bảng dữ liệu mới, có thêm các cột dự đoán. Các cột này cho biết xác suất một nhân viên sẽ rời đi và nhãn dự đoán cuối cùng ('Yes' hoặc 'No'). Bảng kết quả này chính là sản phẩm cuối cùng của quá trình phân tích dữ liệu nhân sự, cung cấp một danh sách các nhân viên cần được quan tâm đặc biệt. Dựa vào đây, phòng nhân sự có thể lên kế hoạch phỏng vấn, tìm hiểu nguyên nhân và đưa ra các giải pháp giữ chân kịp thời.

10/07/2025

Bạn đang xem trước tài liệu:

Phân lớp bộ dữ liệu employee attrition qua ứng dụng orange

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu Ngày nay, khi sống trong thời đại mới - thời đại văn minh, khoa học mà điển hình là sự phát triển vượt bậc của ngành công nghệ thông tin thì khoa học dữ liệu lại càng được chú trọng hơn bao giờ hết. Sự hình thành và phát triển của khoa học dữ liệu bắt nguồn từ nhu cầu tối ưu hoá diện tích, thời gian, tốc độ lưu giữ và tra cứu thông tin. Cụ thể hơn đó là việc thay thế những chiếc máy tính bàn cồng kềnh, ổ cứng máy tính hay ổ đĩa CD xuất hiện cách đây khoảng một thập niên bằng một số phương tiện lưu trữ khác: điện đám mây, mạng xã hội, website, thiết bị di động và các thiết bị cảm biến. Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu rất có ý nghĩa đối với hoạt động kinh doanh bởi lẽ đây là một phương thức tiếp cận đa ngành, được kết hợp hài hoà không chỉ giữa những nguyên tắc mà còn có phương pháp thực hành trong lĩnh vực toán học, thống kê, trí tuệ nhân tạo, phân tích khối lượng lớn dữ liệu thông qua kỹ thuật máy tính.

Bằng vô vàn thiết bị thu thập, lưu trữ dữ liệu tự động cùng với các công nghệ hiện đại khác, chúng ta có sẵn khối lượng đồ sộ dữ liệu về thương mại, điện tử, y tế, tài chính cũng như hầu hết mọi khía cạnh của đời sống dưới dạng văn bản, hình ảnh, âm thanh,…Trong tương lai, khoa học dữ liệu sẽ có những đột phá mới về trí tuệ nhân tạo và máy móc giúp hoạt động xử lý dữ liệu diễn ra một cách nhanh chóng hơn nhưng vẫn đảm bảo được độ chính xác và tính hiệu quả. Chính sự bùng nổ khoa học này mà không phải ngẫu nhiên mà người ta cho rằng khoa học dữ liệu có tầm ảnh hưởng và là một trong những ngàng chủ chốt có ưu thế đi đầu hiện nay. Các lĩnh vực của khao học dữ liệu: khai thác dữ liệu (Data mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) và lập trình (Programming).2 Giới thiệu về đề tài 1. Lý do chọn đề tài Hao mòn lao động trong kinh doanh được mô tả thông qua sự sụt giảm, tiêu hao dần số lượng nhân viên một cách không được dự báo trước, chủ yếu xảy ra khi nhân viên nghỉ hưu, từ chức, mất sức lao động hay đột ngột qua đời.

Thuật ngữ này đôi khi cũng được sử dụng để mô tả sự mất mát của người mua hay khách hàng khi họ trưởng thành và vượt ra ngoài thị trường mục tiêu của sản phẩm hoặc công ty mà không được thay thế bởi một thế hệ trẻ khác. Các công ty sẽ phải tự đánh giá attrition rate (tỷ lệ tiêu hao lực lượng lao động hay lãng phí lao động) của mình là cao hay thấp. Những công ty có tỷ lệ lãng phí lao động cao thường phải đối mặt với nguy cơ lạm dụng nguồn lực nội bộ cũng như vẫn có thể phát sinh các tác dộng tiêu cực đến các nhân viên còn lại của công ty. Đây là hiện trạng đã và đang xảy ra đối với đa số các công ty hiện nay và nhận được phần lớn sự quan tâm.

Để có thể phân tích được các dữ liệu một cách tự động, nhóm chúng em cần sự hỗ trợ của các phần mềm như: Excel, Power BI,… Cùng với những dữ liệu đã thu thập được, chúng em tiếp tục sử dụng Orange để xây dựng quy trình khai thác thác dữ liệu một cách hoàn chỉnh hơn mà không mất quá nhiều thời gian để lập trình. Cuối cùng, sau khi phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa sổ phân tích, đánh giá mức độ hiệu quả, đồng thời đề xuất một số hướng giải quyết, 8 Báo cáo đồ án học phần Khoa học dữ liệu (DS) phát triển dành cho chủ đề này. Và đó cũng là lý do nhóm em chọn đề tài “Phân tích bộ dữ liệu Employee Attrition qua các thuật toán trên Orange” 1.2 Mục tiêu nghiên cứu Khám phá, thu thập dữ liệu Chọn lọc, làm sạch dữ liệu Phân cụm, phân lớp dữ liệu Dự đoán những yếu tố ảnh hưởng trực tiếp đến tỷ lệ nhân viên rời công ty Cung cấp cái nhìn tổng quan, trên nhiều phương diện về sự hao mòn lao động, từ đó nhận xét, đánh giá dựa trên dữ liệu đã phân tích 1.3 Phương pháp thực hiện Tiến hành sử dụng phần mềm Orange để thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu. Tiếp đó dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.

Để thực hiện phân cụm bộ dữ liệu, nhóm đã sử dụng hai phương pháp chính là: _ Hierarchical clustering và K-means. + Đối với phương pháp Hierarchical clustering: tính khoảng cách giữa các phần tử bằng Distance, quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot. + Đối với phương pháp K-means: quan sát chỉ số Silhouette trung bình khi phân dữ liệu từ 2 đến 5 cụm, chọn số cụm có chỉ số Silhouette tốt, phù hợp với số lượng biến có sẵn trên bộ dữ liệu và quan sát trên Silhouette Plot. Bước tiếp theo đó là chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu.

Đối với việc phân lớp dữ liệu, nhóm chọn biến “Subscribed” cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết dinh (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Rgression). Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn. 9 Báo cáo đồ án học phần Khoa học dữ liệu (DS) Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Các phương pháp của Excel dùng để khai thác dữ liệu Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office. Phần mềm giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn…và trong Khoa học dữ liệu, Excel được sử dụng để thống kê miêu tả, lưu các dữ liệu và phân tích các dự báo.

Các trang tính của Excel được tạo nên từ các hàng và cột. Điểm giao nhau giữa 2 thành phần này sẽ được gọi là ô.1 Phương pháp thống kê mô tả 2.1 Thống kê bằng công cụ Descriptive Statistics Các bước thực hiện: - Bước 1: Chuẩn bị bảng số liệu cần thống kê. - Bước 2: Chọn lệnh Data => Data Analysis => Descriptive Statistics, xuất hiện hộp thoại Descriptive Statistics. - Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output Options.

- Ví dụ: Thống kê mô tả cho số lượng máy tính bảng (đơn vị: chiếc) bán được trong năm 2022 tại cửa hàng A Bảng 1:Bảng 2.1 Số liệu bán hàng trong năm tại cửa hàng A và hộp thoại Descriptive Statistics 10 Báo cáo đồ án học phần Khoa học dữ liệu (DS) Trong hộp thoại Descriptive Statistics: - Input Range: Nhập cột chứa dữ liệu máy tính bảng - Output Range: ô xuất hiện dữ liệu - Confidence Level for Mean: 95% Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai số chuẩn(SE),.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistic  Mean: Giá trị trung bình  Standard Error: Sai số chuẩn  Median: Trung vị  Mode: Yếu vị  Standard Deviation: Độ lệch chuẩn  Sample Variance: Phương sai mẫu  Kurtosis: Độ nhọn  Skewness: Độ bất đối xứng (Độ nghiêng)  Range: Khoảng biến thiên (Max-Min)  Minimum: Số nhỏ nhất  Maximum: Số lớn nhất  Sum: Tổng  Count: Số lượng phần tử  Confidence Level: Độ tin cậy 2.2 Báo cáo tổng hợp nhóm với Subtotal Định nghĩa hàm Subtotal: Dùng để tính toán một danh sách các chữ số theo nhiều cách tính khác nhau như tính trung bình, tính tổng, giá trị lớn nhất hoặc giá trị nhỏ nhất. Chức năng của Subtotal: - Cho phép tổng hợp từng nhóm dữ liệu của các cột kiểu số trong cơ sở dữ liệu như: tìm tổng, số nhỏ nhất, số lớn nhất,số trung bình,… 11 Báo cáo đồ án học phần Khoa học dữ liệu (DS) - Kết quả tổng hợp được đặt trên hay dưới mỗi nhóm Các bước thực hiện: - Bước 1: Sắp xếp dữ liệu theo cột muốn gom nhóm. - Bước 2: Chọn toàn bộ cơ sở dữ liệu hay click chuột vào một ô bất kì trên dữ liệu. - Bước 3: Chọn Data => Outline => Subtotal, xuất hiện hộp thoại Subtotal.

- Ví dụ: Thống kê Tổng số lượng của bảng số liệu sau theo từng quận bằng công cụ Subtotal.3 Bảng tổng hợp doanh thu 6 tháng cuối năm 2017 Hình ảnh 1:Hình 2.1 Hộp thoại Subtotal - At each change in: chọn cột gom nhóm( Quận) - Use function: chọn hàm thống kê dùng để tổng hợp dữ liệu( Sum) - Add subtotal to : chọn cột thống kê giá trị(Doanh thu) - Replace current subtotals: Chọn thay thế kết quả thống kê trước đó - Page break between group: chọn để ngắt trang giữa các nhóm, khi in ra giấy thì mỗi nhóm một trang giấy - Summary below data: chọn để kết quả tổng hợp dưới dạng mỗi nhóm - Remove All: để xóa bỏ các kết quả tổng hợp Bảng 4:Bảng 2.4 Bảng kết quả Thống kê tổng số lượng 12 DS) 2.3 Hợp nhất dữ liệu với Consolidate:  Định nghĩa: là hàm có chức năng hợp nhất các ô,cột,các trang tính lại với nhau. Chức năng: - Cho phép cập nhật dữ liệu từ những bảng dữ liệu khác nhau. - Consolidate có thể cập nhật dữ liệu theo hai hình thức: o Tổng hợp theo vị trí: Các bảng dữ liệu giống nhau về cấu trúc. o Tổng hợp theo hạng mục( theo bảng và cột): Các bảng dữ liệu khác nhau về cấu trúc.

 Các bước thực hiện: - Bước 1: Chọn vùng dữ liệu cần hợp nhất - Bước 2: Trong cửa sổ Microsoft Excel chọn Data => Data Tools=> Consolidate, xuất hiện hộp thoại Consolidate  Ví dụ: Hợp nhất doanh thu của 3 cửa hàng 13 Báo cáo đồ án học phần Khoa học dữ liệu (DS) Bảng 5:Bảng 2.5 Bảng doanh thu của ba cửa hàng Hình ảnh 2: Hình 2.2 Hộp thoại của Consolidate - Function: Chọn hàm tổng hợp(Sum). - Reference: Để tham chiếu lần lượt các bảng dữ liệu nguồn. 14 Báo cáo đồ án học phần Khoa học dữ liệu (DS) - All references: Chứa tất cả các vùng dữ liệu nguồn cần thiết cho việc hợp nhất. (cửa hàng A,cửa hàng B, cửa hàng C) - Top row: Chọn nếu muốn dùng tên cột của vùng nguồn.

- Left column:Chọn nếu muốn dùng các giá trị của cột đầu tiên của vùng nguồn.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

phân tích dữ liệu nhân sự

Ứng dụng machine learning trong quản trị

Dự báo và phân lớp dữ liệu

Công nghệ thông tin kinh doanh

Phân Tích Dữ Liệu Nhân Sự: Dự Đoán Khả Năng Rời Bỏ Nhân Viên Qua Phần Mềm Orange

I. Khám Phá Khoa Học Dữ Liệu Trong Phân Tích Nhân Sự

1.1. Hiểu đúng về Employee Attrition trong quản trị nhân sự

1.2. Tầm quan trọng của việc dự báo sớm nhân viên nghỉ việc

II. Thách Thức Khi Tỷ Lệ Rời Bỏ Nhân Viên Tăng Cao

2.1. Tổn thất tài chính Chi phí tuyển dụng và đào tạo lại

2.2. Ảnh hưởng vô hình Mất kiến thức và suy giảm tinh thần

III. Hướng Dẫn Tiền Xử Lý Dữ Liệu Attrition Bằng Orange

3.1. Nạp và khám phá bộ dữ liệu Employee Attrition

3.2. Phân chia dữ liệu Tạo tập huấn luyện và kiểm thử

IV. Phương Pháp Dự Đoán Khả Năng Rời Bỏ Nhân Viên Hiệu Quả

4.1. Xây dựng các mô hình phân lớp Logistic Tree SVM

4.2. Đánh giá và so sánh mô hình bằng Test Score

V. Kết Quả Nghiên Cứu Dự Đoán Rời Bỏ Nhân Viên Từ UEH

5.1. Phân tích Ma trận nhầm lẫn và sai lầm dự báo

5.2. Đánh giá qua đường cong ROC và chỉ số AUC

5.3. Ứng dụng mô hình dự báo cho 100 trường hợp thực tế

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Kinh Tế Quốc Dân

Chuyên ngành: Phân Tích Dữ Liệu

Đề tài: Phân Tích Dữ Liệu Nhân Sự: Dự Đoán Khả Năng Rời Bỏ Nhân Viên Qua Phần Mềm Orange

Loại tài liệu: Đồ Án Tốt Nghiệp

Năm xuất bản: 2023

Địa điểm: Hà Nội

Phân Tích Dữ Liệu Nhân Sự: Dự Đoán Khả Năng Rời Bỏ Nhân Viên Qua Phần Mềm Orange

I. Khám Phá Khoa Học Dữ Liệu Trong Phân Tích Nhân Sự

1.1. Hiểu đúng về Employee Attrition trong quản trị nhân sự

1.2. Tầm quan trọng của việc dự báo sớm nhân viên nghỉ việc

II. Thách Thức Khi Tỷ Lệ Rời Bỏ Nhân Viên Tăng Cao

2.1. Tổn thất tài chính Chi phí tuyển dụng và đào tạo lại

2.2. Ảnh hưởng vô hình Mất kiến thức và suy giảm tinh thần

III. Hướng Dẫn Tiền Xử Lý Dữ Liệu Attrition Bằng Orange

3.1. Nạp và khám phá bộ dữ liệu Employee Attrition

3.2. Phân chia dữ liệu Tạo tập huấn luyện và kiểm thử

IV. Phương Pháp Dự Đoán Khả Năng Rời Bỏ Nhân Viên Hiệu Quả

4.1. Xây dựng các mô hình phân lớp Logistic Tree SVM

4.2. Đánh giá và so sánh mô hình bằng Test Score

V. Kết Quả Nghiên Cứu Dự Đoán Rời Bỏ Nhân Viên Từ UEH

5.1. Phân tích Ma trận nhầm lẫn và sai lầm dự báo

5.2. Đánh giá qua đường cong ROC và chỉ số AUC

5.3. Ứng dụng mô hình dự báo cho 100 trường hợp thực tế

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Kinh Tế Quốc Dân

Chuyên ngành: Phân Tích Dữ Liệu

Đề tài: Phân Tích Dữ Liệu Nhân Sự: Dự Đoán Khả Năng Rời Bỏ Nhân Viên Qua Phần Mềm Orange

Loại tài liệu: Đồ Án Tốt Nghiệp

Năm xuất bản: 2023

Địa điểm: Hà Nội

Có thể bạn quan tâm