Phân Tích Dữ Liệu Attrition - Train Dựa Trên Phần Mềm Orange

Phân tích cơ sở dữ liệu attrition train bằng phần mềm Orange giúp tối ưu hóa quy trình và nâng cao hiệu quả trong quản lý dữ liệu.

Chuyên ngành

Phân Tích Dữ Liệu

Người đăng

Ẩn danh

2023

70
5
0

Phí lưu trữ

30 Point

Tóm tắt

I. Hướng Dẫn Toàn Diện Phân Tích Dữ Liệu Attrition Với Orange

Phân tích dữ liệu attrition, hay tỷ lệ nghỉ việc, là một yếu tố then chốt trong quản trị nhân sự hiện đại. Việc hiểu rõ nguyên nhân nhân viên rời bỏ tổ chức không chỉ giúp giảm chi phí tuyển dụng mà còn góp phần xây dựng một môi trường làm việc ổn định và hiệu quả. Nghiên cứu này tập trung vào việc áp dụng học máy (machine learning) để phân tích bộ dữ liệu nhân sự Attrition-Train. Mục tiêu chính là xây dựng một mô hình dự đoán có khả năng xác định các yếu tố ảnh hưởng lớn nhất đến quyết định nghỉ việc của nhân viên. Bằng cách sử dụng phần mềm Orange Data Mining, một công cụ mạnh mẽ với giao diện đồ họa trực quan, quá trình phân tích trở nên dễ tiếp cận hơn, ngay cả với những người không chuyên về lập trình. Orange Data Mining cho phép thực hiện toàn bộ quy trình khoa học dữ liệu, từ tiền xử lý dữ liệu, khám phá, xây dựng mô hình cho đến đánh giá mô hình một cách liền mạch. Đề tài này không chỉ giải quyết bài toán employee churn mà còn là một sáng kiến kinh nghiệm điển hình về việc ứng dụng công nghệ vào HR analytics (phân tích nhân sự). Việc phân tích sâu các biến số như khoảng cách từ nhà, tình trạng hôn nhân, hay số năm làm việc sẽ cung cấp những hiểu biết quý giá, giúp các nhà quản lý đưa ra quyết định chiến lược nhằm giữ chân nhân tài và tối ưu hóa nguồn lực con người. Toàn bộ quy trình, từ việc nạp dữ liệu, làm sạch, trực quan hóa đến so sánh các thuật toán, sẽ được trình bày chi tiết.

1.1. Hiểu rõ Employee Churn và tầm quan trọng trong phân tích nhân sự

Employee churn, hay tỷ lệ nghỉ việc, là chỉ số đo lường số lượng nhân viên rời khỏi một công ty trong một khoảng thời gian nhất định. Đây là một trong những thách thức lớn nhất mà bộ phận nhân sự (HR) phải đối mặt. Tỷ lệ nghỉ việc cao không chỉ gây tốn kém chi phí tuyển dụng và đào tạo nhân viên mới mà còn dẫn đến mất mát kiến thức, giảm năng suất và ảnh hưởng tiêu cực đến tinh thần của các nhân viên còn lại. Do đó, phân tích nhân sự (HR analytics) và đặc biệt là dự đoán nghỉ việc đã trở thành một ưu tiên chiến lược. Việc phân tích dữ liệu attrition giúp doanh nghiệp xác định các mẫu hình và nguyên nhân gốc rễ dẫn đến việc nhân viên ra đi. Thay vì chỉ phản ứng khi sự việc đã xảy ra, các tổ chức có thể chủ động can thiệp, đưa ra các chính sách cải thiện môi trường làm việc, chế độ đãi ngộ, hoặc các chương trình phát triển sự nghiệp phù hợp để giữ chân nhân tài. Việc áp dụng các kỹ thuật khoa học dữ liệu vào bài toán này mang lại lợi thế cạnh tranh đáng kể.

1.2. Giới thiệu Orange Data Mining Công cụ học máy trực quan

Orange Data Mining là một bộ công cụ khai phá dữ liệu và học máy mã nguồn mở, nổi bật với giao diện người dùng đồ họa dựa trên workflow. Thay vì viết code phức tạp, người dùng có thể xây dựng một quy trình phân tích bằng cách kéo và thả các widget Orange và kết nối chúng lại với nhau. Mỗi widget đại diện cho một tác vụ cụ thể như đọc dữ liệu, tiền xử lý, trực quan hóa, huấn luyện mô hình, hoặc đánh giá. Điều này làm cho Orange trở thành một công cụ lý tưởng cho cả người mới bắt đầu và các nhà khoa học dữ liệu chuyên nghiệp muốn nhanh chóng tạo mẫu và thử nghiệm các ý tưởng. Trong bối cảnh phân tích dữ liệu attrition, Orange cung cấp đầy đủ các công cụ cần thiết: từ widget 'File' để nạp dữ liệu, 'Preprocess' để xử lý giá trị thiếu, 'Distributions' và 'Scatter Plot' để trực quan hóa dữ liệu, cho đến các widget mô hình như 'Tree', 'Logistic Regression', và 'Test and Score' để xây dựng và đánh giá mô hình.

II. Thách Thức Khi Tỷ Lệ Nghỉ Việc Tăng Cao Bài Toán Dữ Liệu

Vấn đề nhân viên nghỉ việc sau đào tạo (attrition-training) là một bài toán chi phí và hiệu suất nghiêm trọng đối với mọi tổ chức. Khi một nhân viên được đào tạo bài bản rời đi, công ty không chỉ mất đi một nhân sự mà còn lãng phí toàn bộ nguồn lực đã đầu tư vào quá trình đào tạo đó. Theo tài liệu nghiên cứu, các nguyên nhân chính bao gồm sự thiếu quan tâm sau đào tạo, môi trường làm việc không thân thiện và thiếu cơ hội thăng tiến. Từ góc độ khoa học dữ liệu, thách thức nằm ở việc xác định các yếu tố tiềm ẩn này từ bộ dữ liệu nhân sự thô. Dữ liệu thường chứa nhiều biến số khác nhau, từ thông tin nhân khẩu học (tuổi, giới tính) đến các yếu tố công việc (mức lương, phòng ban, số năm kinh nghiệm). Việc phân tích thủ công để tìm ra mối tương quan giữa hàng chục biến số và quyết định nghỉ việc là gần như không thể. Đây là lúc machine learning phát huy vai trò. Bằng cách xây dựng một predictive model (mô hình dự đoán), chúng ta có thể tự động hóa quá trình này, lượng hóa tầm ảnh hưởng của từng yếu tố và cuối cùng là dự đoán nghỉ việc cho từng cá nhân với một độ chính xác nhất định. Việc giải quyết bài toán này không chỉ giúp giảm tỷ lệ nghỉ việc mà còn cung cấp cơ sở dữ liệu để cải tiến chiến lược quản trị nhân sự tổng thể.

2.1. Phân tích tác động tài chính và kiến thức của employee churn

Tác động của employee churn vượt xa những con số thống kê đơn thuần. Về mặt tài chính, chi phí thay thế một nhân viên có thể lên tới 1.5-2 lần mức lương hàng năm của họ, bao gồm chi phí tuyển dụng, phỏng vấn, đào tạo và thời gian cần thiết để nhân viên mới đạt được năng suất tối đa. Về mặt kiến thức, sự ra đi của nhân viên lâu năm đồng nghĩa với việc mất đi vốn tri thức ngầm (tacit knowledge) và kinh nghiệm quý báu mà không tài liệu nào có thể ghi lại đầy đủ. Sự gián đoạn trong công việc và dự án cũng là một hậu quả khó tránh khỏi, ảnh hưởng đến tiến độ và chất lượng công việc của cả nhóm. Phân tích dữ liệu nhân sự giúp định lượng các tác động này, từ đó nhấn mạnh tầm quan trọng của việc đầu tư vào các chương trình giữ chân nhân viên. Mục tiêu của việc phân tích không chỉ là giảm thiểu chi phí mà còn là bảo vệ và phát triển tài sản tri thức của tổ chức.

2.2. Tại sao dự đoán nghỉ việc là yếu tố sống còn trong HR analytics

Dự đoán nghỉ việc là một trong những ứng dụng giá trị nhất của HR analytics. Thay vì chỉ nhìn lại quá khứ để xem ai đã nghỉ việc và tại sao, phương pháp dự đoán cho phép các nhà quản lý nhân sự hành động trước. Bằng cách xác định những nhân viên có nguy cơ rời đi cao, công ty có thể triển khai các biện pháp can thiệp có mục tiêu, chẳng hạn như một cuộc trao đổi trực tiếp với quản lý, điều chỉnh khối lượng công việc, đề xuất một lộ trình phát triển mới, hoặc xem xét lại chế độ đãi ngộ. Cách tiếp cận chủ động này hiệu quả hơn và ít tốn kém hơn nhiều so với việc cố gắng tuyển dụng người thay thế. Một mô hình dự đoán chính xác hoạt động như một hệ thống cảnh báo sớm, giúp bộ phận nhân sự chuyển từ vai trò hành chính sang vai trò đối tác chiến lược, đóng góp trực tiếp vào sự ổn định và thành công của doanh nghiệp.

III. Cách Tiền Xử Lý Dữ Liệu Nhân Sự Hiệu Quả Trong Orange

Bước đầu tiên và quan trọng nhất trong bất kỳ quy trình phân tích nào là tiền xử lý dữ liệu (data preprocessing). Chất lượng của mô hình dự đoán phụ thuộc trực tiếp vào chất lượng của dữ liệu đầu vào. Trong phần mềm Orange, quy trình này được thực hiện một cách trực quan thông qua một chuỗi các widget. Báo cáo nghiên cứu cho thấy, quá trình bắt đầu bằng việc nạp bộ dữ liệu Attrition-Train thông qua widget 'File'. Sau đó, widget 'Select Columns' được sử dụng để lựa chọn các thuộc tính (features) phù hợp cho việc phân tích, loại bỏ những cột không cần thiết hoặc trùng lặp. Một thách thức phổ biến với dữ liệu nhân sự là sự tồn tại của các giá trị bị thiếu (missing values). Widget Orange 'Preprocess' cung cấp các phương pháp để xử lý vấn đề này, chẳng hạn như thay thế giá trị thiếu bằng giá trị trung bình hoặc trung vị. Sau khi dữ liệu được làm sạch, việc khám phá và trực quan hóa dữ liệu là cần thiết để có cái nhìn tổng quan. Các biểu đồ tròn trong nghiên cứu (ví dụ: tỷ lệ đi công tác, tình trạng hôn nhân) được tạo ra để hiểu rõ hơn về phân phối của các biến. Toàn bộ các bước này được kết nối thành một workflow trong Orange, đảm bảo tính nhất quán và khả năng tái lặp của quy trình.

3.1. Xây dựng workflow trong Orange để làm sạch dữ liệu hiệu quả

Một workflow trong Orange để làm sạch dữ liệu thường bắt đầu với widget 'File' để tải dữ liệu. Dữ liệu sau đó được chuyển đến widget 'Data Info' và 'Data Table' để kiểm tra sơ bộ cấu trúc và nội dung. Bước tiếp theo là sử dụng 'Select Columns' để xác định biến mục tiêu (target variable) - trong trường hợp này là cột 'Attrition' - và các biến độc lập (features). Các cột không liên quan như mã nhân viên có thể được đặt vai trò là 'Meta' hoặc 'Skip'. Sau đó, luồng dữ liệu được đưa vào widget 'Preprocess'. Tại đây, một chuỗi các hành động được định nghĩa, ví dụ: 'Impute Missing Values' (thay thế giá trị thiếu) và 'Discretize' (rời rạc hóa biến liên tục nếu cần). Dữ liệu đã được làm sạch sau đó có thể được lưu lại bằng widget 'Save Data' hoặc chuyển trực tiếp sang các bước trực quan hóa và xây dựng mô hình. Quy trình này đảm bảo rằng dữ liệu được chuẩn bị một cách có hệ thống.

3.2. Kỹ thuật trực quan hóa dữ liệu nhân sự với widget Orange

Trực quan hóa dữ liệu là bước không thể thiếu để khám phá các mẫu hình ẩn. Orange cung cấp một bộ widget trực quan hóa đa dạng. Dựa trên tài liệu gốc, các biểu đồ tròn ('Pie Chart' có thể được tạo từ 'Distributions') được sử dụng để thể hiện tần suất của các biến phân loại như 'BusinessTravel' hay 'MaritalStatus'. Đối với các biến liên tục, 'Box Plot' là một công cụ hữu ích để so sánh sự phân phối của một biến (ví dụ: 'MonthlyIncome') giữa hai nhóm nhân viên 'Nghỉ việc' và 'Không nghỉ việc'. Widget 'Scatter Plot' cho phép khám phá mối quan hệ giữa hai biến liên tục bất kỳ. Bằng cách sử dụng các công cụ này, nhà phân tích có thể nhanh chóng xác định các biến có khả năng ảnh hưởng mạnh đến tỷ lệ nghỉ việc, từ đó định hướng cho việc lựa chọn thuật toán học máy ở giai đoạn sau.

IV. Phương Pháp Xây Dựng Mô Hình Dự Đoán Bằng Machine Learning

Sau khi dữ liệu đã được làm sạch và khám phá, giai đoạn tiếp theo là xây dựng và huấn luyện các mô hình dự đoán bằng machine learning. Nghiên cứu đã ứng dụng nhiều thuật toán phân lớp khác nhau để tìm ra mô hình hiệu quả nhất trong việc dự đoán nghỉ việc. Toàn bộ quá trình này được thực hiện trong Orange một cách trực quan. Đầu tiên, dữ liệu được chia thành hai tập: tập huấn luyện (training set) và tập kiểm tra (testing set) bằng widget 'Data Sampler'. Tập huấn luyện được sử dụng để 'dạy' cho các thuật toán học các mẫu hình từ dữ liệu. Các thuật toán được lựa chọn để so sánh bao gồm Cây Quyết Định (Tree), Hồi quy Logistic (Logistic Regression), và SVM (Support Vector Machine). Mỗi thuật toán này được đại diện bởi một widget riêng trong nhóm 'Model'. Các widget mô hình này được kết nối với dữ liệu huấn luyện. Sau đó, widget 'Test and Score' được sử dụng để áp dụng các mô hình đã được huấn luyện lên tập dữ liệu kiểm tra và đánh giá mô hình dựa trên nhiều chỉ số khác nhau như Độ chính xác (Accuracy), Độ chính xác dự báo (Precision), và Độ bao phủ (Recall). Quá trình này giúp so sánh khách quan hiệu suất của các thuật toán và chọn ra predictive model tốt nhất.

4.1. Áp dụng thuật toán Cây Quyết Định Decision Tree để phân lớp

Cây quyết định (decision tree) là một trong những thuật toán học máy phổ biến và dễ diễn giải nhất. Mô hình này hoạt động bằng cách liên tục chia nhỏ tập dữ liệu thành các tập con dựa trên các thuộc tính có khả năng phân loại tốt nhất. Kết quả là một cấu trúc dạng cây, trong đó mỗi nút đại diện cho một 'bài kiểm tra' trên một thuộc tính (ví dụ: 'Mức lương > X?'), và mỗi nhánh đại diện cho kết quả của bài kiểm tra đó. Các nút lá cuối cùng đại diện cho quyết định phân loại (Nghỉ việc hoặc Không nghỉ việc). Ưu điểm lớn của cây quyết định là tính minh bạch. Các nhà quản lý có thể dễ dàng hiểu được các quy tắc mà mô hình đã học được. Trong Orange, widget 'Tree' xây dựng mô hình này, và 'Tree Viewer' cho phép trực quan hóa cây, giúp hiểu rõ logic đằng sau các dự đoán.

4.2. So sánh hiệu quả giữa Logistic Regression và Random Forest

Logistic Regression là một thuật toán thống kê được sử dụng cho các bài toán phân loại nhị phân. Nó tính toán xác suất một mẫu dữ liệu thuộc về một lớp cụ thể. Đây là một mô hình mạnh mẽ, hiệu quả và cung cấp thông tin về tầm quan trọng của từng biến đầu vào. Trong khi đó, Random Forest là một thuật toán học tập có giám sát thuộc nhóm Ensemble Learning. Nó xây dựng nhiều cây quyết định trên các tập con dữ liệu khác nhau và lấy kết quả trung bình hoặc biểu quyết của chúng để đưa ra dự đoán cuối cùng. Phương pháp này thường cho độ chính xác cao hơn và khả năng chống nhiễu (overfitting) tốt hơn so với một cây quyết định đơn lẻ. Nghiên cứu sử dụng widget 'Test and Score' để so sánh trực tiếp các chỉ số hiệu suất của Logistic Regression, Random Forest và các mô hình khác, từ đó đưa ra lựa chọn thuật toán tối ưu nhất cho bài toán dự đoán nghỉ việc.

V. Bí Quyết Đánh Giá Mô Hình Dự Đoán Nghỉ Việc Chính Xác

Việc xây dựng một mô hình là chưa đủ; đánh giá mô hình (model evaluation) là bước quyết định để xác định độ tin cậy và tính hữu dụng của nó trong thực tế. Báo cáo nghiên cứu đã sử dụng các công cụ đánh giá mạnh mẽ của Orange để kiểm định hiệu suất của các thuật toán. Widget 'Test and Score' là trung tâm của quá trình này, cung cấp một bảng so sánh chi tiết các chỉ số hiệu suất như AUC (Area Under Curve), CA (Classification Accuracy), F1-score, Precision và Recall. Tuy nhiên, chỉ số Accuracy đôi khi không phản ánh đầy đủ hiệu quả, đặc biệt khi dữ liệu mất cân bằng (số người nghỉ việc ít hơn nhiều so với số người ở lại). Do đó, việc phân tích sâu hơn bằng ma trận nhầm lẫn (confusion matrix) là cực kỳ quan trọng. Ma trận nhầm lẫn cho thấy chi tiết số lượng dự đoán đúng và sai cho từng lớp (True Positives, True Negatives, False Positives, False Negatives). Ngoài ra, đường cong ROC (Receiver Operating Characteristic) cũng được sử dụng để đánh giá khả năng phân biệt của mô hình ở các ngưỡng quyết định khác nhau. Các phương pháp này đảm bảo một cái nhìn toàn diện và khách quan về chất lượng của mô hình dự đoán, giúp lựa chọn ra giải pháp tốt nhất.

5.1. Phân tích Ma Trận Nhầm Lẫn Confusion Matrix chi tiết

Widget Confusion Matrix trong Orange là một công cụ trực quan để phân tích lỗi của mô hình. Bảng ma trận này đối chiếu giữa lớp thực tế và lớp được dự đoán. Đối với bài toán dự đoán nghỉ việc, các ô trong ma trận có ý nghĩa cụ thể: True Positives (TP) là số nhân viên nghỉ việc được dự đoán đúng, True Negatives (TN) là số nhân viên không nghỉ việc được dự đoán đúng. Hai loại lỗi quan trọng là: False Positives (FP) - dự đoán nhân viên sẽ nghỉ nhưng thực tế họ không nghỉ, và False Negatives (FN) - dự đoán nhân viên không nghỉ nhưng thực tế họ lại nghỉ. Lỗi FN thường được coi là nghiêm trọng hơn vì nó khiến công ty bỏ lỡ cơ hội can thiệp. Phân tích ma trận này giúp hiểu rõ mô hình đang mắc phải loại sai lầm nào và có thể được dùng để tinh chỉnh ngưỡng quyết định của mô hình.

5.2. Sử dụng đường cong ROC để đánh giá hiệu suất phân loại

Đường cong ROC là một đồ thị biểu diễn hiệu suất của một mô hình phân loại tại tất cả các ngưỡng phân loại. Nó vẽ Tỷ lệ Dương tính Thật (True Positive Rate - Recall) theo Tỷ lệ Dương tính Giả (False Positive Rate). Một mô hình càng tốt thì đường cong của nó càng gần góc trên bên trái của đồ thị. Diện tích dưới đường cong ROC, gọi là AUC, là một chỉ số tổng hợp để đo lường hiệu suất. AUC có giá trị từ 0.5 (dự đoán ngẫu nhiên) đến 1.0 (dự đoán hoàn hảo). Widget 'ROC Analysis' trong Orange cho phép vẽ đường cong ROC của nhiều mô hình trên cùng một biểu đồ, giúp so sánh trực quan và lựa chọn mô hình có khả năng phân loại tổng thể tốt nhất, không phụ thuộc vào một ngưỡng quyết định cụ thể nào.

VI. Tối Ưu Quản Trị Nhân Sự Ứng Dụng HR Analytics Tương Lai

Kết quả từ việc phân tích dữ liệu Attrition bằng Orange Data Mining không chỉ dừng lại ở một báo cáo học thuật. Nó mở ra những ứng dụng thực tiễn to lớn cho ngành quản trị nhân sự. Mô hình dự đoán sau khi được kiểm chứng có thể được tích hợp vào hệ thống thông tin nhân sự (HRIS) của công ty. Hệ thống này có thể tự động tính toán 'điểm nguy cơ' nghỉ việc cho từng nhân viên dựa trên dữ liệu cập nhật liên tục. Điều này cho phép bộ phận HR và các cấp quản lý nhận được cảnh báo sớm và triển khai các hành động giữ chân nhân viên một cách có mục tiêu và hiệu quả. Nghiên cứu cũng nhấn mạnh vào việc dự báo trên 100 mẫu bất kỳ, minh họa cách mô hình có thể được áp dụng trong thực tế để đưa ra các dự đoán cụ thể. Trong tương lai, hướng phát triển của HR analytics sẽ không chỉ là dự đoán nghỉ việc, mà còn mở rộng sang các lĩnh vực khác như dự đoán hiệu suất làm việc, tối ưu hóa quy trình tuyển dụng, và cá nhân hóa lộ trình phát triển cho nhân viên. Việc ứng dụng học máy và khoa học dữ liệu sẽ biến HR từ một bộ phận hỗ trợ thành một đối tác chiến lược, sử dụng dữ liệu để thúc đẩy sự thành công của tổ chức.

6.1. Tổng kết kết quả và ý nghĩa thực tiễn của mô hình dự đoán

Tổng kết từ nghiên cứu cho thấy, việc áp dụng các thuật toán machine learning như Cây Quyết Định, Logistic RegressionRandom Forest trên bộ dữ liệu Attrition-Train mang lại kết quả khả quan. Bằng cách đánh giá mô hình qua các chỉ số như Accuracy, Precision và phân tích ma trận nhầm lẫn, mô hình tốt nhất đã được lựa chọn. Ý nghĩa thực tiễn của kết quả này rất lớn. Doanh nghiệp có thể xác định được các yếu tố chính thúc đẩy tỷ lệ nghỉ việc, ví dụ như mức độ hài lòng, số năm làm việc tại công ty, hay thu nhập hàng tháng. Dựa trên những hiểu biết này, các nhà lãnh đạo có thể điều chỉnh chính sách, cải thiện văn hóa công ty và tạo ra các chương trình phúc lợi hiệu quả hơn. Mô hình này là một công cụ hỗ trợ ra quyết định dựa trên dữ liệu, thay vì dựa trên cảm tính.

6.2. Hướng phát triển Tích hợp học máy vào chiến lược nhân sự

Tương lai của quản trị nhân sự gắn liền với việc tích hợp sâu rộng học máyHR analytics vào các quy trình cốt lõi. Hướng phát triển không chỉ dừng lại ở việc dự đoán. Các mô hình có thể được mở rộng để phân tích nguyên nhân gốc rễ (Root Cause Analysis), giúp hiểu 'tại sao' một nhân viên có nguy cơ nghỉ việc. Phân tích cụm (Clustering) có thể được sử dụng để phân nhóm nhân viên có đặc điểm tương tự, từ đó thiết kế các chiến lược giữ chân riêng biệt cho từng nhóm. Hơn nữa, phân tích văn bản (Text Analytics) trên các khảo sát nhân viên hoặc đánh giá hiệu suất có thể cung cấp những hiểu biết sâu sắc về tâm tư, nguyện vọng của họ. Việc xây dựng một văn hóa dựa trên dữ liệu trong bộ phận HR sẽ là chìa khóa để thu hút, phát triển và giữ chân những nhân tài tốt nhất, tạo ra lợi thế cạnh tranh bền vững cho tổ chức.

10/07/2025

Trích đoạn nội dung tài liệu

ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHOA HỌC DỮ LIỆU Đề tài: PHÂN TÍCH CƠ SỞ DỮ LIỆU ATTRITION - TRAIN DỰA TRÊN PHẦN MỀM ORANGE GVHD: TS.GVC Nguyễn Quốc Hùng Nhóm thực hiện: 2 Đoàn Minh Khiêm (Trưởng nhóm) Nguyễn Võ Đức Minh Nguyễn Thuỳ Dương Trần Việt Nhật Phạm Minh Quang TP. Hồ Chí Minh, Tháng 5/2023 MỤC LỤC LỜI MỞ ĐẦU. 6 Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI.1 Giới thiệu về khoa học dữ liệu.2 Tổng quan về khoa học dữ liệu.3 Sự hình thành và phát triển của khoa học dữ liệu.4 Ứng dụng của khoa học dữ liệu.5 Lý do chọn đề tài. 15 Chương 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG.1 Các phương pháp sử dụng Excel để khai thác dữ liệu:.1 Phương pháp thống kê mô tả.2 Phân tích dự báo.3 Phân tích tối ưu.2 Phần mềm Orange. Tổng quan về phần mềm Orange. Phương pháp phân cụm dữ liệu - Clustering. Phương pháp phân lớp dữ liệu. So sánh hai phương pháp: phân cụm và phân lớp dữ liệu.53 Chương 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ.1 Phân tích dữ liệu.1 Tiền xử lý dữ liệu. Description - mô tả dữ liệu Attrtion - Train. Thống kê mô tả dữ liệu Attrition - Train.2 Phân lớp dữ liệu.1 Một số phương pháp phân lớp.2 Kết quả mô hình.3 Dự báo 100 mẫu bất kì.4 Đánh giá kết quả của mô hình.68 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.69 TÀI LIỆU THAM KHẢO. 70 DANH MỤC HÌNH ẢNH Hình 1.1 "Ứng dụng khoa học dữ liệu trong quảng cáo và tiếp thị".2 "Ứng dụng khoa học dữ liệu trong tài chính và ngân hàng".3 "Ứng dụng khoa học dữ liệu trong y tế".4 "Ứng dụng khoa học dữ liệu trong giao thông vận tải".5 "Ứng dụng khoa học dữ liệu trong E-commerce và bán lẻ".6 "Ứng dụng khoa học dữ liệu trong Công nghiệp và sản xuất".7 "Ứng dụng khoa học dữ liệu trong lĩnh vực xã hội và chính phủ".8 "Ứng dụng khoa học dữ liệu trong giải trí và truyền thông".9 "Ứng dụng khoa học dữ liệu trong nghiên cứu khoa học".10 "Ứng dụng khoa học dữ liệu trong tìm kiếm thông tin".1 Vị trí Subtotal.2 Hộp thoại Subtotal.3 Vị trí Consolidate.4 Vị trí PivotTable.5 Hộp thoại Create PivotTable.6 Hộp thoại PivotTable Fields.7 Hộp thoại Moving Average.8 Hộp thoại Exponential Smoothing.9 Vị trí Scatter.10 Vị trí Add Trendline.11 Hộp thoại Regression.13 Vị trí Solver.14 Hộp thoại Solver Parameters.15 Hộp thoại Solver Results.16 Kết quả giải mô hình.18 Màn hình Orange.19 Nhóm Data trong Orange.20 Xuất file từ tệp có sẵn trên máy tính.21 Hình minh họa Columns (Double click to edit).22 Hình minh họa SQL Table.23 Hình minh họa Data Table.24 Hình minh họa Paint Orange.25 Hộp thoại Data Info.26 Hình minh họa Edit Domain.27 Hình minh họa Color - Orange.28 Hình minh họa Feature Statistics.29 Transform trong Orange.30 Hình minh họa về Data Sample.31 Hình minh họa Pivot Table.32 Vizualize trong Orange.33 Model trong Orange.34 Unsupervized trong Orange.35 Hình minh họa về phân cụm dữ liệu.1: Các bước tiền xử lý dữ liệu.2: Giao diện Datasets dùng để nạp dữ liệu Attrition - Train.3: Dữ liệu Attrition - Train.4 Giao diện Select Columns.5 Giao diện của Preprocess để tiền xử lý dữ liệu bị thiếu.6 Dữ liệu Attrition - Train đã được tiền xử lý từ Select Columns và Preprocess.7 Giao diện Save Data.8 "Biểu đồ tròn thể hiện tỷ lệ đi công tác của 1470 đối tượng".9 "Biểu đồ tròn thể hiện tỷ lệ khoảng cách từ nhà đến công ty".10 "Biểu đồ tròn thể hiện về tình trạng hôn nhân".11 "Biểu đồ tròn thể hiện tổng số năm làm việc".12 "Biểu đồ tròn thể hiện số năm làm việc tại công ty".13 Giới thiệu phân lớp dữ liệu.14 Lấy mẫu từ dữ liệu.15 Mẫu dữ liệu huấn luyện.16 Tập dữ liệu huấn luyện.17 Mô hình so sánh các thuật toán.18 "Bảng kết quả từ Test and Score".19 Mô hình ma trận nhầm lẫn.20 "Kết quả ma trận nhầm lẫn của phương pháp Tree (Cây quyết định)".21" Kết quả ma trận nhầm lẫn của phương pháp hồi quy Logistic Regression".22 "Kết quả ma trận nhầm lẫn của phương pháp SVM".23 Đường cong ROC.24 Lấy 100 mẫu từ dữ liệu.25 "Mô hình dự báo 100 mẫu dữ liệu".26 "Kết quả dự báo của 100 mẫu dữ liệu".68 DANH MỤC BẢNG Bảng 2.1 Các chức năng trong nhóm Model.2 Các chức năng trong nhóm Evaluate.3 Các chức năng của nhóm Unsupervised.1 Ý nghĩa của các biến. Tần số và tần suất của việc đi công tác. Khoảng cách từ nhà tới công ty.4: Tình trạng hôn nhân.5: Tổng số năm làm việc.6: Số năm làm việc tại công ty.61 LỜI MỞ ĐẦU Kính gửi thầy Nguyễn Quốc Hùng Đầu tiên, chúng em xin gửi đôi lời cảm ơn vì đã được dự học phần môn khoa học dữ liệu của thầy. Tuy thời lượng của học phần không nhiều nhưng với những kiến thức quý giá mà thầy đã truyền đạt cho chúng em, chúng em đã hiểu hơn về vai trò và lợi ích của Khoa học dữ liệu đối với đời sống chúng ta hiện nay. Khoa học dữ liệu - một lĩnh vực hứa hẹn của thời đại số hóa và công nghệ thông tin - đã nhanh chóng trở thành một ngành công nghiệp đang phát triển mạnh mẽ và có tầm ảnh hưởng rộng lớn. Với sự tiến bộ của công nghệ và khối lượng dữ liệu khổng lồ được tạo ra hàng ngày, khai thác và phân tích thông tin đã trở thành một nhiệm vụ cực kỳ quan trọng và cần thiết cho sự phát triển của các tổ chức và xã hội. Khoa học dữ liệu không chỉ đơn thuần là việc thu thập dữ liệu và xử lý số liệu, mà còn là một quy trình sáng tạo và phân tích sâu sắc để khám phá các tri thức tiềm ẩn và đưa ra những quyết định thông minh. Từ việc tìm ra mô hình dự báo, phân loại, nhận dạng, đến việc tạo ra hệ thống thông minh và xây dựng các thuật toán học máy, khoa học dữ liệu đóng vai trò then chốt trong việc phân tích và sử dụng thông tin để tạo ra giá trị thực tế. Và để đi sâu hơn vào vấn đề này, nhóm chúng em đã lựa chọn đề tài Atrition - Training và phân tích các cơ sở dữ liệu thông qua phần mềm Orange. "Attrition" (hay còn được gọi là "employee attrition" hoặc "staff attrition") ám chỉ tỷ lệ nhân viên rời bỏ tự nguyện hoặc bị sa thải khỏi một tổ chức trong một khoảng thời gian nhất định. Attrition có thể xảy ra vì nhiều lý do, bao gồm các cơ hội việc làm tốt hơn, không hài lòng với môi trường làm việc, tiến cử nâng lương/khuyến khích không đủ, hoặc các vấn đề cá nhân. "Training" (đào tạo) đề cập đến quá trình cung cấp kiến thức, kỹ năng và năng lực cho nhân viên trong một tổ chức. Mục tiêu của quá trình đào tạo là giúp nhân viên làm việc hiệu quả hơn, đáp ứng yêu cầu công việc và nâng cao sự phát triển chuyên môn của họ. Attrition và training là hai khái niệm quan trọng trong quản lý nhân sự, vì quản lý attrition giúp tổ chức hiểu và giải quyết các vấn đề liên quan đến sự rời bỏ của nhân viên, trong khi training giúp xây dựng và nâng cao năng lực của nhân viên để đáp ứng yêu cầu công việc và mục tiêu tổ chức. Trong đồ án này, đầu tiên chúng em sẽ giới thiệu lý thuyết tổng quan và khoa học dữ liệu và lý do chọn đề tài và phần tiếp theo chúng em sẽ ứng dụng các phương pháp để xử lý dữ liệu về đề tài thông qua phần mềm Orange và phần cuối sẽ là tổng kết, đánh giá kết quả và đưa ra các phương hướng phát triển cho tương lai. BẢNG PHÂN CÔNG CÁC THÀNH VIÊN DANH SÁCH THÀNH VIÊN NHÓM 2 Họ và tên Công việc phụ trách Mức độ hoàn thành Đoàn Minh Khiêm - Tìm bộ dữ liệu, thảo luận đề tài. 100% (Trưởng nhóm) - Xử lý dữ liệu trên Orange - Chương 3,4 - Tổng hợp và chỉnh Word Trần Việt Nhật - Tìm bộ dữ liệu, thảo luận đề tài. 100% - Chương 2 Phạm Minh Quang - Tìm bộ dữ liệu, thảo luận đề tài. 100% - Thiết kế Powerpoint - Chương 1, Lời mở đầu Nguyễn Võ Đức Minh - Tìm bộ dữ liệu, thảo luận đề tài. 100% - Xử lý dữ liệu trên Orange - Chương 3,4 Nguyễn Thuỳ Dương - Tìm bộ dữ liệu, thảo luận đề tài. 100% - Chương 2 Chương 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu - Dữ liệu (Data) là tập hợp các thông tin, sự kiện, số liệu hoặc các yếu tố khác được thu thập, lưu trữ và sử dụng để cung cấp thông tin cho mục đích nghiên cứu, phân tích, quản lý hoặc ra quyết định. Dữ liệu có thể được biểu diễn dưới dạng số học, văn bản, hình ảnh, âm thanh, video hoặc bất kỳ hình thức nào khác. - Dữ liệu có thể được chia thành hai loại chính: • Dữ liệu cấu trúc: Đây là dữ liệu được tổ chức theo một cấu trúc đã được xác định trước, thường được lưu trữ trong cơ sở dữ liệu quan hệ hoặc bảng tính. Dữ liệu cấu trúc có các trường và mục tiêu rõ ràng, và có thể được truy xuất và xử lý bằng các công cụ phân tích dữ liệu và ngôn ngữ truy vấn. • Dữ liệu phi cấu trúc: Đây là dữ liệu không tuân theo một cấu trúc rõ ràng hoặc không được tổ chức theo mô hình dữ liệu truyền thống. Dữ liệu phi cấu trúc thường được lưu trữ dưới dạng văn bản, tệp tin, email, thông tin từ mạng xã hội và các nguồn dữ liệu không đồng nhất khác. Việc trích xuất thông tin từ dữ liệu phi cấu trúc có thể phức tạp hơn và đòi hỏi các phương pháp và công nghệ đặc biệt. Dữ liệu có vai trò quan trọng trong nhiều lĩnh vực, bao gồm khoa học, kinh doanh, y tế, giáo dục, công nghệ và xã hội. Qua việc phân tích và khai thác dữ liệu, chúng ta có thể tìm ra thông tin, mô hình và kiến thức mới, từ đó đưa ra quyết định, dự đoán xu hướng, phát hiện các mối liên hệ và tạo ra giá trị thực tiễn. Tuy nhiên, việc làm việc với dữ liệu cũng đòi hỏi quy trình chuẩn bị, xử lý, bảo mật và đảm bảo tính chính xác và đáng tin cậy của dữ liệu.2 Tổng quan về khoa học dữ liệu Khoa học dữ liệu (Data Science) là một lĩnh vực tương đối mới mẻ nhưng phát triển nhanh chóng trong thời đại số hóa hiện nay. Nó kết hợp các phương pháp, công cụ và kỹ thuật từ các lĩnh vực như thống kê, toán học, máy học và khoa học máy tính để nghiên cứu và hiểu sâu về dữ liệu, phân tích thông tin và rút ra những hiểu biết quan trọng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ