Tư Vấn Chọn Ngành Học Tại Học Viện CNTT NIIT-ICT HN Sử Dụng Phương Pháp Học Máy

Tài liệu nghiên cứu Tư vấn chọn ngành học tại học viện cntt niit ict hn sử dụng phương pháp học máy, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về .

Trường đại học

Trường Đại học Mở Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: PHƯƠNG PHÁP PHÂN LỚP DỮ LIỆU

1.1. Phân lớp dữ liệu. Các phương pháp ứng dụng trong phân lớp dữ liệu

1.2. Một số vấn đề liên quan đến phân lớp dữ liệu

1.2.1. Chuẩn bị dữ liệu cho việc phân lớp

1.2.2. Một số phương pháp đánh giá độ chính xác mô hình phân lớp

1.3. Sử dụng cây quyết định trong phân lớp dữ liệu

1.3.1. Các giai đoạn trong quá trình xây dựng cây quyết định

1.3.2. Các đặc trưng trong phân lớp dữ liệu sử dụng cây quyết định

1.3.2.1. Tránh hiện tượng overfitting

1.4. Các nghiên cứu giải thuật hiện nay

1.5. Phát biểu bài toán của luận văn

2. CHƯƠNG 2: GIẢI THUẬT C4.5 VÀ RANDOM FOREST

2.1. Giới thiệu tổng quan về giải thuật Random Forest

2.2. Các giả định đối với Random Forest

2.3. Lý do sử dụng Random Forest

2.4. Cơ chế làm việc của giải thuật Random Forest

2.5. Chọn thuộc tính phân loại tốt nhất

2.6. Xử lý những giá trị thiếu trong C4.5 là một giải thuật hiệu quả cho những tập dữ liệu vừa và nhỏ

2.7. Ưu nhược điểm của cây quyết định trong phân lớp dữ liệu

2.7.1. Ưu điểm của cây quyết định

2.7.2. Nhược điểm của cây quyết định

2.8. Những đặc điểm thiết yếu của giải thuật Random Forest

2.9. Ứng dụng của giải thuật Random Forest

2.10. Khi nào không sử dụng Random Forest

2.11. Ưu điểm của giải thuật Random Forest

2.12. Nhược điểm của giải thuật Random Forest

2.13. Các hyperparameter quan trọng

2.14. Đánh giá độ hiệu quả của thuật giải dùng ma trận nhầm lẫn

2.15. Kết luận chương 2

3. CHƯƠNG 3: PHÂN LỚP DỮ LIỆU HỌC VIÊN PHỤC VỤ CHO CÔNG TÁC TƯ VẤN CHỌN NGÀNH HỌC

3.1. Khảo sát và thu thập dữ liệu

3.2. Xử lý dữ liệu

3.3. Trích chọn đặc trưng. Chuyển đổi dữ liệu

3.4. Làm sạch dữ liệu. Sử dụng giải thuật C4.5 để tiến hành phân lớp dữ liệu học viên

3.5. Áp dụng giải thuật

3.6. Xây dựng cây quyết định

3.7. Chọn các Node trong cấp 1

3.8. Chọn các Node trong cấp 2

3.9. Kết quả của việc áp dụng giải thuật

3.10. Phân lớp học viên sử dụng giải thuật Random Forest

3.11. Giới thiệu một số ngôn ngữ trong khai phá dữ liệu

3.11.1. Giới thiệu về ngôn ngữ R

3.11.2. Giới thiệu về ngôn ngữ Python

3.11.3. Giới thiệu về phần mềm Weka

3.12. Kết quả thực nghiệm

3.12.1. Chạy giải thuật J48 trên ngôn ngữ Weka

3.12.2. Chạy giải thuật Random Forest trên công cụ Weka

3.13. Ứng dụng demo

3.13.1. Áp dụng kết quả đề tài vào thực tiễn Học viện NIIT-ICT HN

3.13.2. Thực trạng hiện tại

3.13.3. Kết quả sau khi áp dụng kết quả đề tài

3.14. Kết luận chương 3

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Hướng Dẫn Chọn Ngành Học Tại Học Viện CNTT NIIT ICT HN

Chọn ngành học là một quyết định quan trọng trong cuộc đời mỗi người. Tại Học viện CNTT NIIT-ICT HN, việc lựa chọn ngành học phù hợp không chỉ giúp sinh viên phát triển kỹ năng mà còn mở ra nhiều cơ hội nghề nghiệp. Bài viết này sẽ hướng dẫn cách chọn ngành học hiệu quả bằng phương pháp học máy.

1.1. Tổng Quan Về Học Viện CNTT NIIT ICT HN

Học viện CNTT NIIT-ICT HN là một trong những cơ sở đào tạo hàng đầu về công nghệ thông tin tại Việt Nam. Với chương trình học đa dạng và đội ngũ giảng viên chất lượng, học viện cam kết cung cấp cho sinh viên những kiến thức và kỹ năng cần thiết để thành công trong ngành CNTT.

1.2. Tại Sao Nên Chọn Ngành Học CNTT

Ngành học CNTT đang ngày càng trở nên phổ biến và cần thiết trong thời đại công nghệ số. Nhu cầu nhân lực trong lĩnh vực này rất lớn, với nhiều cơ hội việc làm hấp dẫn và mức lương cao. Học viên có thể lựa chọn từ nhiều chuyên ngành khác nhau như lập trình, an ninh mạng, và quản trị hệ thống.

II. Vấn Đề Trong Việc Chọn Ngành Học Tại Học Viện CNTT NIIT ICT HN

Việc chọn ngành học không hề đơn giản. Nhiều học viên gặp khó khăn trong việc xác định ngành học phù hợp với sở thích và năng lực của bản thân. Điều này có thể dẫn đến việc học không hiệu quả và lãng phí thời gian.

2.1. Những Thách Thức Khi Lựa Chọn Ngành Học

Học viên thường phải đối mặt với nhiều thách thức như thiếu thông tin về các ngành học, áp lực từ gia đình và xã hội, cũng như sự không chắc chắn về tương lai nghề nghiệp. Những yếu tố này có thể ảnh hưởng đến quyết định cuối cùng của họ.

2.2. Tầm Quan Trọng Của Việc Tư Vấn Ngành Học

Tư vấn ngành học là một bước quan trọng giúp học viên có cái nhìn rõ ràng hơn về các lựa chọn của mình. Việc này không chỉ giúp họ hiểu rõ hơn về các ngành học mà còn giúp họ tự tin hơn trong quyết định của mình.

III. Phương Pháp Học Máy Trong Tư Vấn Chọn Ngành Học

Phương pháp học máy đang được áp dụng rộng rãi trong việc phân tích dữ liệu và tư vấn chọn ngành học. Bằng cách sử dụng các thuật toán học máy, học viện có thể phân tích dữ liệu học viên để đưa ra những gợi ý chính xác hơn.

3.1. Giới Thiệu Về Phương Pháp Học Máy

Học máy là một lĩnh vực con của trí tuệ nhân tạo, cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình cụ thể. Các thuật toán học máy như cây quyết định và Random Forest có thể được sử dụng để phân loại và dự đoán ngành học phù hợp cho học viên.

3.2. Ứng Dụng Của Học Máy Trong Tư Vấn Ngành Học

Học máy có thể giúp phân tích các yếu tố như độ tuổi, giới tính, và thiên hướng của học viên để đưa ra những gợi ý ngành học phù hợp. Điều này không chỉ giúp học viên chọn đúng ngành mà còn nâng cao hiệu quả học tập.

IV. Kết Quả Nghiên Cứu Về Tư Vấn Chọn Ngành Học

Nghiên cứu cho thấy việc áp dụng phương pháp học máy trong tư vấn chọn ngành học tại Học viện CNTT NIIT-ICT HN đã mang lại nhiều kết quả tích cực. Học viên có thể đưa ra quyết định chính xác hơn về ngành học của mình.

4.1. Kết Quả Thực Tế Từ Việc Áp Dụng Học Máy

Sau khi áp dụng phương pháp học máy, tỷ lệ học viên chọn đúng ngành học đã tăng lên đáng kể. Điều này cho thấy hiệu quả của việc sử dụng công nghệ trong tư vấn giáo dục.

4.2. Phân Tích Dữ Liệu Học Viên

Phân tích dữ liệu học viên cho thấy các yếu tố như thiên hướng và độ tuổi có ảnh hưởng lớn đến quyết định chọn ngành học. Việc hiểu rõ những yếu tố này giúp cải thiện quy trình tư vấn.

V. Kết Luận Về Tương Lai Của Ngành Học CNTT

Ngành học CNTT sẽ tiếp tục phát triển mạnh mẽ trong tương lai. Việc áp dụng công nghệ và phương pháp học máy trong tư vấn chọn ngành học sẽ giúp học viên có những quyết định đúng đắn hơn.

5.1. Xu Hướng Ngành CNTT Trong Tương Lai

Ngành CNTT sẽ tiếp tục mở rộng với nhiều cơ hội việc làm mới. Học viên cần nắm bắt xu hướng này để có thể chọn ngành học phù hợp.

5.2. Tầm Quan Trọng Của Tư Vấn Ngành Học

Tư vấn ngành học sẽ ngày càng trở nên quan trọng hơn trong việc giúp học viên định hướng tương lai. Việc sử dụng công nghệ sẽ hỗ trợ quá trình này hiệu quả hơn.

14/07/2025

Bạn đang xem trước tài liệu:

Tư vấn chọn ngành học tại học viện cntt niit ict hn sử dụng phương pháp học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh ngành Công nghệ Thông tin (CNTT) ngày càng phát triển mạnh mẽ, nhu cầu học tập và đào tạo nhân lực trong lĩnh vực này tăng lên đáng kể. Theo ước tính, số lượng học viên đăng ký học CNTT tại các cơ sở đào tạo, đặc biệt là các học viện ngoài công lập như NIIT-ICT Hà Nội, đã tăng lên khoảng 5000 bản ghi trong 5 năm gần nhất (2018-2022). Tuy nhiên, việc lựa chọn ngành học phù hợp trong CNTT vẫn là một thách thức lớn do sự đa dạng của các chuyên ngành như lập trình, kiểm thử phần mềm, quản trị mạng, v.v. Nhiều học viên chưa chọn đúng ngành học dẫn đến hiệu quả học tập thấp, không phát huy được năng lực và gây lãng phí nguồn lực xã hội.

Luận văn tập trung vào việc ứng dụng các phương pháp học máy, cụ thể là giải thuật cây quyết định C4.5 và giải thuật Random Forest, để phân lớp dữ liệu học viên tại Học viện CNTT NIIT-ICT Hà Nội. Mục tiêu chính là xây dựng mô hình phân lớp dựa trên 5 đặc trưng quan trọng gồm thiên hướng, độ tuổi, giới tính, trình độ và vùng miền nhằm tư vấn chọn ngành học phù hợp, nâng cao hiệu quả đào tạo và giảm thiểu sai lệch trong lựa chọn ngành học. Phạm vi nghiên cứu bao gồm dữ liệu tuyển sinh hệ dài hạn của học viện trong giai đoạn 2018-2022 với 217 bản ghi đã được làm sạch và chọn lọc.

Nghiên cứu có ý nghĩa thiết thực trong việc hỗ trợ công tác tư vấn tuyển sinh, giúp học viên lựa chọn ngành học phù hợp với năng lực và sở thích, từ đó nâng cao tỷ lệ học viên tốt nghiệp đúng ngành và khả năng làm việc hiệu quả sau đào tạo. Đồng thời, kết quả nghiên cứu cũng góp phần phát triển ứng dụng học máy trong lĩnh vực giáo dục và đào tạo CNTT tại Việt Nam.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình nghiên cứu chính trong học máy:

Giải thuật cây quyết định C4.5: Đây là một giải thuật học máy dựa trên cây quyết định, được phát triển bởi Ross Quinlan, cho phép xử lý dữ liệu có thuộc tính rời rạc và liên tục, xử lý giá trị thiếu và hỗ trợ kỹ thuật cắt tỉa cây (pruning) để tránh hiện tượng overfitting. C4.5 sử dụng các chỉ số như Entropy, Information Gain và Gain Ratio để chọn thuộc tính phân loại tốt nhất tại mỗi nút cây.
Giải thuật Random Forest: Là một phương pháp ensemble learning kết hợp nhiều cây quyết định được xây dựng trên các mẫu dữ liệu bootstrap khác nhau. Random Forest sử dụng kỹ thuật Bagging để giảm thiểu overfitting và tăng độ chính xác dự đoán. Giải thuật này có khả năng xử lý dữ liệu lớn, dữ liệu thiếu và đa dạng các biến đầu vào.

Các khái niệm chính được sử dụng trong nghiên cứu bao gồm: Entropy, Gain Ratio, Overfitting, Bagging, Ma trận nhầm lẫn (Confusion Matrix), các chỉ số đánh giá mô hình như độ chính xác (Accuracy), độ nhạy (Recall), độ đặc hiệu (Specificity), và điểm F1.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được sử dụng là cơ sở dữ liệu tuyển sinh học viên hệ dài hạn của Học viện CNTT NIIT-ICT Hà Nội trong giai đoạn 2018-2022, gồm gần 5000 bản ghi thô với 15 đặc trưng. Qua quá trình làm sạch và trích chọn, tập dữ liệu cuối cùng gồm 217 bản ghi với 5 đặc trưng quan trọng: thiên hướng (KHTN, KHXH), độ tuổi (Trẻ, Thanh niên, Trung niên), giới tính (Nam, Nữ), trình độ (PTTH, CDDH, CH), vùng miền (Thành phố, Nông thôn).

Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Làm sạch dữ liệu, loại bỏ các bản ghi không phù hợp, xử lý giá trị thiếu, chuyển đổi dữ liệu sang dạng phù hợp cho phân lớp.
Phân lớp dữ liệu: Áp dụng giải thuật C4.5 và Random Forest để xây dựng mô hình phân lớp dựa trên tập dữ liệu huấn luyện gồm 35 bản ghi mẫu được chọn lọc kỹ lưỡng.
Đánh giá mô hình: Sử dụng ma trận nhầm lẫn và các chỉ số như Accuracy, Precision, Recall, F1-score để so sánh hiệu quả của hai giải thuật.
Timeline nghiên cứu: Thu thập và xử lý dữ liệu trong 3 tháng đầu, xây dựng và huấn luyện mô hình trong 2 tháng tiếp theo, đánh giá và hoàn thiện luận văn trong 3 tháng cuối năm 2023.

Phương pháp chọn mẫu là chọn ngẫu nhiên các bản ghi đại diện cho các nhóm đặc trưng khác nhau nhằm đảm bảo tính đa dạng và đại diện cho toàn bộ dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thuộc tính thiên hướng (TH) có ảnh hưởng lớn nhất đến việc chọn ngành học: Qua tính toán Gain Ratio, thuộc tính TH đạt giá trị 0.21, cao nhất trong số 5 đặc trưng, cho thấy học viên có thiên hướng khoa học tự nhiên (KHTN) có xu hướng chọn ngành Lập trình, trong khi thiên hướng khoa học xã hội (KHXH) có xu hướng chọn ngành Kiểm thử.
Giới tính (GT) và trình độ (TĐ) là các yếu tố phân loại quan trọng tiếp theo: Trong nhánh TH = KHTN, thuộc tính GT có Gain Ratio 0.37 và TĐ có Gain Ratio 0.47, cho thấy học viên nam và có trình độ cao đẳng - đại học hoặc cao học có xu hướng chọn ngành Lập trình cao hơn học viên nữ.
Độ tuổi (ĐT) và vùng miền (VM) cũng ảnh hưởng đến lựa chọn ngành học: Độ tuổi thanh niên và trung niên có xu hướng chọn ngành Lập trình với tỷ lệ Entropy = 0, tức là phân lớp rõ ràng, trong khi học viên trẻ tuổi có sự phân bố ngành học đa dạng hơn tùy theo vùng miền.
Hiệu quả mô hình phân lớp: Giải thuật Random Forest cho độ chính xác cao hơn so với C4.5, với độ chính xác khoảng 85% so với 78% của C4.5 trên tập dữ liệu kiểm tra. Ma trận nhầm lẫn cho thấy Random Forest giảm tỷ lệ sai phân lớp (false positive và false negative) đáng kể, giúp tư vấn chọn ngành chính xác hơn.

Thảo luận kết quả

Kết quả cho thấy việc sử dụng các giải thuật học máy trong phân lớp dữ liệu học viên là khả thi và hiệu quả trong việc hỗ trợ tư vấn chọn ngành học. Thuộc tính thiên hướng được xác định là yếu tố quyết định hàng đầu, phù hợp với thực tế rằng sở thích và năng lực cá nhân ảnh hưởng lớn đến lựa chọn ngành nghề.

So sánh với các nghiên cứu trong lĩnh vực giáo dục và học máy, kết quả tương đồng với báo cáo của ngành khi nhấn mạnh vai trò của các đặc trưng cá nhân trong dự báo lựa chọn ngành học. Việc Random Forest vượt trội hơn C4.5 về độ chính xác cũng phù hợp với đặc điểm kỹ thuật của giải thuật này trong việc giảm overfitting và xử lý dữ liệu phức tạp.

Dữ liệu có thể được trình bày qua biểu đồ Gain Ratio so sánh các đặc trưng, biểu đồ cây quyết định minh họa các nút phân tách, và bảng ma trận nhầm lẫn thể hiện hiệu quả phân lớp của từng giải thuật. Những biểu đồ này giúp trực quan hóa quá trình phân lớp và hỗ trợ việc giải thích kết quả cho các bên liên quan.

Đề xuất và khuyến nghị

Triển khai hệ thống tư vấn chọn ngành học dựa trên mô hình Random Forest: Xây dựng phần mềm ứng dụng tại Học viện NIIT-ICT Hà Nội để hỗ trợ tư vấn viên và học viên trong việc lựa chọn ngành học phù hợp, nhằm nâng cao tỷ lệ học viên học đúng ngành và phát huy năng lực cá nhân. Thời gian thực hiện dự kiến 6 tháng.
Mở rộng thu thập dữ liệu và bổ sung đặc trưng: Tăng cường thu thập dữ liệu tuyển sinh với nhiều đặc trưng hơn như năng lực học tập, sở thích cá nhân, điều kiện kinh tế để nâng cao độ chính xác mô hình. Chủ thể thực hiện là phòng tuyển sinh và bộ phận CNTT của học viện trong vòng 1 năm.
Đào tạo và nâng cao năng lực cho đội ngũ tư vấn viên: Tổ chức các khóa đào tạo về ứng dụng học máy và phân tích dữ liệu cho cán bộ tư vấn tuyển sinh nhằm nâng cao chất lượng tư vấn và sử dụng hiệu quả công cụ hỗ trợ. Thời gian đào tạo 3 tháng.
Nghiên cứu mở rộng ứng dụng mô hình sang các lĩnh vực đào tạo khác: Áp dụng mô hình phân lớp dữ liệu học viên cho các ngành học khác trong lĩnh vực CNTT và các ngành nghề khác để đa dạng hóa công cụ tư vấn. Thời gian nghiên cứu mở rộng 1-2 năm.

Đối tượng nên tham khảo luận văn

Cán bộ tư vấn tuyển sinh và quản lý đào tạo tại các học viện, trường đại học CNTT: Giúp nâng cao hiệu quả công tác tư vấn, giảm thiểu sai lệch trong lựa chọn ngành học, từ đó cải thiện chất lượng đào tạo và tỷ lệ sinh viên tốt nghiệp đúng ngành.
Nhà nghiên cứu và chuyên gia trong lĩnh vực học máy và khai phá dữ liệu: Cung cấp một case study thực tiễn về ứng dụng giải thuật C4.5 và Random Forest trong phân lớp dữ liệu giáo dục, làm cơ sở cho các nghiên cứu phát triển thuật toán và ứng dụng mới.
Sinh viên và học viên ngành Công nghệ Thông tin, Khoa học dữ liệu: Tham khảo phương pháp nghiên cứu, quy trình xử lý dữ liệu, xây dựng mô hình phân lớp và đánh giá hiệu quả mô hình trong thực tế.
Các tổ chức đào tạo và doanh nghiệp tuyển dụng nhân lực CNTT: Sử dụng kết quả nghiên cứu để xây dựng hệ thống đánh giá, phân loại ứng viên dựa trên đặc trưng cá nhân, hỗ trợ tuyển dụng và đào tạo phù hợp.

Câu hỏi thường gặp

Tại sao chọn giải thuật C4.5 và Random Forest để phân lớp dữ liệu học viên?
C4.5 là giải thuật cây quyết định phổ biến, dễ hiểu và xử lý tốt dữ liệu nhỏ, còn Random Forest là phương pháp ensemble giúp tăng độ chính xác và giảm overfitting, phù hợp với dữ liệu phức tạp và lớn. Kết hợp hai giải thuật giúp so sánh và lựa chọn mô hình tối ưu.
Dữ liệu nghiên cứu có đủ đại diện cho toàn bộ học viên không?
Dữ liệu gồm 217 bản ghi đã được làm sạch từ gần 5000 bản ghi thô, chọn lọc theo 5 đặc trưng quan trọng. Mặc dù số lượng không lớn, nhưng đã đảm bảo tính đa dạng và đại diện cho các nhóm học viên chính tại học viện trong 5 năm.
Làm thế nào để đánh giá độ chính xác của mô hình phân lớp?
Sử dụng ma trận nhầm lẫn để tính các chỉ số như độ chính xác (Accuracy), độ nhạy (Recall), độ đặc hiệu (Specificity), và điểm F1. Ví dụ, Random Forest đạt độ chính xác khoảng 85%, cao hơn so với 78% của C4.5.
Giải thuật Random Forest có thể áp dụng cho các ngành học khác không?
Có, Random Forest là giải thuật linh hoạt, có thể áp dụng cho nhiều bài toán phân lớp trong giáo dục và các lĩnh vực khác, miễn là có dữ liệu đầu vào phù hợp và được xử lý đúng cách.
Làm thế nào để tránh hiện tượng overfitting trong mô hình cây quyết định?
Áp dụng kỹ thuật cắt tỉa cây (pruning) sau khi xây dựng cây, hoặc sử dụng các phương pháp ensemble như Random Forest để giảm thiểu overfitting và tăng tính ổn định của mô hình.

Kết luận

Luận văn đã xây dựng thành công mô hình phân lớp dữ liệu học viên tại Học viện CNTT NIIT-ICT Hà Nội dựa trên giải thuật C4.5 và Random Forest với 5 đặc trưng chính.
Thuộc tính thiên hướng, trình độ và giới tính là các yếu tố quan trọng ảnh hưởng đến lựa chọn ngành học của học viên.
Giải thuật Random Forest cho kết quả phân lớp chính xác hơn, giảm thiểu sai số so với C4.5.
Kết quả nghiên cứu có ý nghĩa thực tiễn trong việc hỗ trợ tư vấn chọn ngành học, nâng cao hiệu quả đào tạo và giảm lãng phí nguồn lực.
Đề xuất triển khai hệ thống tư vấn dựa trên mô hình Random Forest, mở rộng thu thập dữ liệu và đào tạo đội ngũ tư vấn viên là các bước tiếp theo cần thực hiện.

Học viện và các tổ chức đào tạo nên áp dụng kết quả nghiên cứu để cải thiện công tác tư vấn tuyển sinh, đồng thời tiếp tục nghiên cứu mở rộng ứng dụng học máy trong giáo dục nhằm nâng cao chất lượng đào tạo và đáp ứng nhu cầu phát triển nguồn nhân lực CNTT trong tương lai.

Trích đoạn nội dung tài liệu

Chương 1 cũng đưa ra một số đánh giá về những điểm mạnh và điểm yếu của cây quyết định trong mô hình phân lớp dữ liệu. Ngoài ra, chương 1 còn giới thiệu một số giải thuật đã và đang được sử dụng rộng rãi trong các mô hình phân lớp hiện nay. Một số mục quan trọng như mục tiêu, đối tượng, phạm vi nghiên cứu và phát biểu bài toán của luận văn cũng đã được trình bày trong chương 1.5 VÀ GIẢI THUẬT RANDOM FOREST 2. Tổng quan Giải thuật C4.5 là một giải thuật học máy bằng cây quyết định được phát triển bởi Ross Quinlan.Ross Quinlan đã phát triển giải thuật C4.5 với khoảng 9000 dòng lệnh C.

Cây quyết định được tạo ra bởi C4.5 có thể được sử dụng cho bài toán phân lớp [20].5 đã có nhiều cải tiến so với giải thuật ID3 như: Cho phép xử lý cả các thuộc tính tiếp diễn và rời rạc Xử lý được những thiếu sót trong training data với những giá trị thiếu Hỗ trợ việc xử lý cắt cây (pruning tree) sau khi tạo Giải thuật J48 là một bản cài đặt giải thuật C4.5 được sử dụng với công cụ Weka và là một phiên bản được viết bằng Java.5 là giải thuật phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng dụng xử lý và thao tác với những tập dữ liệu có kích thước nhỏ.5 phù hợp với những cơ sở dữ liệu nhỏ, và có khả năng sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định.5 chọn thuộc tính phân loại tốt nhất Trong quá trình xây dựng cây quyết định, tác vụ quan trọng nhất là ta cần chọn thuộc tính tốt nhất để phân hoạch dữ liệu. Trong quá trình xây dựng cây, ta cần tiến hành phân hoạch dữ liệu sao cho kết quả thu được cây nhỏ nhất, điều này sẽ phụ thuộc vào việc chọn thuộc tính sinh ra các nút thuần khiết nhất. Ở đây ta tìm hiểu và sử dụng giải thuật học máy dựa trên cây quyết định tiêu biểu là giải thuật C4. Dưới đây là công thức (2.1): k I S     Pi log 2 Pi  (2.1) i 1 11 Dưới đây là công thức tính độ đo hỗn loạn (2.2) i 1 S Độ lợi thông tin (informartion gain) khi chọn thuộc tính A phân hoạch dữ liệu S thành v phần được tính theo công thức (2.3) Tuy nhiên, khi dữ liệu có thuộc tính có nhiều giá trị hơn các thuộc tính khác, độ lợi thông tin tăng trên các thuộc tính có nhiều giá trị phân hoạch.

Giả sử khi sử dụng thuộc tính A phân hoạch dữ liệu S thành v phần, thông tin của phân phối dữ liệu được tính như công thức (2.4): v Si Si P S     log 2 ( 2.4) i 1 S S Và tỉ số độ lợi được tính như công thức (2. Xử lý những giá trị thiếu trong C4.5 Trong quá trình xử lý các tệp dữ liệu, từ những bài toán đơn giản cho đến những bài toán phức tạp, không thể tránh khỏi việc có dữ liệu thiếu (missing data) trong tệp dữ liệu. Dữ liệu thiếu là giá trị của thuộc tính không có do lỗi trong quá trình nhập bản ghi vào cơ sở dữ liệu (có thể nhập qua biểu mẫu ứng dụng hoặc nhập trực tiếp vào cơ sở dữ liệu). Khi đó độ đo độ lợi thông tin của test B giảm vì chúng ta không phân được lớp nào từ các case trong S0 và được tính theo công thức 2.

Ƣu nhƣợc điểm của cây quyết định trong phân lớp dữ liệu 2. Ưu điểm của cây quyết định - Cho phép sinh ra các quy tắc dễ hiểu: Một trong những điểm mạnh của cây quyết định là khả năng sinh ra các quy tắc, những quy tắc này sau đó có thể dễ dàng chuyển đổi được sang dạng tiếng anh, hoặc chuyển thành các câu lệnh SQL. Từ đó sẽ khiến cho quá trình phân lớp trở nên dễ hiểu và dễ mô tả hơn. - Hỗ trợ khả năng tính toán dễ dàng trong quá phân lớp: Các giải thuật được sử dụng để tạo ra cây quyết định thường tạo ra những cây với số phân nhánh thấp và các test đơn giản tại từng node.

Điều này trở thành một ưu điểm nổi trội của cây quyết định, bởi lẽ trong môi trường thương mại, các mô hình dự đoán thường được sử dụng để phân lớp với số lượng dữ liệu cực lớn, thậm chí lên đến hàng tỉ bản ghi. Nhược điểm của cây quyết định Mặc dù có nhiều ưu điểm như đã mô tả ở phần trên, cây quyết định vẫn tồn tại một số điểm yếu. Một trong những điểm yếu nhất của cây quyết định là nó không tỏ ra thích hợp khi thực hiện những bài toán với mục tiêu là dự đoán giá trị của thuộc tính liên tục như doanh số, thu nhập, lãi suất v.v… - Gặp khó khăn hoặc phát sinh lỗi nếu có quá nhiều lớp. Đối với cây quyết định, nếu có quá nhiều lớp thì có thể xảy ra lỗi.

Ngoài ra một số cây quyết định lại chỉ phù hợp khi tiến hành những bài toán phân lớp nhị phân. - Tốn kém khi đào tạo. Khi ta quyết định sử dụng cây quyết định, ta sẽ cần phải chấp nhận sẽ tốn kém hay đắt về mặt tính toán, vì tại mỗi node ta cần tính toán một độ đo trên từng thuộc tính. Giải thuật Random Forest 2.

Giới thiệu tổng quan về giải thuật Random Forest Random Forest là một giải thuật học máy thông dụng thuộc kiểu học có giám sát. Trong đó, thay vì chỉ dựa vào duy nhất một cây quyết định, giải thuật Random Forest sẽ tiến hành dự đoán trên từng cây và dựa trên những dự đoán chiếm ưu thế, nó sẽ dự đoán ra kết quả cuối cùng (final output). Điều quan trọng: Số lượng cây trong rừng càng nhiều, thì độ chính xác sẽ càng cao, và càng hạn chế được vấn đề overfiting. Minh họa cơ chế làm việc của giải thuật Random Forest (Nguồn: https://www.com/machine-learning-random-forest-algorithm) 2.

Lý do sử dụng Random Forest Có một số lý do giải thích tại sao ta nên sử dụng giải thuật Random Forest: Thời gian để thực hiện training ít hơn so với các giải thuật khác. Giải thuật Random Forest đưa ra dự đoán kết quả với độ chính xác cao, đồng thời hiệu quả ngay cả với các tệp dữ liệu lớn. 14 Có độ chính xác cao, thậm chí cho phép duy trì độ chính xác ngay cả khi có một lượng lớn dữ liệu bị thiếu. Giảm thiểu độ rủi ro của vấn đề overfitting 2.

Cơ chế làm việc của giải thuật Random Forest Giải thuật Random Forest thực hiện trong hai giai đoạn. Giai đoạn đầu tiên là tạo ra rừng ngẫu nhiên (random forest) bằng cách kết hợp N cây quyết định, giai đoạn thứ hai là đưa ra dự đoán cho từng cây được tạo ra trong giai đoạn đầu. Tiến trình làm việc của giải thuật Random Forest bao gồm các bước như sau: Bước 1: Chọn ngẫu nhiên các samples từ tập dữ liệu đào tạo (training set) Bước 2: Xây dựng các cây quyết định được kết hợp với các training data được chọn Bước 3: Tiến hành voting bằng cách chia trung bình Bước 4: Chọn kết quả dự đoán được vote nhiều nhất để làm kết quả dự đoán cuối cùng. Quá trình kết hợp của nhiều mô hình này còn được gọi là Ensemble.

Ensemble sử dụng hai phương pháp sau: Bagging: Tạo ra một tập con dữ liệu đào tạo khác từ tập dữ liệu đào tạo với sự thay thế. Kết quả cuối cùng được dựa trên giá trị voting chủ yếu. Boosting: Kết hợp các weak learners vào các strong learners bằng cách tạo ra các mô hình tuần tự, nhờ đó mô hình cuối cùng có độ chính xác cao nhất. Ví dụ: ADA BOOST, XG BOOST 15 Hình 2.

Biểu diễn về hai phƣơng pháp Bagging và Boosting (Nguồn: https://www.com/tutorials/machine-learning-tutorial/random-forest-algorithm) Giải thuật Random Forest sử dụng phương pháp Bagging. Bagging còn được biết đến với tên là Bootstrap Aggregation được sử dụng bởi giải thuật Random Forest. Quá trình này bắt đầu với bất kỳ dữ liệu gốc ngẫu nhiên nào. Sau khi sắp xếp, dữ liệu này sẽ được tổ chức thành các samples còn được gọi là Bootstrap Sample.

Quá trình này còn được gọi là Bootstraping. Biểu diễn phƣơng pháp Bagging (Nguồn: https://www.com/tutorials/machine-learning-tutorial/random-forest-algorithm) 2. Những đặc điểm thiết yếu của giải thuật Random Forest - Tính lung tung: Mỗi cây có một thuộc tính duy nhất, có các đặc điểm và tính đa dạng liên quan đến các cây khác. - Tính song song: Ta hoàn toàn có thể sử dụng CPU để xây dựng random forest vì mỗi cây được tạo một cách tự động từ các dữ liệu và tính năng khác nhau.

- Phân chia dữ liệu đào tạo-kiểm tra (Train-Test split): Trong giải thuật Random Forest, ta không cần phải phân biệt giữa dữ liệu cho việc đào tạo và dữ liệu cho test, bởi lẽ cây quyết định sẽ không bao giờ nhìn thấy quá 30% dữ liệu. - Tính ổn định (stability): Kết quả cuối cùng được dựa trên phương pháp Bagging, điều đó có nghĩa là kết quả được dựa trên majority voting hoặc giá trị trung bình. Ứng dụng của giải thuật Random Forest Giải thuật Random Forest có thể được sử dụng trong các lĩnh vực sau: Ngân hàng: Nhận diện rủi ro của các khoản vay. Giúp ngân hàng đưa ra quyết định hoặc phân biệt xem có nên cho khách hàng vay hay không.

Ngoài ra giải thuật cũng giúp phát hiện ra những kẻ lừa đảo. Y dược và chăm sóc sức khỏe: Nhận diện xu hướng dịch bệnh và rủi ro của bệnh. Các chuyên gia y tế có thể sử dụng các hệ thống ứng dụng random forest để 17 giúp chẩn đoán bệnh nhân. Các bệnh nhân được chẩn đoán bằng cách xem lại lịch sử điều trị của họ, để từ đó đưa ra đề xuất sử dụng thuốc cho các bệnh nhân.

Chứng khoán: Các chuyên gia tài chính có thể sử dụng giải thuật Random Forest để nhận diện tiềm năng thị trường của các cổ phiếu. Giải thuật cũng cho phép họ nhớ lại về diễn biến của các cổ phiếu trước đó. Thương mại điện tử: Giúp các hãng dự đoán được sở thích của các khách hàng dựa trên hành vi tiêu thụ trong quá khứ của họ. Khi nào không sử dụng Random Forest Giải thuật Random Forest không phù hợp sử dụng trong những tình huống sau: Ngoại suy: Hồi quy Random Forest không lý tưởng đối với dữ liệu ngoại suy.

Không giống như hồi quy tuyến tính vốn sử dụng những quan sát đã có sẵn để dự đoán các giá trị vượt ra miền các quan sát [17]. Dữ liệu thưa thớt: Random Forest không cung cấp kết quả tốt khi dữ liệu bị thưa thớt. Trong trường hợp này, đối tượng của các đặc trưng và các bootstrap sample sẽ có một khoảng trống bất biến. Điều này sẽ dẫn đến sự không hiệu quả, từ đó sẽ tác động đến kết quả.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Hướng Dẫn Chọn Ngành Học Tại Học Viện CNTT NIIT-ICT HN Bằng Phương Pháp Học Máy" cung cấp những thông tin hữu ích cho sinh viên đang phân vân trong việc lựa chọn ngành học phù hợp. Bằng cách áp dụng các phương pháp học máy, tài liệu này không chỉ giúp sinh viên hiểu rõ hơn về các ngành học tại Học viện CNTT NIIT-ICT mà còn hướng dẫn họ cách đánh giá sở thích và năng lực cá nhân để đưa ra quyết định đúng đắn.

Đặc biệt, tài liệu này mở ra cơ hội cho người đọc tìm hiểu sâu hơn về các ứng dụng của học máy trong giáo dục. Ví dụ, bạn có thể tham khảo Dự đoán điểm học kỳ tiếp theo bằng phương pháp học máy học sâu, nơi bạn sẽ thấy cách học máy có thể dự đoán thành tích học tập. Ngoài ra, tài liệu Nghiên cứu phân cụm dữ liệu với mô hình som và ứng dụng trong tư vấn tuyển sinh đại học sẽ giúp bạn hiểu rõ hơn về cách phân tích dữ liệu trong quá trình tư vấn tuyển sinh. Cuối cùng, bạn có thể khám phá thêm về Luận văn thạc sĩ sử dụng một số thuật toán học máy để dự đoán thành tích học tập của học sinh, cung cấp cái nhìn sâu sắc về việc ứng dụng học máy trong việc đánh giá học sinh.

Những tài liệu này không chỉ mở rộng kiến thức của bạn về học máy mà còn giúp bạn có cái nhìn tổng quan hơn về các ngành học và cơ hội nghề nghiệp trong lĩnh vực công nghệ thông tin.

#phương pháp học máy

#tư vấn chọn ngành học

#đào tạo công nghệ thông tin

#giải thuật random forest

#Cây quyết định C4.5

#Chọn ngành học CNTT

Chủ đề

Ứng dụng học máy trong giáo dục

Hướng dẫn chọn ngành học tại NIIT-ICT

Phân tích dữ liệu học viên

Giải pháp tư vấn ngành học hiệu quả