Đề tài nghiên cứu khoa học cấp trường nghiên cứu ứng dụng thuật toán k means trong hỗ trợ phân loại và gợi ý sinh viên lựa chọn chuyên ngành học tập

Nghiên cứu ứng dụng thuật toán k means trong phân loại và gợi ý chuyên ngành học cho sinh viên, nâng cao hiệu quả lựa chọn học tập.

Trường đại học

Trường Đại Học Khoa Học Tự Nhiên

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Đồ Án Tốt Nghiệp

2023

Phí lưu trữ

30 Point

Tóm tắt

I. Cách Thuật Toán K Means Cách Mạng Hóa Lựa Chọn Chuyên Ngành

Trong bối cảnh giáo dục 4.0, việc ứng dụng thuật toán K-Means hỗ trợ sinh viên lựa chọn chuyên ngành học tập đang mở ra một hướng đi mới đầy tiềm năng. Đây là một phương pháp thuộc lĩnh vực khai phá dữ liệu (data mining), cụ thể là kỹ thuật học máy không giám sát, giúp các cơ sở giáo dục đưa ra những gợi ý chính xác và khách quan. Thay vì dựa trên cảm tính hay xu hướng đám đông, hệ thống này phân tích dựa trên dữ liệu học tập thực tế. Nghiên cứu "Nghiên cứu ứng dụng thuật toán K-means trong hỗ trợ phân loại và gợi ý sinh viên lựa chọn chuyên ngành học tập" của ThS. Nguyễn Thị Tâm tại Trường Đại học Mở Hà Nội là một minh chứng điển hình cho tiềm năng này. Đề tài tập trung vào việc xây dựng một mô hình machine learning để phân cụm dữ liệu sinh viên dựa trên điểm số các môn học cơ sở. Mục tiêu chính là tạo ra một hệ thống gợi ý chuyên ngành (recommender system for education) có khả năng cá nhân hóa lộ trình học tập. Hệ thống không chỉ giúp sinh viên nhận diện đúng năng lực, sở trường mà còn hỗ trợ giảng viên và cố vấn học tập trong công tác tư vấn hướng nghiệp bằng AI. Bằng cách nhóm các sinh viên có hồ sơ học tập tương đồng vào cùng một cụm, thuật toán K-Means có thể dự đoán ngành học phù hợp nhất với từng cá nhân, góp phần quan trọng vào việc định hướng tương lai cho sinh viên và nâng cao chất lượng đào tạo.

1.1. Tổng quan về khai phá dữ liệu trong giáo dục hiện đại

Data mining trong giáo dục là quá trình khám phá các mẫu tiềm ẩn và tri thức hữu ích từ khối lượng lớn dữ liệu học thuật. Quy trình này, còn được gọi là Phát hiện tri thức trong cơ sở dữ liệu (KDD), bao gồm nhiều bước: làm sạch dữ liệu, tích hợp, lựa chọn, chuyển đổi, khai phá, ước lượng mẫu và biểu diễn tri thức. Trong đó, khai phá dữ liệu là bước cốt lõi, sử dụng các thuật toán thông minh để trích xuất các mẫu giá trị. Các kỹ thuật phổ biến bao gồm phân lớp, luật kết hợp và đặc biệt là phân cụm. Ứng dụng của nó trong giáo dục rất đa dạng, từ việc dự đoán kết quả học tập của sinh viên, phát hiện các hành vi học tập cần cải thiện, cho đến việc xây dựng các hệ thống hỗ trợ cá nhân hóa. Việc phân tích dữ liệu học tập giúp nhà trường hiểu rõ hơn về sinh viên, từ đó tối ưu hóa chương trình giảng dạy và các hoạt động hỗ trợ, đảm bảo sinh viên có một lộ trình phát triển phù hợp nhất.

1.2. Giới thiệu mô hình K Means và vai trò trong định hướng

Mô hình K-Means là một trong những thuật toán clustering phổ biến và hiệu quả nhất. Nó thuộc nhóm phương pháp phân cụm phân hoạch, hoạt động bằng cách chia một tập hợp N đối tượng dữ liệu thành K cụm riêng biệt. Nguyên tắc cốt lõi là tối thiểu hóa tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến tâm (centroid) của cụm mà nó thuộc về. Trong bối cảnh hướng nghiệp, mỗi sinh viên được biểu diễn như một điểm dữ liệu trong không gian đa chiều, với mỗi chiều là điểm số của một môn học cơ sở. Vai trò của K-Means là nhóm những sinh viên có năng lực học tập tương đồng vào cùng một cụm. Ví dụ, những sinh viên có điểm cao ở các môn lập trình sẽ được nhóm lại với nhau, gợi ý cho họ chuyên ngành Công nghệ phần mềm. Đây là một công cụ mạnh mẽ để thực hiện đặc trưng hóa hồ sơ sinh viên và đưa ra các gợi ý khách quan, dựa trên bằng chứng dữ liệu thay vì các phỏng đoán chủ quan.

II. Thách Thức Khi Lựa Chọn Nghề Nghiệp Của Sinh Viên Hiện Nay

Việc lựa chọn nghề nghiệp là một trong những quyết định quan trọng nhất trong cuộc đời mỗi sinh viên, nhưng cũng là một thách thức lớn. Theo báo cáo của Trường Đại học Mở Hà Nội, sinh viên Khoa Công nghệ thông tin phải chọn chuyên ngành sau khi tích lũy đủ 100/140 tín chỉ. Đây là thời điểm then chốt, nhưng nhiều sinh viên vẫn còn mơ hồ về năng lực và sở thích thực sự của bản thân. Thực trạng cho thấy, các quyết định thường bị ảnh hưởng bởi các yếu tố bên ngoài như xu hướng xã hội, lời khuyên từ bạn bè, hoặc định hướng của gia đình thay vì dựa trên phân tích năng lực cốt lõi. Sự thiếu hụt một công cụ tư vấn hướng nghiệp khoa học và khách quan dẫn đến tình trạng lúng túng cho cả sinh viên và cố vấn học tập. Hậu quả của việc chọn sai chuyên ngành rất nghiêm trọng, không chỉ gây lãng phí thời gian, tiền bạc mà còn ảnh hưởng đến động lực học tập và cơ hội phát triển sự nghiệp sau này. Vấn đề này nhấn mạnh tính cấp thiết của việc xây dựng một hệ thống ứng dụng trí tuệ nhân tạo trong tuyển sinh và định hướng, giúp sinh viên đưa ra quyết định sáng suốt hơn. Một giải pháp dựa trên phân tích hành vi học tập và kết quả thực tế sẽ là cơ sở vững chắc để sinh viên tự tin hơn vào con đường mình đã chọn.

2.1. Khó khăn trong việc định hướng tương lai cho sinh viên

Quá trình định hướng tương lai cho sinh viên hiện nay còn tồn tại nhiều bất cập. Sinh viên thường đối mặt với một biển thông tin về các ngành nghề mà không có công cụ để lọc và đối chiếu với năng lực bản thân. Các buổi tư vấn hướng nghiệp truyền thống tuy hữu ích nhưng thường mang tính đại trà, khó có thể đi sâu vào từng trường hợp cá nhân. Cố vấn học tập, dù có kinh nghiệm, cũng không thể nắm bắt toàn diện quá trình học tập và tiềm năng của hàng trăm sinh viên mà họ phụ trách. Như nghiên cứu đã chỉ ra, "đến thời điểm lựa chọn chuyên ngành sinh viên và cố vấn học tập thường lúng túng". Điều này dẫn đến các lựa chọn cảm tính, thiếu cơ sở khoa học, làm tăng nguy cơ sinh viên phải học lại, chuyển ngành hoặc thậm chí bỏ học, gây ra những hệ lụy tiêu cực cho cả cá nhân và xã hội.

2.2. Sự cần thiết của một hệ thống gợi ý chuyên ngành khách quan

Để giải quyết các thách thức trên, việc xây dựng một hệ thống gợi ý chuyên ngành dựa trên dữ liệu là vô cùng cần thiết. Một hệ thống như vậy sẽ hoạt động như một trợ lý ảo, cung cấp những phân tích khách quan dựa trên lịch sử học tập của mỗi sinh viên. Thay vì những lời khuyên chung chung, hệ thống sẽ chỉ ra các môn học thế mạnh, các cụm kiến thức nổi bật và từ đó đề xuất các chuyên ngành phù hợp nhất. Giải pháp này không thay thế vai trò của cố vấn học tập mà cung cấp cho họ một công cụ mạnh mẽ để có cơ sở dữ liệu khi tư vấn. Theo mục tiêu của đề tài nghiên cứu, hệ thống này "giúp cho sinh viên và giảng viên có thêm căn cứ để đưa ra tư vấn, lựa chọn chuyên ngành phù hợp nhất", từ đó nâng cao hiệu quả của công tác hướng nghiệp và tối ưu hóa nguồn lực đào tạo của nhà trường.

III. Phương Pháp K Means Xây Dựng Mô Hình Machine Learning

Để giải quyết bài toán gợi ý chuyên ngành, thuật toán phân cụm K-Means được lựa chọn làm nền tảng để xây dựng mô hình machine learning. Đây là một thuật toán thuộc nhóm học máy không giám sát, có nghĩa là mô hình tự học và tìm ra cấu trúc trong dữ liệu mà không cần gán nhãn trước. Về nguyên lý, K-Means sẽ phân chia tập dữ liệu sinh viên thành K cụm (trong trường hợp này, K=2 cho mỗi chuyên ngành: 'phù hợp' và 'không phù hợp'). Mỗi sinh viên, được biểu diễn bằng một vector điểm số các môn học cơ sở, sẽ được gán vào cụm có tâm (centroid) gần nhất. Tâm cụm đại diện cho hồ sơ học tập 'lý tưởng' của nhóm đó. Quá trình này được lặp đi lặp lại cho đến khi các tâm cụm ổn định, tức là không còn sự thay đổi đáng kể nào trong việc phân chia các cụm. Một yếu tố quan trọng trong K-Means là việc xác định số cụm K tối ưu, thường được thực hiện qua các phương pháp như Elbow method. Tuy nhiên, trong nghiên cứu này, số cụm được xác định trước dựa trên mục tiêu bài toán. Việc phân tích dữ liệu học tập bằng K-Means cho phép hệ thống tự động nhận diện các nhóm sinh viên có đặc điểm tương đồng, làm cơ sở vững chắc cho việc đưa ra các gợi ý chuyên ngành chính xác.

3.1. Nguyên lý hoạt động của thuật toán phân cụm K Means

Thuật toán K-Means hoạt động qua 4 bước chính. Bước 1: Khởi tạo, chọn ngẫu nhiên K điểm dữ liệu làm các tâm cụm ban đầu. Bước 2: Phân cụm, tính khoảng cách từ mỗi điểm dữ liệu đến K tâm cụm (thường dùng khoảng cách Euclid) và gán mỗi điểm vào cụm có tâm gần nhất. Bước 3: Cập nhật tâm, tính toán lại vị trí tâm của mỗi cụm bằng cách lấy trung bình cộng tất cả các điểm dữ liệu thuộc cụm đó. Bước 4: Lặp lại, quay lại Bước 2 và 3 cho đến khi vị trí các tâm cụm không còn thay đổi hoặc đạt đến số vòng lặp tối đa. Quá trình này đảm bảo rằng tổng phương sai trong mỗi cụm là nhỏ nhất, tạo ra các nhóm đồng nhất nhất có thể. Sự đơn giản và hiệu quả tính toán làm cho K-Means trở thành một lựa chọn lý tưởng cho các bài toán phân cụm dữ liệu sinh viên.

3.2. Vai trò của Centroid clustering và khoảng cách Euclid

K-Means là một ví dụ điển hình của centroid clustering, nơi mỗi cụm được đại diện bởi một vector trung tâm duy nhất, gọi là centroid. Centroid không nhất thiết phải là một điểm dữ liệu thực tế mà là giá trị trung bình của tất cả các điểm trong cụm. Để xác định điểm dữ liệu thuộc về cụm nào, thuật toán sử dụng một độ đo khoảng cách. Khoảng cách Euclid là độ đo phổ biến nhất, được tính bằng căn bậc hai của tổng bình phương chênh lệch giữa các tọa độ tương ứng của hai điểm. Trong bài toán này, công thức được áp dụng để đo lường 'khoảng cách học lực' giữa một sinh viên và tâm của mỗi cụm chuyên ngành. Một sinh viên có khoảng cách Euclid nhỏ đến tâm cụm 'Công nghệ phần mềm' nghĩa là hồ sơ điểm của họ rất gần với hồ sơ 'lý tưởng' của chuyên ngành đó, và do đó, họ sẽ được gợi ý theo học chuyên ngành này.

IV. Case Study Ứng Dụng K Means Tại Đại Học Mở Hà Nội

Nghiên cứu của Trường Đại học Mở Hà Nội đã triển khai thử nghiệm ứng dụng thuật toán K-Means trên dữ liệu điểm thực tế của sinh viên Khoa Công nghệ thông tin. Hệ thống được xây dựng để phân loại và gợi ý 3 chuyên ngành chính: Công nghệ phần mềm, Công nghệ đa phương tiện, và Mạng & Kỹ thuật máy tính. Quá trình bắt đầu bằng việc thu thập và tiền xử lý dữ liệu điểm từ các file excel. Dữ liệu sau đó được làm sạch, chỉ giữ lại điểm của các môn học cơ sở có liên quan trực tiếp đến từng chuyên ngành. Ví dụ, chuyên ngành Công nghệ phần mềm xét các môn: Cơ sở dữ liệu, Cơ sở lập trình, Lập trình hướng đối tượng. Thuật toán K-Means được áp dụng riêng cho từng chuyên ngành, với K=2 cụm: 'Đạt' (có khả năng theo học) và 'Không đạt' (không có khả năng). Tâm cụm ban đầu được khởi tạo với hai ngưỡng điểm rõ ràng, ví dụ, ngưỡng trên là 8.5 và ngưỡng dưới là 4.5. Hệ thống sau đó thực hiện phân cụm dữ liệu sinh viên và trả về kết quả. Kết quả này không chỉ là một danh sách phân loại mà còn là cơ sở để xây dựng hệ thống gợi ý chuyên ngành trực quan cho sinh viên khi họ đăng nhập, giúp cá nhân hóa lộ trình học tập và hỗ trợ ra quyết định một cách hiệu quả.

4.1. Quy trình tiền xử lý và đặc trưng hóa hồ sơ sinh viên

Tiền xử lý dữ liệu là một bước tối quan trọng. Dữ liệu điểm ban đầu được tổng hợp từ nhiều nguồn, sau đó lọc bỏ các môn học chung không liên quan. Một bước lọc quan trọng được thực hiện để loại bỏ những sinh viên không đủ điều kiện xét chuyên ngành (ví dụ, có điểm dưới 4 ở các môn cơ sở). Quá trình này đảm bảo dữ liệu đầu vào cho mô hình là sạch và có liên quan. Sau khi tiền xử lý, mỗi sinh viên được biểu diễn bằng một vector đặc trưng, trong đó mỗi phần tử là điểm số của một môn học cốt lõi. Đây chính là bước đặc trưng hóa hồ sơ sinh viên, chuyển đổi thông tin học tập thành một định dạng số học mà thuật toán K-Means có thể xử lý được. Chất lượng của bước này ảnh hưởng trực tiếp đến độ chính xác của kết quả phân cụm cuối cùng.

4.2. Phân tích kết quả và gợi ý cá nhân hóa lộ trình học tập

Sau khi chạy thuật toán, hệ thống hiển thị kết quả phân cụm cho từng chuyên ngành. Ví dụ, một sinh viên có điểm các môn CSLT, CSDL, LTHDT lần lượt là 6, 6, 6. Do các điểm này gần với ngưỡng dưới (4.5) hơn ngưỡng trên (8.5), sinh viên này sẽ được phân vào cụm 'Không đạt' cho chuyên ngành Công nghệ Phần mềm. Khi sinh viên đăng nhập vào hệ thống, họ sẽ nhận được gợi ý trực tiếp, ví dụ: 'Chuyên ngành phù hợp: Công nghệ Đa phương tiện'. Kết quả này giúp sinh viên có cái nhìn khách quan về điểm mạnh, điểm yếu của mình. Nó không chỉ đơn thuần là dự đoán ngành học, mà còn là một công cụ để cá nhân hóa lộ trình học tập. Sinh viên có thể dựa vào đó để tập trung cải thiện các môn học còn yếu hoặc củng cố thêm kiến thức ở những lĩnh vực mà họ có năng khiếu, từ đó đưa ra lựa chọn chuyên ngành một cách tự tin và có cơ sở.

V. Tương Lai Của Tư Vấn Hướng Nghiệp Bằng AI và Data Mining

Thành công của đề tài nghiên cứu tại Trường Đại học Mở Hà Nội đã khẳng định vai trò và tiềm năng to lớn của việc ứng dụng AI và data mining trong giáo dục. Việc ứng dụng thuật toán K-Means hỗ trợ sinh viên lựa chọn chuyên ngành học tập chỉ là bước khởi đầu. Trong tương lai, các mô hình này có thể được phát triển phức tạp hơn, tích hợp nhiều nguồn dữ liệu hơn ngoài điểm số, chẳng hạn như kết quả trắc nghiệm tính cách, sở thích, hoạt động ngoại khóa, và thậm chí là xu hướng thị trường lao động. Sự kết hợp giữa học máy không giám sát như K-Means và các thuật toán có giám sát có thể tạo ra các hệ thống dự đoán ngành học với độ chính xác cao hơn. Các recommender system for education sẽ ngày càng trở nên thông minh, không chỉ gợi ý chuyên ngành mà còn có thể đề xuất các môn học tự chọn, các khóa học kỹ năng mềm, hoặc các cơ hội thực tập phù hợp. Công nghệ trí tuệ nhân tạo trong tuyển sinh và đào tạo sẽ giúp các trường đại học tối ưu hóa quy trình, giảm tỷ lệ sinh viên bỏ học và nâng cao mức độ hài lòng của người học. Việc định hướng tương lai cho sinh viên sẽ không còn là một bài toán khó mà trở thành một quy trình khoa học, minh bạch và hiệu quả.

5.1. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

Về mặt khoa học, đề tài đã áp dụng thành công một thuật toán clustering kinh điển vào một bài toán thực tiễn trong lĩnh vực giáo dục, chứng minh tính hiệu quả của phương pháp. Về mặt thực tiễn, sản phẩm của đề tài mang lại giá trị trực tiếp cho cả ba đối tượng: sinh viên, giảng viên và nhà trường. Sinh viên có thêm một kênh tham khảo khách quan để lựa chọn nghề nghiệp. Giảng viên và cố vấn học tập có công cụ để hỗ trợ công tác tư vấn. Nhà trường có thể nâng cao chất lượng đào tạo và định hướng. Theo báo cáo, sản phẩm của đề tài bao gồm 01 bài báo khoa học, 01 phần mềm ứng dụng, và hỗ trợ đào tạo 01 đề tài NCKH sinh viên đạt giải và 01 đồ án tốt nghiệp, cho thấy ý nghĩa sâu sắc và tác động tích cực của nghiên cứu.

5.2. Triển vọng phát triển trí tuệ nhân tạo trong định hướng

Triển vọng phát triển của trí tuệ nhân tạo trong tuyển sinh và định hướng là vô cùng rộng mở. Các hệ thống trong tương lai có thể sử dụng các thuật toán phức tạp hơn như DBSCAN để phát hiện các nhóm năng lực đặc biệt hoặc GMM (Gaussian Mixture Model) để phân cụm linh hoạt hơn. Việc tích hợp xử lý ngôn ngữ tự nhiên (NLP) có thể phân tích các bài luận, sơ yếu lý lịch của sinh viên để hiểu sâu hơn về nguyện vọng của họ. Công nghệ AI sẽ giúp tạo ra một hành trình giáo dục siêu cá nhân hóa, nơi mỗi sinh viên được dẫn dắt và hỗ trợ theo một lộ trình được thiết kế riêng, tối ưu hóa tiềm năng và đảm bảo thành công trong tương lai.

10/07/2025

Bạn đang xem trước tài liệu:

Đề tài nghiên cứu khoa học cấp trường nghiên cứu ứng dụng thuật toán k means trong hỗ trợ phân loại và gợi ý sinh viên lựa chọn chuyên ngành học tập

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 Co sở lý thuyết 1. Phát hiện tri thức và khai phá dữ liệu Phát hiện tri thức trong các cơ sở dit liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: phù hợp, có tính mới, có ý nghĩa và có thể hiểu được. Còn khai thác dữ liệu là một bước trong qui trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên biệt với các qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. - Quy trình phát hiện tri thức bao gồm: Chon lọc dit liệu: Đây là giai đoạn tập hợp các dữ liệu được khai thác từ một cơ sở dữ liệu, một kho dữ liệu, thậm chí từ các nguồn ứng dụng khác nhau vào một cơ sở dữ liệu riêng.

Tiền xử lý dữ liệu: Hầu hết các CSDL đều ít nhiều mang tính không nhất quán. Vì vậy khi gom dữ liệu rất có thé mắc một số lỗi như dữ liệu không day đủ, chặt chẽ và không logic (bị trùng lặp, giá trị bị sai lệch, .) nên cần xử lý đữ liệu. Chuyển đổi dữ liệu: dữ liệu sẽ được chuyển đổi về dang thuận tiện để tiến hành các thuật toán khai phá dữ liệu. Khai phá dữ liệu: là sử dụng các kỹ thuật nhằm phát hiện ra các tri thức tiềm an trong dữ liệu.

Một số kỹ thuật được sử dụng đó là: phân lớp, gom cụm, luật kết hop,. Đánh giá kết quả mẫu: Đây là giai đoạn cuối cùng trong tiến trình phát hiện tri thức. Trong giai đoạn này, các mẫu dữ liệu được chiết xuất bởi các phần mềm khai phá dữ liệu. 12 Hình thành và Định nghĩa bài toán » Thu thập và.

Tiền xử lý dữ liệu Khai phá dữ liệu Rat ra các tri thức. x ‘ Phân tích và kiểm định kết quả ki Sử dụng các tri thức phát hiện được Hình 1: Quy trình phát hiện tri thức Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm an trong tập dữ liệu đó. Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD (Knowleadge Discovery in Database) và KDD được xem như 7 quá trình khác nhau theo thứ tự sau: * Lam sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết. * Tích hợp dữ liệu: quá trình hợp nhất dữ liệu thành những kho dữ liệu sau khi đã làm sạch và tiền xử.

® Trích chon dữ liệ rich chọn dit liệu từ những kho dữ liệu và sau đó chuyền đổi về dang thích hợp cho quá trình khai thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu, dữ liệu không đầy đủ v. * Chuyển đổi dit Các dữ liệu được chuyên đổi sang các dạng phù hợp cho quá trình xử lý. * Khai phá dữ liệu: Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu.

13 * _ Ước lượng mẫu: Quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó. * Biểu diễn tri: Quá trình nay sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng. Phân cụm là gì? Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thê gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng cụ thê hay trừu tượng thành lớp các đối tượng tương tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm và phi tương tự với các đối tượng trong các cụm khác.

Thuật toán phân cụm phụ thuộc vào từng tập dữ liệu và mục dich sử dụng kết quả. Phân tích cụm không phải là một nhiệm vụ tự động, mà là một quá trình lặp đi lặp lại dé khám phá kiến thức hoặc tối ưu hóa đa mục tiêu tương tác liên quan đến thử nghiệm và thất bại. Thông thường cần phải sửa đôi các tham số tiền xử lý dữ liệu và mô hình cho đến khi kết quả đạt được các thuộc tính mong muốn. Phân tích cụm là một tác vụ chính của khai phá dữ liệu, và là một kỹ thuật phổ biến trong thống kê phân tích dữ liệu, được dùng trong nhiều lĩnh vực, bao gồm nhận dạng mẫu, phân tích ảnh, truy hồi thông tin, tin sinh học, nén dữ liệu, đồ họa máy tính và học máy.

45 Hình 2: Phan cụm dữ liệu 143. Các bước thực hiện phân cụm. Trước khi bắt đầu phân cụm, ta cần phải làm sạch và tiền xử lý dữ liệu dé đảm bảo tính đúng đắn của kết quả phân cụm. Bước này bao gồm loại bỏ các giá trị thiếu, xử lý giá trị ngoại lai và chuẩn hóa dữ liệu đây gọi là giai đoạn tiền xử lý dữ liệu.

Tiếp theo đó chọn phương pháp phù hợp để phân cụm dữ liệu. Điều này phụ thuộc vào tính chất của dữ liệu và mục tiêu của bài toán. Xác định số lượng cụm: Số lượng cụm phù hợp cũng phụ thuộc vào tính chất của dữ liệu và mục tiêu của bài toán. Có thể sử dụng nhiều phương pháp khác nhau để xác định số lượng cụm, ví dụ như phương pháp Elbow hoặc phương pháp Silhouette.

Thực hiện phân cụm: Sau khi xác định số lượng cụm, sử dụng phương pháp phân cụm để phân loại các điểm dữ liệu vào các cụm. Việc này có thể được thực hiện bằng các thuật toán như K-means, DBSCAN, Hierarchical Clustering. Đánh giá và tỉnh chỉnh: Sau khi phân cụm, đánh giá kết quả đề đảm bảo tính chính xác và đáng tin cậy của kết quả. Nếu kết quả không phù hợp, hãy tỉnh chỉnh các tham số và phương pháp phân cụm để đạt được kết quả tốt hơn.

Sử dụng kết quả: Cuối cùng, sử dụng kết quả phân cụm đề giải quyết bài toán, ví dụ như phân tích các đặc tính và xu hướng của từng cụm hoặc phân loại các điểm dữ liệu mới vào các cụm đã được xác định. Chọn phương pháp phân cụm phù hợp với bài toán ó——}*|_ Xác định số lượng cụm Thực hiện phân cụm v anh giá va tinh chỉnh kết quả sau phân cụm Hình 3: Quy trình hoạt động phân cụm dữ liệu Giai đoạn tiền xử lý dữ liệu là một bước quan trọng trong phân cụm dữ liệu, đảm bảo tính chính xác và đáng tin cậy của kết quả phân cụm. Các bước của tiền xử lý dữ liệu bao gồm: 16 - Xử lý giá trị thiếu: Dữ liệu thiếu có thể làm giảm tính chính xác của kết quả phân cụm. - _ Xử lý giá trị ngoại lai: Giá trị ngoại lai có thé ảnh hưởng đáng ké đến kết quả phân cụm.

Ta có thé sử dụng các phương pháp như cắt tia (trimming) hoặc chuyên đồi giá trị (transformation) dé xử lý giá trị ngoại lai. - Chuẩn hóa dit liệu: Chuẩn hóa dữ liệu giúp đưa các đặc trưng có thang đo khác nhau về cùng một thang do dé đảm bảo tính chính xác của kết quả phân cụm. Có nhiều phương pháp chuẩn hóa dữ liệu, chang hạn như chuẩn hóa min-max, chuẩn hóa z-score, hoặc chuẩn hóa tỷ lệ. Giảm chiều dữ liệu: Nếu dữ liệu có số chiều cao, việc giảm chiều dữ liệu có thể giúp giảm độ phức tạp tính toán và cải thiện hiệu suất phân cụm Lựa chọn đặc trưng: Nếu dữ liệu có nhiều đặc trưng, có thể xem xét lựa chọn đặc trưng đê giảm độ phức tạp tính toán và cải thiện hiệu suất phân cụm.

Xử ly giá trị ngoại lai Vv Chuẩn hóa dữ liệu Vv Giảm chiều dữ liệu y Lựa chọn đặc trưng Kết thúc Hình 4: Các bước tiền xử ly dit liệu 1. Một số phương pháp phân cụm. Một số phương pháp phân cụm điền hình: Phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ, phân cụm dựa trên lưới, phân cụm dựa trên mô hình, phân cụm có ràng buộc, .1 Phân cụm phân hoạch Phương pháp này xây dựng các vùng của dữ liệu, trong đó mỗi vùng đại diện cho một cụm và số lượng vùng dữ liệu không lớn hơn số lượng điểm dữ liệu. Nói cách khác, phương pháp phân hoạch thực hiện phân vùng trên tập dữ liệu.

Mỗi một vùng sẽ có ít nhất một điểm dữ liệu, mỗi điểm dữ liệu phải thuộc về chính xác một vùng dit liệu. Phương pháp này được phát triển vào những năm 1950 và 1960, một trong những, thuật toán đầu tiên được áp dụng vào phương pháp này thuật toán Lloyd (1957), còn được gọi là thuật toán K-means được đề xuất bởi Stuart P. Thuật toán K-mean. - Trong thuật toán K-mean, mỗi cụm sẽ được đại diện bằng tâm của cụm.

Trong đó trọng tâm của cụm là một vector, giá trị của mỗi phần tử trong cụm là trung bình cộng của các thành phần tương ứng của các đối tượng vector dữ liệu trong cụm đang xét. Tham số đầu vào của thuật toán là số cụm k. Đầu ra là các trọng tâm của các cụm. Độ đo khoảng cách D giữa các đối tượng (thường dùng khoảng cách Euelide), vì đây là mô hình khoảng cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu.

Hàm tiêu chuẩn và độ đo khoảng cách có thể được xác định cụ thể hơn tuỳ vào ứng dụng hoặc quan điểm của người dùng. - Đầu vào của thuật toán: số K cụm và cơ sở dữ liệu. - _ Thuật toán sẽ bao. gồm 4 bước chính: o Bước 1: Phân hoạch đối tượng thay k tập con/ cụm khác rỗng.

o_ Bước 2: Tìm các điểm dữ liệu làm tâm(trung bình các đối tượng của cụm) cho từng cụm trong từng cụm hiện hành. o Bước 3: Gan từng đối tượng vào cụm có tâm gần nhất, cập nhật lại tâm cụm. 18 o Bước 4: Quay về bước 2, cham dứt khi không còn phép gan mới. Ưu điểm: o Đơn giản và dễ hiểu: Phương pháp phân hoạch là một trong những phương pháp đơn giản nhất để phân loại dữ liệu.

o_ Hiệu quả với dữ liệu lớn: Phương pháp phân hoạch hoạt động tốt với các tập dữ liệu lớn và phức tạp. © Tính linh hoạt: Phương pháp này có thé được sử dụng cho một loạt các bai toán phân cum dit liệu. Nhược điểm: o Yêu cầu số lượng cụm được xác định trước: Trước khi thực hiện phân hoạch, số lượng cụm phải được xác định trước đó. o Nhạy cảm với giá trị khởi tạo ban đầu: Kết quả phân hoạch sẽ khác nhau nếu chúng ta khởi tạo các giá trị trung tâm ban đầu khác nhau.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khai phá dữ liệu và học máy

Ứng dụng thuật toán phân cụm trong giáo dục

Hệ thống hỗ trợ định hướng chuyên ngành

Đề tài nghiên cứu khoa học cấp trường nghiên cứu ứng dụng thuật toán k means trong hỗ trợ phân loại và gợi ý sinh viên lựa chọn chuyên ngành học tập

I. Cách Thuật Toán K Means Cách Mạng Hóa Lựa Chọn Chuyên Ngành

1.1. Tổng quan về khai phá dữ liệu trong giáo dục hiện đại

1.2. Giới thiệu mô hình K Means và vai trò trong định hướng

II. Thách Thức Khi Lựa Chọn Nghề Nghiệp Của Sinh Viên Hiện Nay

2.1. Khó khăn trong việc định hướng tương lai cho sinh viên

2.2. Sự cần thiết của một hệ thống gợi ý chuyên ngành khách quan

III. Phương Pháp K Means Xây Dựng Mô Hình Machine Learning

3.1. Nguyên lý hoạt động của thuật toán phân cụm K Means

3.2. Vai trò của Centroid clustering và khoảng cách Euclid

IV. Case Study Ứng Dụng K Means Tại Đại Học Mở Hà Nội

4.1. Quy trình tiền xử lý và đặc trưng hóa hồ sơ sinh viên

4.2. Phân tích kết quả và gợi ý cá nhân hóa lộ trình học tập

V. Tương Lai Của Tư Vấn Hướng Nghiệp Bằng AI và Data Mining

5.1. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

5.2. Triển vọng phát triển trí tuệ nhân tạo trong định hướng

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Khoa Học Tự Nhiên

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Ứng Dụng Thuật Toán K-Means Hỗ Trợ Sinh Viên Lựa Chọn Chuyên Ngành Học Tập

Loại tài liệu: Đồ Án Tốt Nghiệp

Năm xuất bản: 2023

Địa điểm: Hồ Chí Minh

Đề tài nghiên cứu khoa học cấp trường nghiên cứu ứng dụng thuật toán k means trong hỗ trợ phân loại và gợi ý sinh viên lựa chọn chuyên ngành học tập

I. Cách Thuật Toán K Means Cách Mạng Hóa Lựa Chọn Chuyên Ngành

1.1. Tổng quan về khai phá dữ liệu trong giáo dục hiện đại

1.2. Giới thiệu mô hình K Means và vai trò trong định hướng

II. Thách Thức Khi Lựa Chọn Nghề Nghiệp Của Sinh Viên Hiện Nay

2.1. Khó khăn trong việc định hướng tương lai cho sinh viên

2.2. Sự cần thiết của một hệ thống gợi ý chuyên ngành khách quan

III. Phương Pháp K Means Xây Dựng Mô Hình Machine Learning

3.1. Nguyên lý hoạt động của thuật toán phân cụm K Means

3.2. Vai trò của Centroid clustering và khoảng cách Euclid

IV. Case Study Ứng Dụng K Means Tại Đại Học Mở Hà Nội

4.1. Quy trình tiền xử lý và đặc trưng hóa hồ sơ sinh viên

4.2. Phân tích kết quả và gợi ý cá nhân hóa lộ trình học tập

V. Tương Lai Của Tư Vấn Hướng Nghiệp Bằng AI và Data Mining

5.1. Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu

5.2. Triển vọng phát triển trí tuệ nhân tạo trong định hướng

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Trường học: Trường Đại Học Khoa Học Tự Nhiên

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Ứng Dụng Thuật Toán K-Means Hỗ Trợ Sinh Viên Lựa Chọn Chuyên Ngành Học Tập

Loại tài liệu: Đồ Án Tốt Nghiệp

Năm xuất bản: 2023

Địa điểm: Hồ Chí Minh

Có thể bạn quan tâm