Chuyên đề thực tập: Phân loại khả năng đỗ Đại học Kinh tế Quốc dân bằng Bayesian Network

Chuyên đề thực tập ứng dụng phương pháp Bayesian Network để phân loại khả năng đỗ vào trường Đại học Kinh tế Quốc dân, giúp dự đoán kết quả tuyển sinh chính xác.

Trường đại học

Đại học Kinh tế Quốc dân

Chuyên ngành

Toán tài chính

Người đăng

Ẩn danh

Thể loại

chuyên đề thực tập

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

PHẦN MỞ ĐẦU

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Thuật toán Bayes

1.2. Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes Classifier)

1.3. GIÁ TRỊ THÔNG TIN IV (INFORMATION VALUE) VÀ TRỌNG LỰC BẰNG CHỨNG WOE (WEIGHT OF EVIDENCE)

1.3.1. Giá trị thông tin IV (INFORMATION VALUE)

1.3.2. Một số phương pháp thống kê khác

2. CHƯƠNG 2: THIẾT KẾ KHẢO SÁT ÁP DỤNG PHƯƠNG PHÁP MẠNG BAYESIAN NETWORK ĐỂ ĐÁNH GIÁ CÁC MỨC ĐIỂM ĐỖ ĐẠI HỌC KINH TẾ QUỐC DÂN

2.1. KHÁI QUÁT BẢNG HỎI ĐIỀU TRA

2.2. Mục đích thiết lập Khảo sát

2.3. Nội dung thiết kế khảo sát

2.4. Các bước khảo sát bảng hỏi

2.5. Cấu trúc mẫu điều tra

2.6. Phân tích các câu hỏi trong khảo sát

3. CHƯƠNG 3: PHÂN TÍCH KẾT QUẢ KHẢO SÁT VỚI TÌNH HUỐNG PHÂN LOẠI MỨC ĐIỂM SINH VIÊN THI ĐỖ VÀO TRƯỜNG ĐẠI HỌC KINH TẾ QUỐC DÂN

3.1. QUÁ TRÌNH THỰC HIỆN PHÂN TÍCH KẾT QUẢ

3.2. Tại sao phải mã hóa các biến

3.3. Các bước thực hiện phân tích kết quả

3.4. TẠI SAO NÊN SỬ DỤNG MÔ HÌNH BAYESIAN NETWORK?

3.5. SỰ TƯƠNG QUAN CỦA CÁC BIẾN

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC HÌNH ẢNH

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Giới thiệu về Bayesian Network và ứng dụng trong phân loại

Bayesian Network là một mô hình xác suất đồ thị, được sử dụng rộng rãi trong các bài toán phân loại và dự đoán. Mô hình này dựa trên định lý Bayes, cho phép tính toán xác suất có điều kiện giữa các biến. Trong nghiên cứu này, Bayesian Network được áp dụng để phân loại khả năng đỗ vào Đại học Kinh tế Quốc dân. Mô hình này không chỉ giúp dự đoán kết quả mà còn cung cấp cái nhìn sâu sắc về mối quan hệ giữa các yếu tố ảnh hưởng đến kết quả học tập.

1.1. Bayesian Network và cơ sở lý thuyết

Bayesian Network là một đồ thị có hướng phi chu trình, trong đó các nút đại diện cho các biến và các cung biểu diễn mối quan hệ phụ thuộc giữa chúng. Mô hình này dựa trên phân phối xác suất có điều kiện, cho phép tính toán xác suất của một biến dựa trên giá trị của các biến khác. Trong nghiên cứu, Bayesian Network được sử dụng để phân tích dữ liệu giáo dục, từ đó dự đoán khả năng đỗ của sinh viên.

1.2. Ứng dụng Bayesian Network trong giáo dục

Trong lĩnh vực giáo dục, Bayesian Network được sử dụng để phân tích dữ liệu học tập và dự đoán kết quả. Mô hình này giúp xác định các yếu tố ảnh hưởng đến khả năng đỗ của sinh viên, từ đó cung cấp thông tin hữu ích cho việc hỗ trợ quyết định. Nghiên cứu này tập trung vào việc áp dụng Bayesian Network để phân loại khả năng đỗ vào Đại học Kinh tế Quốc dân, dựa trên các dữ liệu thực tế.

II. Phương pháp phân loại và dự đoán kết quả

Phương pháp phân loại trong nghiên cứu này dựa trên Bayesian Network, kết hợp với các kỹ thuật học máy và thống kê. Mô hình này cho phép dự đoán khả năng đỗ của sinh viên dựa trên các yếu tố như điểm số, kết quả học tập và các biến khác. Nghiên cứu cũng sử dụng trọng lượng chứng cứ (WoE) và giá trị thông tin (IV) để đánh giá mức độ ảnh hưởng của các biến.

2.1. Trọng lượng chứng cứ WoE và giá trị thông tin IV

Trọng lượng chứng cứ (WoE) là một chỉ số đo lường sự khác biệt giữa các nhóm dữ liệu, trong khi giá trị thông tin (IV) đánh giá mức độ ảnh hưởng của một biến đến kết quả dự đoán. Trong nghiên cứu này, WoE và IV được sử dụng để lựa chọn các biến quan trọng, từ đó xây dựng mô hình Bayesian Network hiệu quả hơn.

2.2. Phân tích dữ liệu giáo dục và dự đoán kết quả

Nghiên cứu tiến hành phân tích dữ liệu giáo dục của sinh viên Đại học Kinh tế Quốc dân, sử dụng Bayesian Network để dự đoán khả năng đỗ. Các biến như điểm số, kết quả học tập và các yếu tố khác được đưa vào mô hình để phân tích. Kết quả cho thấy Bayesian Network là một công cụ hiệu quả trong việc dự đoán khả năng đỗ và phân tích rủi ro trong giáo dục.

III. Kết quả và ứng dụng thực tiễn

Nghiên cứu đã chứng minh rằng Bayesian Network là một công cụ mạnh mẽ trong việc phân loại khả năng đỗ và dự đoán kết quả học tập. Mô hình này không chỉ giúp dự đoán chính xác mà còn cung cấp thông tin hữu ích cho việc hỗ trợ quyết định trong giáo dục. Kết quả nghiên cứu có thể được áp dụng để cải thiện hiệu quả giáo dục và hỗ trợ sinh viên trong quá trình học tập.

3.1. Phân tích kết quả học tập và dự đoán điểm số

Nghiên cứu sử dụng Bayesian Network để phân tích kết quả học tập và dự đoán điểm số của sinh viên. Kết quả cho thấy mô hình này có độ chính xác cao trong việc dự đoán khả năng đỗ và phân tích các yếu tố ảnh hưởng đến kết quả học tập.

3.2. Ứng dụng thực tiễn trong hệ thống hỗ trợ quyết định

Kết quả nghiên cứu có thể được áp dụng trong hệ thống hỗ trợ quyết định để cải thiện hiệu quả giáo dục. Bayesian Network giúp xác định các yếu tố ảnh hưởng đến khả năng đỗ, từ đó cung cấp thông tin hữu ích cho việc hỗ trợ sinh viên và cải thiện chất lượng giáo dục.

21/02/2025

Bạn đang xem trước tài liệu:

Chuyên đề thực tập ứng dụng phương pháp baye sian network để phân loại khả năng đỗ vào trường đại học kinh tế quốc dân

Tải đầy đủ

Trích đoạn nội dung tài liệu

chương 1, người viết giới thiệu đến người doc các ly thuyết được áp dụng để phân tích số liệu từ bảng hỏi. Để hiểu rõ hơn các khái niệm, phương phương, ứng dụng và sự cần thiết của việc áp dụng phương pháp mang Bayesian.Khai niém Mang Bayes (tiếng Anh: Bayesian network hoặc Bayesian belief network hoặc belief network) là một mô hình xác suất dạng đồ thị. Một mạng Bayes được biểu diễn bởi một đồ thị, trong đó các nút đại diện cho các biến, còn các cung đại diện cho các phụ thuộc có điều kiện. Phân phối xác suất có điều kiện phụ thuộc (joint probability distribution) của các biến được xác định bởi cau trúc dé thị của mạng.

Cấu trúc đồ thị của một mạng Bayes dẫn tới các mô hình dễ giải thích, và tới các thuật toán học và suy luận hiệu quả. Các nút có thé đại diễn cho đủ loại biến, một tham số đo được, một biến ấn (latent variable) hay một giả thuyết, chứ không nhất thiết phải đại diện cho các biến ngẫu nhiên. Một mạng Bayes là một đồ thị có hướng phi chu trình mà trong đó: « _ Các nút biểu diễn các biến; « _ Các cung biéu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha của nó.88 GRASS WET SPRINKLER RANN| T F F F 0.99 0,01 Tran Thi Thanh Huong - 11142031 3 Chuyên đề thực tập chuyên ngành Toán tài chính Hình 1.1: Một mạng Bayes đơn giản với các bảng xác suất có điều kiện 1. Thuật toán Bayes Thuật toán hiệu quả ton tại mà thực hiện suy luận và học tập trong mạng Bayesian.

Mang Bayesian mô hình chuỗi các biến (ví dụ như tín hiệu thoại hoặc chuỗi protein) được gọi là mạng Bayesian động. Việc khái quát hóa các mạng Bayes có thé đại diện và giải quyết các van đề quyết định dưới sự không chắc chắn được gọi là sơ đồ ảnh hưởng. Trong lĩnh vực Data Mining, Bayes Theorem (hay Bayes’ Rule) là kỹ thuật phân lớp dựa vào việc tinh xác suất có điều kiện. Bayes’Rule được ứng dụng rất rộng rãi bởi tính dễ hiểu và dễ triển khai.

PID) Trong do: D: Data h: Hypothesis (gia thuyét) P(h): Xác suất giả thuyết h P(DIh): Xác suất có điều kiện D khi biết giả thuyết h P(D): xác suất của dit liệu quan sát D không quan tâm đến bat kỳ giả thuyết h nào. , „P(DỊh) Tỷ sô P(D) : Chi số liên quan (irrelevance index) dùng dé do lường sự liên quan giữa 2 biến. Nếu irrelevance index =1, có nghĩa hai biến không liên quan nhau.P(h,) Tran Thi Thanh Huong - 11142031 4 Chuyên đề thực tập chuyên ngành Toán tài chính (CT4) gọi là Bayes’s Theorem. Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes Classifier) Xét bài toán classification với C classes 1,2,.

Giả sử có một điểm dữ liệu xER a Hãy tinh xác suất dé điểm dit liệu này rơi vào class c. Nói cách khác, hãy tính: p(y=clx) (1) hoặc viết gọn thành p(clx) Tức tính xác suất để đầu ra là class c biết rằng đầu vào là vector x. Biểu thức này, nếu tính được, sẽ giúp chúng ta xác định được xác suất dé điểm di liệu rơi vào mỗi class. Từ đó có thé giúp xác định class của điểm dữ liệu đó bằng cách chọn ra class có xác suất cao nhất: c=arg maX,e(¡,c;Ð(€|x) (2) Biểu thức (2) thường khó được tính trực tiếp.

Thay vào đó, quy tắc Bayes thường được sử dụng: c=arg max, p(|x) — (3) p(x|c)p(c) = arg max, —— (4) = arg max, p(xlc)p(c) (5) Từ (3) sang (4) là vì quy tắc Bayes. Từ (4) sang (5) là vì mẫu số p(x) không phụ thuộc vào c. Tiếp tục xét biéu thức (5), p(x) có thé được hiểu là xác suất dé một điểm rơi vào class cc. Giá tri này có thé được tính bang MLE, tức ti lệ số điểm dữ liệu trong tập training rơi vào class này chia cho tổng số lượng dữ liệu trong tập traing; hoặc cũng có thê được đánh giá bằng MAP estimation.

Trường hợp thứ nhất thường được sử dụng nhiều hơn. Thành phan còn lại p(x), tức phân phối của các điểm dữ liệu trong class ¢, thường rất khó tính toán vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất nhiều di liệu training để có thể xây dựng được phân phối đó. Dé giúp cho việc tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các thành phan của biến ngẫu nhiên x là độc lập với nhau, nêu biết ¢ Tức là: p(xle) =p(x;,x;,. xzÌe) =k pl; le) (6) Tran Thi Thanh Huong - 11142031 5 Chuyên đề thực tập chuyên ngành Toán tài chính Giả thiệt các chiêu của dữ liệu độc lập với nhau, nêu biệt c, là quá chặt va ít khi tìm được dữ liệu mà các thành phần hoàn toàn độc lập với nhau.

Tuy nhiên, giả thiết ngây ngô này lại mang lại những kết quả tốt bat ngờ. Giả thiết về sự độc lập của các chiều dữ liệu này được gọi là Naive Bayes. Cách xác định class của dữ liệu dựa trên giả thiết này có tên là Naive Bayes Classifier (NBC). NBC, nhờ vào tính đơn giản một cách ngdy tho, có tốc độ training và test rất nhanh.

Việc này giúp nó mang lại hiệu quả cao trong các bài toán large-scale. Ở bước training, các phân phối p(c) và p(x;Ìc), i=1,2,.d sẽ được xác định dựa vào training data. Việc xác định các giá trị này có thé dựa vào Maximum Likelihood Estimation hoặc Maximum A Posteriori. Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh bởi: C = arg IH3AXee{1,.c} p(c) TI¡ pGŒ;le) (7) Khi d lớn và các xác suất nhỏ, biéu thức ở về phải của (7) sẽ là một số rất nhỏ, khi tính toán có thé gặp sai số.

Dé giải quyết việc này, (7) thường được viết lại dưới dạng tương đương bằng cách lấy log của về phải: Cc arg maxcers,c)P(C) [H&:p(xle) = log(p(©)) + XŠ-,log(px,lc)) (7.1) Việc này không ảnh hưởng tới kết quả vi log là một hàm đồng biến trên tập các số dương. Mặc dù giả thiết mà NBC sử dụng là quá phi thực tế, chúng vẫn hoạt động khá hiệu quả trong nhiều bài toán thực tế, đặc biệt là trong các bài toán phân loại văn bản. Cả việc training và test cua NBC là cực kỳ nhanh khi so với các phương pháp classification phức tạp khác. Việc giả sử các thành phan trong dữ liệu là độc lập với nhau, nêu biết class, khiến cho việc tính toán mỗi phân phối (%;Ì£) trở nên cực kỳ nhanh.

Mỗi giá trị p(c), c=1,2,.,C có thé được xác định như là tần suất xuất hiện của class cc trong training data. Việc tính toán ø(+;Ìc} phụ thuộc vào loại dit liệu. Có ba loại được sử dụng phổ biến là: Gaussian Naive Bayes, Multinomial Naive Bayes va Bernoulli Naive. Tran Thi Thanh Huong - 11142031 6 Chuyên đề thực tập chuyên ngành Toán tài chính 1.

GIA TRI THONG TIN IV (INFORMATION VALUE) VÀ TRỌNG LUC BANG CHUNG WOE (WEIGHT OF EVIDENCE) 1. Giá trị thông tin IV INFORMATION VALUE) 1. Nội dung của giá tri thông tin IV Thông thường khi xây dựng một mô hình hồi quy, việc lựa chọn các biến độc lập không hề đơn giản. Biến phụ thuộc (biến mục tiêu) chịu tác động của nhiều yếu tố khác.

Bước đầu, khi lựa chọn các biến độc lập ta không thé tránh khỏi việc lựa chọn các biến có cường độ dự báo quá yếu so với biến phụ thuộc. Với các biến độc lập mang giá trị thông tin quá yếu thì việc phát triển mô hình hồi quy là vô nghĩa. Các giá trị thông tin (IV) của một yếu tô dự báo có liên quan đến tổng các giá trị (tuyệt đối) cho WOE trên tất cả các nhóm. Do đó, nó thé hiện số lượng thông tin chân đoán của một biến dự báo đề tách Good khỏi Bad.

Công thức áp dung tinh giá tri thông tin IV Các giá trị thông tin (IV) cho dự đoán rằng có thé được tính như sau: IV mỉ [(ran số của quan sat Good — Tan số của quan sat Bad) * Tần sẽ của quan sắt Good BC| Tần sẽ của quan sắt Bad Trong đó: (Tần số quan sát Good/Tần số quan sát Bad) được sử dụng trong công thức này ở định dạng thập phân. Ý nghĩa của giá trị thông tin IV Theo Siddiqi (2006), theo quy ước, các giá trị của thống kê IV có thé được hiểu như sau. Nếu số liệu thống kê 7V là: Giá trị thông tin IV Ý nghĩa của giá trị thông tin IV Nhỏ hơn 0.02 Biến có sức mạnh dự đoán rất yếu so với biến mục tiêu hay nói cách khác khả năng dự báo của biến là vô nghĩa 0.1 Biến có sức mạnh dự đoán yếu so với biến mục tiêu 0.3 Biến có sức mạnh dự đoán trung bình so với biến mục tiêu 0.5 Biến có sức mạnh dự đoán tốt so với biến mục tiêu Lớn hơn 0.5 Biến đáng ngờ và cần phải kiểm tra Giá tri thông tin IV càng cao càng thể hiện dự đoán so với mục tiêu là tốt tuy nhiên các biến có đặc tính với IV lớn hơn 0,5 nên được kiểm tra và lưu ý đến, Tran Thị Thanh Hương - 11142031 7 Chuyên đề thực tập chuyên ngành Toán tài chính chúng phải được loại bỏ, xem xét nên đưa vào mô hình hay không hoặc sử dụng một cách có kiểm soát. Cũng như các giá trị bất thường-outlier; nếu tất cả các biến có giá trị như nhau và chỉ có 1 vài biến có sức mạnh cao vượt thì ta vẫn có thể xem xét cho đưa vào mô hình.

Tuy nhiên nếu các biến đều có giá trị IV cao bất thường cũng sẽ kéo lệch mô hình theo từng nhóm của nó, khiến các bién khác không còn nhiều ý nghĩa, mô hình có thé chỉ phụ thuộc một biến. Equation yoath*x » ¥ Adj.90163 Linear Fit of ¥ Value Standard Error * Intercept 0.2: Hình ảnh biéu thị cho giá tri Outlier 1. Một số phương pháp thống kê khác IV là thước đo được sử dụng rộng rãi trong nhiều ngành, với các biến dự báo khác nhau sẽ mang những giá trị thông tin khác nhau và các biến đó có những cấu thành đặc điểm khác nhau (bao gồm điểm yếu hoặc mạnh). Tác giả giới thiệu một số thước đo được sử dụng rỗng rãi trong thống kê, chúng ta có thé tham khảo một vài thước đo dưới đây.

Chúng được coi là một các sự thay thế cho IV. Tuy nhiên, không thể phủ nhận IV là một biện pháp hữu ích và được áp dụng phô biến trong các ngành. Những ưu điểm nổi trội của IV dem lại đáng được ghi nhận. IV là một trong đó các quy tắc rất thuận lợi cho việc biến các sự lựa chọn kết hợp với IV.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Ứng dụng Bayesian Network phân loại khả năng đỗ Đại học Kinh tế Quốc dân là một nghiên cứu chuyên sâu sử dụng mạng Bayesian để dự đoán và phân loại khả năng trúng tuyển của thí sinh vào trường Đại học Kinh tế Quốc dân. Tài liệu này không chỉ cung cấp cái nhìn khoa học về phương pháp phân tích dữ liệu mà còn mang lại lợi ích thiết thực cho các nhà quản lý giáo dục và thí sinh trong việc đánh giá và cải thiện kết quả học tập. Để hiểu rõ hơn về các phương pháp nghiên cứu tương tự, bạn có thể tham khảo 3 tóm tắt luận án tiến sĩ tiếng anh ncs nguyễn khắc tấn, nơi trình bày các nghiên cứu liên quan đến ứng dụng công nghệ trong giáo dục. Ngoài ra, nếu quan tâm đến các kỹ năng học thuật, Developing discussion skills for efl second year students luận án thạc sĩ sẽ là tài liệu hữu ích để nâng cao kỹ năng thảo luận trong môi trường học thuật. Cuối cùng, để mở rộng kiến thức về các mô hình giáo dục, Luận án tiến sĩ xây dựng mô hình câu lạc bộ thể thao giải trí cho sinh viên trường đại học an giang tỉnh an giang sẽ cung cấp góc nhìn đa chiều về việc phát triển môi trường học tập toàn diện.

#Phân tích dữ liệu

#Đại học Kinh tế Quốc dân

#mô hình xác suất

#chuyên đề thực tập

#Phân loại khả năng đỗ

#Dự đoán kết quả

Chủ đề

Giáo dục đại học

Phân tích dữ liệu

Xác suất thống kê