chương 1, người viết giới thiệu đến người doc các ly thuyết được áp dụng để phân tích số liệu từ bảng hỏi. Để hiểu rõ hơn các khái niệm, phương phương, ứng dụng và sự cần thiết của việc áp dụng phương pháp mang Bayesian.Khai niém Mang Bayes (tiếng Anh: Bayesian network hoặc Bayesian belief network hoặc belief network) là một mô hình xác suất dạng đồ thị. Một mạng Bayes được biểu diễn bởi một đồ thị, trong đó các nút đại diện cho các biến, còn các cung đại diện cho các phụ thuộc có điều kiện. Phân phối xác suất có điều kiện phụ thuộc (joint probability distribution) của các biến được xác định bởi cau trúc dé thị của mạng.
Cấu trúc đồ thị của một mạng Bayes dẫn tới các mô hình dễ giải thích, và tới các thuật toán học và suy luận hiệu quả. Các nút có thé đại diễn cho đủ loại biến, một tham số đo được, một biến ấn (latent variable) hay một giả thuyết, chứ không nhất thiết phải đại diện cho các biến ngẫu nhiên. Một mạng Bayes là một đồ thị có hướng phi chu trình mà trong đó: « _ Các nút biểu diễn các biến; « _ Các cung biéu diễn các quan hệ phụ thuộc thống kê giữa các biến và phân phối xác suất địa phương cho mỗi giá trị nếu cho trước giá trị của các cha của nó.88 GRASS WET SPRINKLER RANN| T F F F 0.99 0,01 Tran Thi Thanh Huong - 11142031 3 Chuyên đề thực tập chuyên ngành Toán tài chính Hình 1.1: Một mạng Bayes đơn giản với các bảng xác suất có điều kiện 1. Thuật toán Bayes Thuật toán hiệu quả ton tại mà thực hiện suy luận và học tập trong mạng Bayesian.
Mang Bayesian mô hình chuỗi các biến (ví dụ như tín hiệu thoại hoặc chuỗi protein) được gọi là mạng Bayesian động. Việc khái quát hóa các mạng Bayes có thé đại diện và giải quyết các van đề quyết định dưới sự không chắc chắn được gọi là sơ đồ ảnh hưởng. Trong lĩnh vực Data Mining, Bayes Theorem (hay Bayes’ Rule) là kỹ thuật phân lớp dựa vào việc tinh xác suất có điều kiện. Bayes’Rule được ứng dụng rất rộng rãi bởi tính dễ hiểu và dễ triển khai.
PID) Trong do: D: Data h: Hypothesis (gia thuyét) P(h): Xác suất giả thuyết h P(DIh): Xác suất có điều kiện D khi biết giả thuyết h P(D): xác suất của dit liệu quan sát D không quan tâm đến bat kỳ giả thuyết h nào. , „P(DỊh) Tỷ sô P(D) : Chi số liên quan (irrelevance index) dùng dé do lường sự liên quan giữa 2 biến. Nếu irrelevance index =1, có nghĩa hai biến không liên quan nhau.P(h,) Tran Thi Thanh Huong - 11142031 4 Chuyên đề thực tập chuyên ngành Toán tài chính (CT4) gọi là Bayes’s Theorem. Ứng dụng Bayes Theorem trong phân lớp dữ liệu (Naive Bayes Classifier) Xét bài toán classification với C classes 1,2,.
Giả sử có một điểm dữ liệu xER a Hãy tinh xác suất dé điểm dit liệu này rơi vào class c. Nói cách khác, hãy tính: p(y=clx) (1) hoặc viết gọn thành p(clx) Tức tính xác suất để đầu ra là class c biết rằng đầu vào là vector x. Biểu thức này, nếu tính được, sẽ giúp chúng ta xác định được xác suất dé điểm di liệu rơi vào mỗi class. Từ đó có thé giúp xác định class của điểm dữ liệu đó bằng cách chọn ra class có xác suất cao nhất: c=arg maX,e(¡,c;Ð(€|x) (2) Biểu thức (2) thường khó được tính trực tiếp.
Thay vào đó, quy tắc Bayes thường được sử dụng: c=arg max, p(|x) — (3) p(x|c)p(c) = arg max, —— (4) = arg max, p(xlc)p(c) (5) Từ (3) sang (4) là vì quy tắc Bayes. Từ (4) sang (5) là vì mẫu số p(x) không phụ thuộc vào c. Tiếp tục xét biéu thức (5), p(x) có thé được hiểu là xác suất dé một điểm rơi vào class cc. Giá tri này có thé được tính bang MLE, tức ti lệ số điểm dữ liệu trong tập training rơi vào class này chia cho tổng số lượng dữ liệu trong tập traing; hoặc cũng có thê được đánh giá bằng MAP estimation.
Trường hợp thứ nhất thường được sử dụng nhiều hơn. Thành phan còn lại p(x), tức phân phối của các điểm dữ liệu trong class ¢, thường rất khó tính toán vì x là một biến ngẫu nhiên nhiều chiều, cần rất rất nhiều di liệu training để có thể xây dựng được phân phối đó. Dé giúp cho việc tính toán được đơn giản, người ta thường giả sử một cách đơn giản nhất rằng các thành phan của biến ngẫu nhiên x là độc lập với nhau, nêu biết ¢ Tức là: p(xle) =p(x;,x;,. xzÌe) =k pl; le) (6) Tran Thi Thanh Huong - 11142031 5 Chuyên đề thực tập chuyên ngành Toán tài chính Giả thiệt các chiêu của dữ liệu độc lập với nhau, nêu biệt c, là quá chặt va ít khi tìm được dữ liệu mà các thành phần hoàn toàn độc lập với nhau.
Tuy nhiên, giả thiết ngây ngô này lại mang lại những kết quả tốt bat ngờ. Giả thiết về sự độc lập của các chiều dữ liệu này được gọi là Naive Bayes. Cách xác định class của dữ liệu dựa trên giả thiết này có tên là Naive Bayes Classifier (NBC). NBC, nhờ vào tính đơn giản một cách ngdy tho, có tốc độ training và test rất nhanh.
Việc này giúp nó mang lại hiệu quả cao trong các bài toán large-scale. Ở bước training, các phân phối p(c) và p(x;Ìc), i=1,2,.d sẽ được xác định dựa vào training data. Việc xác định các giá trị này có thé dựa vào Maximum Likelihood Estimation hoặc Maximum A Posteriori. Ở bước test, với một điểm dữ liệu mới x, class của nó sẽ được xác đinh bởi: C = arg IH3AXee{1,.c} p(c) TI¡ pGŒ;le) (7) Khi d lớn và các xác suất nhỏ, biéu thức ở về phải của (7) sẽ là một số rất nhỏ, khi tính toán có thé gặp sai số.
Dé giải quyết việc này, (7) thường được viết lại dưới dạng tương đương bằng cách lấy log của về phải: Cc arg maxcers,c)P(C) [H&:p(xle) = log(p(©)) + XŠ-,log(px,lc)) (7.1) Việc này không ảnh hưởng tới kết quả vi log là một hàm đồng biến trên tập các số dương. Mặc dù giả thiết mà NBC sử dụng là quá phi thực tế, chúng vẫn hoạt động khá hiệu quả trong nhiều bài toán thực tế, đặc biệt là trong các bài toán phân loại văn bản. Cả việc training và test cua NBC là cực kỳ nhanh khi so với các phương pháp classification phức tạp khác. Việc giả sử các thành phan trong dữ liệu là độc lập với nhau, nêu biết class, khiến cho việc tính toán mỗi phân phối (%;Ì£) trở nên cực kỳ nhanh.
Mỗi giá trị p(c), c=1,2,.,C có thé được xác định như là tần suất xuất hiện của class cc trong training data. Việc tính toán ø(+;Ìc} phụ thuộc vào loại dit liệu. Có ba loại được sử dụng phổ biến là: Gaussian Naive Bayes, Multinomial Naive Bayes va Bernoulli Naive. Tran Thi Thanh Huong - 11142031 6 Chuyên đề thực tập chuyên ngành Toán tài chính 1.
GIA TRI THONG TIN IV (INFORMATION VALUE) VÀ TRỌNG LUC BANG CHUNG WOE (WEIGHT OF EVIDENCE) 1. Giá trị thông tin IV INFORMATION VALUE) 1. Nội dung của giá tri thông tin IV Thông thường khi xây dựng một mô hình hồi quy, việc lựa chọn các biến độc lập không hề đơn giản. Biến phụ thuộc (biến mục tiêu) chịu tác động của nhiều yếu tố khác.
Bước đầu, khi lựa chọn các biến độc lập ta không thé tránh khỏi việc lựa chọn các biến có cường độ dự báo quá yếu so với biến phụ thuộc. Với các biến độc lập mang giá trị thông tin quá yếu thì việc phát triển mô hình hồi quy là vô nghĩa. Các giá trị thông tin (IV) của một yếu tô dự báo có liên quan đến tổng các giá trị (tuyệt đối) cho WOE trên tất cả các nhóm. Do đó, nó thé hiện số lượng thông tin chân đoán của một biến dự báo đề tách Good khỏi Bad.
Công thức áp dung tinh giá tri thông tin IV Các giá trị thông tin (IV) cho dự đoán rằng có thé được tính như sau: IV mỉ [(ran số của quan sat Good — Tan số của quan sat Bad) * Tần sẽ của quan sắt Good BC| Tần sẽ của quan sắt Bad Trong đó: (Tần số quan sát Good/Tần số quan sát Bad) được sử dụng trong công thức này ở định dạng thập phân. Ý nghĩa của giá trị thông tin IV Theo Siddiqi (2006), theo quy ước, các giá trị của thống kê IV có thé được hiểu như sau. Nếu số liệu thống kê 7V là: Giá trị thông tin IV Ý nghĩa của giá trị thông tin IV Nhỏ hơn 0.02 Biến có sức mạnh dự đoán rất yếu so với biến mục tiêu hay nói cách khác khả năng dự báo của biến là vô nghĩa 0.1 Biến có sức mạnh dự đoán yếu so với biến mục tiêu 0.3 Biến có sức mạnh dự đoán trung bình so với biến mục tiêu 0.5 Biến có sức mạnh dự đoán tốt so với biến mục tiêu Lớn hơn 0.5 Biến đáng ngờ và cần phải kiểm tra Giá tri thông tin IV càng cao càng thể hiện dự đoán so với mục tiêu là tốt tuy nhiên các biến có đặc tính với IV lớn hơn 0,5 nên được kiểm tra và lưu ý đến, Tran Thị Thanh Hương - 11142031 7 Chuyên đề thực tập chuyên ngành Toán tài chính chúng phải được loại bỏ, xem xét nên đưa vào mô hình hay không hoặc sử dụng một cách có kiểm soát. Cũng như các giá trị bất thường-outlier; nếu tất cả các biến có giá trị như nhau và chỉ có 1 vài biến có sức mạnh cao vượt thì ta vẫn có thể xem xét cho đưa vào mô hình.
Tuy nhiên nếu các biến đều có giá trị IV cao bất thường cũng sẽ kéo lệch mô hình theo từng nhóm của nó, khiến các bién khác không còn nhiều ý nghĩa, mô hình có thé chỉ phụ thuộc một biến. Equation yoath*x » ¥ Adj.90163 Linear Fit of ¥ Value Standard Error * Intercept 0.2: Hình ảnh biéu thị cho giá tri Outlier 1. Một số phương pháp thống kê khác IV là thước đo được sử dụng rộng rãi trong nhiều ngành, với các biến dự báo khác nhau sẽ mang những giá trị thông tin khác nhau và các biến đó có những cấu thành đặc điểm khác nhau (bao gồm điểm yếu hoặc mạnh). Tác giả giới thiệu một số thước đo được sử dụng rỗng rãi trong thống kê, chúng ta có thé tham khảo một vài thước đo dưới đây.
Chúng được coi là một các sự thay thế cho IV. Tuy nhiên, không thể phủ nhận IV là một biện pháp hữu ích và được áp dụng phô biến trong các ngành. Những ưu điểm nổi trội của IV dem lại đáng được ghi nhận. IV là một trong đó các quy tắc rất thuận lợi cho việc biến các sự lựa chọn kết hợp với IV.