Luận văn thạc sĩ: Kỹ thuật khai phá dữ liệu dự đoán rủi ro tín dụng (VNU UET)

Luận văn thạc sĩ kỹ thuật nghiên cứu vnu uet nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng, khảo sát thực trạng, phân tích nguyên nhân, đề xuất

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2008

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU

1.1. Giới thiệu khai phá tri thức từ dữ liệu và khai phá dữ liệu

1.2. Nhiệm vụ(task) khai phá dữ liệu

1.3. Đánh giá mô hình dự đoán

1.4. Ứng dụng KDD và Datamining

2. CHƯƠNG 2: BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG

2.1. Bài toán dự đoán rủi ro tín dụng

3. CHƯƠNG 3: XỬ LÝ DỮ LIỆU DỰ ĐOÁN RỦI RO TÍN DỤNG

3.1. Tiền xử lý dữ liệu

3.2. Công việc tiền xử lý dữ liệu

3.3. Tiền xử lý dữ liệu dự đoán rủi ro tín dụng

3.4. Phương pháp lấy mẫu dữ liệu (Data sampling)

3.5. Phương pháp lấy mẫu dữ liệu

3.6. Lấy mẫu lên (Oversampling)

3.7. Lấy mẫu xuống (undersampling)

3.8. Kết hợp hai chiến lược trên

3.9. Hợp nhất các lớp của tập dữ liệu (Data merged)

4. CHƯƠNG 4: DỰ ĐOÁN RỦI RO TÍN DỤNG SỬ DỤNG CÂY QUYẾT ĐỊNH (C4.5)

4.1. Giới thiệu cây quyết định

4.2. Các loại cây quyết định

4.3. Ví dụ thực hành

4.4. Xây dựng cây quyết định

4.5. Đặc điểm cây quyết định

4.6. Đặc điểm cây quyết định với các phiên bản khác

4.7. Dự đoán rủi ro tín dụng sử dụng cây quyết định (C4.5)

4.8. Đánh giá kết quả dự đoán rủi ro tín dụng sử dụng cây quyết định (C4.5)

5. CHƯƠNG 5: DỰ ĐOÁN RỦI RO TÍN DỤNG SỬ DỤNG PHƯƠNG PHÁP QUY NẠP LUẬT

5.1. Thuật toán CBA

5.2. Dự đoán rủi ro tín dụng bằng CBA

5.3. Đánh giá kết quả dự đoán rủi ro tín dụng

6. CHƯƠNG 6: DỰ ĐOÁN RỦI RO TÍN DỤNG SỬ DỤNG SUPPORT VECTOR MACHINE

6.1. Giới thiệu Support Vector Machine

6.2. Đặc điểm của Support Vector Machine

6.3. Dự đoán rủi ro tín dụng bằng Support Vector Machine

6.4. Lựa chọn tham số

6.5. Thực nghiệm với tập dữ liệu D1

6.6. Thực nghiệm với tập dữ liệu được hợp nhất lớp (D2)

6.7. Đánh giá kết quả dự đoán rủi ro tín dụng bằng SVM

7. CHƯƠNG 7: ĐÁNH GIÁ CÁC KỸ THUẬT ĐỐI VỚI BÀI TOÁN DỰ ĐOÁN RỦI RO TÍN DỤNG

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Luận văn thạc sĩ VNU UET nghiên cứu rủi ro tín dụng

Luận văn thạc sĩ tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng. Nghiên cứu này không chỉ giúp hiểu rõ hơn về các phương pháp khai thác dữ liệu mà còn cung cấp cái nhìn sâu sắc về cách thức dự đoán rủi ro tín dụng trong lĩnh vực ngân hàng. Việc áp dụng các kỹ thuật này có thể cải thiện đáng kể khả năng quản lý rủi ro của các tổ chức tín dụng.

1.1. Khái niệm về rủi ro tín dụng và tầm quan trọng

Rủi ro tín dụng là nguy cơ mà người vay không thể trả nợ đúng hạn. Việc hiểu rõ khái niệm này giúp các ngân hàng phân loại và quản lý nợ hiệu quả hơn.

1.2. Mục tiêu nghiên cứu của luận văn

Luận văn nhằm mục tiêu áp dụng các kỹ thuật khai phá dữ liệu để dự đoán rủi ro tín dụng, từ đó nâng cao hiệu quả trong việc quản lý rủi ro của ngân hàng.

II. Vấn đề và thách thức trong dự đoán rủi ro tín dụng

Dự đoán rủi ro tín dụng gặp nhiều thách thức, bao gồm việc xử lý dữ liệu không đầy đủ và không chính xác. Các ngân hàng cần phải đối mặt với việc phân loại khách hàng và đánh giá khả năng trả nợ. Những thách thức này đòi hỏi các phương pháp khai phá dữ liệu hiệu quả để cải thiện độ chính xác trong dự đoán.

2.1. Các vấn đề trong việc thu thập dữ liệu

Dữ liệu thu thập từ khách hàng thường không đầy đủ hoặc bị sai lệch, ảnh hưởng đến kết quả dự đoán rủi ro tín dụng.

2.2. Thách thức trong việc phân loại khách hàng

Việc phân loại khách hàng theo mức độ rủi ro là một thách thức lớn, đòi hỏi các kỹ thuật phân tích dữ liệu chính xác và hiệu quả.

III. Phương pháp khai phá dữ liệu cho dự đoán rủi ro tín dụng

Luận văn áp dụng nhiều phương pháp khai phá dữ liệu khác nhau, bao gồm cây quyết định, hồi quy logistic và Support Vector Machine (SVM). Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp là rất quan trọng để đạt được kết quả tốt nhất.

3.1. Cây quyết định trong dự đoán rủi ro tín dụng

Cây quyết định là một trong những phương pháp phổ biến nhất trong khai phá dữ liệu, giúp phân loại khách hàng dựa trên các đặc điểm cụ thể.

3.2. Hồi quy logistic và ứng dụng của nó

Hồi quy logistic được sử dụng để dự đoán xác suất vỡ nợ của khách hàng, giúp ngân hàng đưa ra quyết định cho vay chính xác hơn.

3.3. Sử dụng Support Vector Machine SVM

SVM là một kỹ thuật mạnh mẽ trong khai phá dữ liệu, giúp phân loại khách hàng dựa trên các đặc điểm phức tạp.

IV. Ứng dụng thực tiễn và kết quả nghiên cứu

Nghiên cứu đã chỉ ra rằng việc áp dụng các kỹ thuật khai phá dữ liệu có thể cải thiện đáng kể khả năng dự đoán rủi ro tín dụng. Các ngân hàng có thể sử dụng các mô hình này để tối ưu hóa quy trình cho vay và giảm thiểu rủi ro tài chính.

4.1. Kết quả từ việc áp dụng cây quyết định

Kết quả cho thấy cây quyết định có thể phân loại khách hàng với độ chính xác cao, giúp ngân hàng đưa ra quyết định cho vay hiệu quả hơn.

4.2. Đánh giá hiệu quả của hồi quy logistic

Hồi quy logistic cho thấy khả năng dự đoán chính xác cao về khả năng trả nợ của khách hàng, từ đó giảm thiểu rủi ro cho ngân hàng.

V. Kết luận và tương lai của nghiên cứu rủi ro tín dụng

Luận văn đã chứng minh rằng việc áp dụng các kỹ thuật khai phá dữ liệu là cần thiết trong việc dự đoán rủi ro tín dụng. Tương lai của nghiên cứu này có thể mở rộng ra nhiều lĩnh vực khác trong tài chính và ngân hàng, giúp cải thiện quy trình quản lý rủi ro.

5.1. Tương lai của khai phá dữ liệu trong ngân hàng

Khai phá dữ liệu sẽ tiếp tục phát triển và đóng vai trò quan trọng trong việc quản lý rủi ro tín dụng trong tương lai.

5.2. Khuyến nghị cho các nghiên cứu tiếp theo

Cần có thêm nhiều nghiên cứu để cải thiện các phương pháp khai phá dữ liệu, từ đó nâng cao độ chính xác trong dự đoán rủi ro tín dụng.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin và dữ liệu lớn, việc khai phá tri thức từ dữ liệu (Knowledge Discovery in Databases - KDD) và khai phá dữ liệu (Data Mining - DM) đã trở thành công cụ quan trọng trong nhiều lĩnh vực, đặc biệt là tài chính ngân hàng. Theo báo cáo của ngành, tỷ lệ nợ xấu tại Ngân hàng Công Thương Việt Nam cuối năm 2007 duy trì ở mức khoảng 1%, cho thấy sự cần thiết của các phương pháp dự đoán rủi ro tín dụng chính xác nhằm giảm thiểu tổn thất và nâng cao hiệu quả quản lý tín dụng. Bài toán dự đoán rủi ro tín dụng được xác định là việc phân loại các khoản vay vào các nhóm nợ theo quy định của Ngân hàng Nhà nước Việt Nam, gồm 5 nhóm từ nợ đủ tiêu chuẩn đến nợ nghi ngờ và nợ có khả năng mất vốn.

Mục tiêu nghiên cứu là ứng dụng và đánh giá hiệu quả một số kỹ thuật khai phá dữ liệu, đặc biệt là cây quyết định (C4.5), thuật toán dựa trên luật kết hợp (CBA) và máy vectơ hỗ trợ (SVM), trong việc dự đoán rủi ro tín dụng dựa trên tập dữ liệu thực tế gồm 32,393 khoản vay doanh nghiệp có tài sản bảo đảm. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập tại một ngân hàng thương mại Việt Nam trong giai đoạn trước năm 2008. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện độ chính xác dự đoán, hỗ trợ ngân hàng trong việc phân loại nợ, từ đó nâng cao hiệu quả quản lý rủi ro và giảm thiểu tỷ lệ nợ xấu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên khung lý thuyết khai phá tri thức từ dữ liệu (KDD) và khai phá dữ liệu (DM), trong đó quá trình KDD bao gồm các bước: làm sạch dữ liệu, tích hợp, lựa chọn, biến đổi, khai phá dữ liệu, đánh giá mẫu và biểu diễn tri thức. Các thuật toán khai phá dữ liệu được áp dụng gồm:

Cây quyết định C4.5: Thuật toán phân loại dựa trên khái niệm entropy và gain ratio, cho phép xử lý dữ liệu rời rạc và liên tục, có khả năng cắt tỉa cây để tránh quá khít dữ liệu.
Thuật toán dựa trên luật kết hợp (CBA): Kết hợp phân loại dựa trên các luật kết hợp trong cơ sở dữ liệu nhằm phát hiện các mẫu quan trọng.
Máy vectơ hỗ trợ (SVM): Phương pháp học máy mạnh mẽ, tối ưu hóa biên phân cách giữa các lớp dữ liệu, phù hợp với dữ liệu có nhiều chiều và phân bố không cân bằng.

Các khái niệm chính bao gồm: rủi ro tín dụng, nhóm nợ theo quy định Ngân hàng Nhà nước, dữ liệu không cân bằng (imbalanced data), oversampling, undersampling, và các chỉ số đánh giá mô hình như độ chính xác, recall, F-measure, và diện tích dưới đường cong ROC.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập dữ liệu thực tế gồm 32,393 khoản vay doanh nghiệp có tài sản bảo đảm, được thu thập từ một ngân hàng thương mại Việt Nam. Dữ liệu bao gồm 19 thuộc tính liên quan đến khách hàng, phương án sản xuất kinh doanh, tài sản bảo đảm và các thông tin khác. Quá trình tiền xử lý dữ liệu được thực hiện bằng phần mềm Weka 3.8, bao gồm xử lý giá trị thiếu, rời rạc hóa các thuộc tính số như thời hạn khoản vay, số tiền vay và phần trăm bảo đảm.

Phương pháp lấy mẫu dữ liệu được áp dụng nhằm xử lý dữ liệu không cân bằng, bao gồm oversampling (tăng mẫu lớp thiểu số), undersampling (giảm mẫu lớp đa số) và kết hợp cả hai. Ngoài ra, dữ liệu được hợp nhất từ 5 nhóm nợ thành 2 nhóm chính: nợ tốt (A_B) và nợ xấu (C_D_E) để cải thiện hiệu quả dự đoán.

Phân tích và đánh giá mô hình sử dụng kỹ thuật cross-validation 10-fold, với các chỉ số đánh giá như độ chính xác, recall, F-measure và ROC Area. Thời gian nghiên cứu kéo dài trong năm 2008, tập trung vào phân tích và thử nghiệm các thuật toán trên tập dữ liệu đã tiền xử lý.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của cây quyết định C4.5 không cắt tỉa trên tập dữ liệu gốc (D1): Mô hình đạt độ chính xác 91.22%, với số lá cây là 48,511 và kích thước cây 49,327. Tỷ lệ phân lớp đúng cao ở lớp nợ tốt (A) đạt 91.5%, tuy nhiên các lớp nợ xấu (C, D, E) có tỷ lệ phân lớp đúng thấp hơn, phản ánh tính không cân bằng dữ liệu.
Ảnh hưởng của cắt tỉa cây C4.5: Việc cắt tỉa cây giảm kích thước cây xuống còn 15,449 lá và kích thước 15,677, nhưng độ chính xác giảm nhẹ còn 90.91%. Các chỉ số recall và F-measure cũng giảm, cho thấy cắt tỉa cây làm mất một số thông tin quan trọng trong dự đoán rủi ro tín dụng.
Cải tiến bằng thuật toán AdaBoost.M1 kết hợp với C4.5: Sử dụng AdaBoost.M1 không cắt tỉa cây trên tập D1 nâng cao độ chính xác lên 91.62%, tăng 0.4% so với C4.5 đơn thuần. Các chỉ số recall và F-measure của nhóm nợ xấu tăng lần lượt 6.7% và 5.8%, cho thấy khả năng phát hiện nợ xấu được cải thiện rõ rệt.
Hợp nhất lớp nợ thành 2 nhóm (D2): Khi chuyển bài toán dự đoán từ 5 lớp thành 2 lớp (nợ tốt và nợ xấu), độ chính xác dự đoán tăng lên 97.72% với C4.5 không cắt tỉa cây, và 97.71% với cắt tỉa cây. Tuy nhiên, chỉ số ROC Area giảm nhẹ, cho thấy sự đánh đổi giữa độ chính xác tổng thể và khả năng phân biệt chi tiết các nhóm nợ.

Thảo luận kết quả

Kết quả cho thấy cây quyết định C4.5 là phương pháp hiệu quả trong dự đoán rủi ro tín dụng, đặc biệt khi không thực hiện cắt tỉa cây để giữ lại nhiều thông tin chi tiết. Việc áp dụng thuật toán AdaBoost.M1 giúp cải thiện đáng kể khả năng phân loại các khoản vay thuộc nhóm nợ xấu, điều này rất quan trọng trong quản lý rủi ro tín dụng.

Hợp nhất các nhóm nợ thành 2 lớp giúp tăng độ chính xác tổng thể do giảm bớt sự phân tán dữ liệu, tuy nhiên làm giảm khả năng phân biệt chi tiết giữa các mức độ rủi ro khác nhau. Điều này phù hợp với thực tế ngân hàng khi thường tập trung vào phân loại nợ tốt và nợ xấu để quyết định chính sách trích lập dự phòng.

Các kết quả cũng phù hợp với các nghiên cứu trong ngành tài chính ngân hàng, nơi dữ liệu không cân bằng là thách thức lớn và các kỹ thuật lấy mẫu cùng thuật toán tăng cường (boosting) được sử dụng phổ biến để cải thiện hiệu quả dự đoán.

Dữ liệu và kết quả có thể được trình bày qua các biểu đồ ROC, bảng ma trận nhầm lẫn (confusion matrix) và biểu đồ so sánh các chỉ số đánh giá giữa các mô hình, giúp trực quan hóa hiệu quả của từng phương pháp.

Đề xuất và khuyến nghị

Áp dụng thuật toán AdaBoost.M1 kết hợp với cây quyết định C4.5 không cắt tỉa để nâng cao độ chính xác dự đoán rủi ro tín dụng, đặc biệt trong việc phát hiện các khoản vay có nguy cơ nợ xấu cao. Thời gian triển khai: 6 tháng; chủ thể thực hiện: phòng phân tích rủi ro ngân hàng.
Tiến hành hợp nhất nhóm nợ thành 2 lớp chính (nợ tốt và nợ xấu) trong các hệ thống quản lý tín dụng để đơn giản hóa mô hình dự đoán và tăng hiệu quả phân loại. Thời gian: 3 tháng; chủ thể: bộ phận quản lý tín dụng.
Tăng cường công tác tiền xử lý dữ liệu, đặc biệt xử lý dữ liệu không cân bằng bằng các kỹ thuật lấy mẫu lên (oversampling) và lấy mẫu xuống (undersampling) nhằm cải thiện chất lượng dữ liệu đầu vào cho mô hình. Thời gian: liên tục; chủ thể: bộ phận công nghệ thông tin và phân tích dữ liệu.
Đào tạo và nâng cao năng lực cho cán bộ phân tích dữ liệu và quản lý rủi ro về các kỹ thuật khai phá dữ liệu và học máy để đảm bảo vận hành hiệu quả các mô hình dự đoán. Thời gian: 12 tháng; chủ thể: phòng nhân sự và đào tạo.
Xây dựng hệ thống giám sát và đánh giá liên tục hiệu quả mô hình dự đoán rủi ro tín dụng, cập nhật dữ liệu và điều chỉnh mô hình phù hợp với biến động thị trường và chính sách tín dụng. Thời gian: liên tục; chủ thể: phòng quản lý rủi ro.

Đối tượng nên tham khảo luận văn

Chuyên viên và quản lý rủi ro tín dụng tại các ngân hàng thương mại: Nghiên cứu cung cấp phương pháp và công cụ dự đoán rủi ro tín dụng hiệu quả, giúp nâng cao chất lượng phân loại nợ và quản lý rủi ro.
Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, khoa học dữ liệu và tài chính ngân hàng: Luận văn trình bày chi tiết các kỹ thuật khai phá dữ liệu, phương pháp xử lý dữ liệu không cân bằng và ứng dụng thực tế trong lĩnh vực tài chính.
Chuyên gia phát triển phần mềm và hệ thống quản lý tín dụng: Tham khảo các thuật toán và quy trình tiền xử lý dữ liệu để thiết kế và triển khai các hệ thống dự đoán rủi ro tín dụng chính xác và hiệu quả.
Cơ quan quản lý nhà nước và các tổ chức tài chính: Tài liệu giúp hiểu rõ hơn về các phương pháp đánh giá và dự đoán rủi ro tín dụng, hỗ trợ xây dựng chính sách quản lý và giám sát tín dụng phù hợp.

Câu hỏi thường gặp

Tại sao phải xử lý dữ liệu không cân bằng trong bài toán dự đoán rủi ro tín dụng?
Dữ liệu không cân bằng khiến mô hình thiên về lớp chiếm đa số, làm giảm khả năng phát hiện các khoản vay rủi ro cao (lớp thiểu số). Xử lý dữ liệu không cân bằng bằng kỹ thuật lấy mẫu giúp cân bằng phân bố, cải thiện độ chính xác dự đoán các khoản vay rủi ro.
Cây quyết định C4.5 có ưu điểm gì so với các phương pháp khác?
C4.5 dễ hiểu, xử lý được cả dữ liệu rời rạc và liên tục, không yêu cầu chuẩn hóa dữ liệu phức tạp, và có khả năng cắt tỉa cây để tránh quá khít dữ liệu, phù hợp với nhiều bài toán phân loại trong thực tế.
AdaBoost.M1 giúp cải thiện mô hình như thế nào?
AdaBoost.M1 là thuật toán tăng cường (boosting) giúp tập trung học trên các mẫu khó phân loại, từ đó cải thiện độ chính xác và khả năng phân biệt của mô hình, đặc biệt hiệu quả với dữ liệu không cân bằng.
Việc hợp nhất nhóm nợ có ảnh hưởng gì đến kết quả dự đoán?
Hợp nhất nhóm nợ thành 2 lớp giúp tăng độ chính xác tổng thể và đơn giản hóa mô hình, nhưng có thể làm giảm khả năng phân biệt chi tiết giữa các mức độ rủi ro khác nhau, cần cân nhắc tùy theo mục tiêu quản lý.
Làm thế nào để đánh giá hiệu quả mô hình dự đoán rủi ro tín dụng?
Hiệu quả được đánh giá qua các chỉ số như độ chính xác, recall (độ nhạy), F-measure (trung bình điều hòa giữa precision và recall), và diện tích dưới đường cong ROC, cùng với ma trận nhầm lẫn để phân tích chi tiết kết quả phân loại.

Kết luận

Nghiên cứu đã áp dụng thành công các kỹ thuật khai phá dữ liệu, đặc biệt là cây quyết định C4.5 và thuật toán AdaBoost.M1, để dự đoán rủi ro tín dụng trên tập dữ liệu thực tế với hơn 32,000 khoản vay doanh nghiệp.
Việc xử lý dữ liệu không cân bằng và hợp nhất nhóm nợ thành 2 lớp giúp cải thiện đáng kể hiệu quả dự đoán, đặc biệt trong phát hiện các khoản vay có nguy cơ nợ xấu.
Cắt tỉa cây quyết định làm giảm kích thước mô hình nhưng cũng làm giảm độ chính xác, do đó không nên áp dụng cắt tỉa trong bài toán này.
Thuật toán AdaBoost.M1 giúp nâng cao độ chính xác và khả năng phân loại các khoản vay rủi ro, là giải pháp ưu việt cho bài toán dự đoán rủi ro tín dụng.
Các bước tiếp theo bao gồm triển khai mô hình vào hệ thống quản lý tín dụng thực tế, đào tạo nhân sự và xây dựng hệ thống giám sát hiệu quả mô hình.

Hành động ngay: Các ngân hàng và tổ chức tài chính nên xem xét áp dụng các kỹ thuật khai phá dữ liệu hiện đại như trong nghiên cứu để nâng cao hiệu quả quản lý rủi ro tín dụng, đồng thời đầu tư vào công tác tiền xử lý dữ liệu và đào tạo chuyên môn cho đội ngũ phân tích.

Trích đoạn nội dung tài liệu

Chương 1 - TỔNG QUAN KHAI PHÁ TRI THỨC TỪ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU 1.1 Giới thiệu khai phá tri thức từ dữ liệu và khai phá dữ liệu Hiện nay có nhiều ñịnh nghĩa về khai phá dữ liệu: theo Witten [2] khai phá dữ liệu là quá trình khai phá các mẫu trong dữ liệu. Quá trình phải là tự ñộng hoặc bán tự ñộng. Các mẫu khám phá phải có ý nghĩa. Còn theo Dunham[3] thì khai phá dữ liệu là quá trình tìm kiếm thông tin ẩn chứa trong dữ liệu.

Hay ñịnh nghĩa của Roiger thì khai phá dữ liệu là quá trình tận dụng một hay một số kỹ thuật học máy ñể tự ñộng phân tích và trích chọn tri thức từ dữ liệu bên trong CSDL. Tựu chung lại thì khai phá dữ liệu (DM) là phân tích tập dữ liệu quan sát lớn ñể tìm ra các mối liên hệ hiển nhiên và tổng quát hóa dữ liệu theo các cách ñể hiểu ñược và có ý nghĩa cho chính dữ liệu. DM là một quá trình khai phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu ñã có. DM chỉ là một bước của quá trình khai phá tri thức từ dữ liệu (KDD - Knowledge Discovery in Data Process).

Quá trình KDD Quá trình khai phá tri thức từ dữ liệu bao gồm một số bước từ các bộ dữ liệu ñến tri thức mới. Quá trình này bao gồm các bước lặp như sau [4]: Hình 1.1 – Quá trình KDD. • Làm sạch dữ liệu (Data cleaning): giai ñoạn này thực hiện việc loại bỏ các dữ liệu nhiễu, dữ liệu không phù hợp khỏi bộ dữ liệu ñược sử dụng ñể khai phá tri thức. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 • Tích hợp dữ liệu (Data integration): trong giai ñoạn này nhiều nguồn dữ liệu, thường là hỗn hợp sẽ ñược tổng hợp vào một nguồn phổ biến.

• Lựa chọn dữ liệu (Data selection): trong bước này, dữ liệu không liên quan ñược phân tích ñể quyết ñịnh giữ lại hay loại bỏ khỏi tập dữ liệu. Giai ñoạn này thực hiện việc lựa chọn các trường của mỗi mẫu dữ liệu ñể thực hiện khai phá tri thức thu ñược kết quả cao. • Biến ñổi dữ liệu (Data transformation): có thể coi như hợp nhất dữ liệu, ñây là giai ñoạn mà dữ liệu ñược lựa chọn ñược biến ñổi vào các mẫu thích hợp cho quá trình khai phá. • Khai phá dữ liệu (Data mining): ñây là giai ñoạn quyết ñịnh của quá trình khai phá tri thức từ dữ liệu.

Các kỹ thuật ñược sử dụng trong giai ñoạn này nhằm lấy ra các mẫu hữu ích tiềm ẩn. • ðánh giá các mẫu (Pattern evaluation): trong bước này, các mẫu biểu diễn tri thức hấp dẫn ñược nhận biết dựa trên các ñộ ño ñược ñưa ra. • Biểu diễn tri thức (Knowledge representation): là giai ñoạn cuối của quá trình khai phá tri thức từ dữ liệu, nhằm biểu diễn trực quan tri thức cho người dùng. Bước quan trọng này sử dụng các kỹ thuật trực quan ñể giúp người sử dụng hiểu và biểu diễn các kết quả khai phá dữ liệu.

Thông thường một số bước ñược gộp lại với nhau. Ví dụ làm sạch dữ liệu (data cleaning) và tích hợp dữ liệu có thể ñược gộp với nhau thành giai ñoạn tiền xử lý dữ liệu (preprocessing) ñể sinh ra một kho dữ liệu (data warehouse). Lựa chọn dữ liệu (data selection) và biến ñổi dữ liệu (data transformation) có thể ñược gộp lại thành giai ñoạn hợp nhất dữ liệu, các dữ liệu ñược lựa chọn sẽ ñược biến ñổi ñể tạo thành tập dữ liệu có ñịnh dạng thống nhất. KDD là một quá trình lặp.

Mỗi khi tri thức khai phá ñược biểu diễn cho người dùng, các ñộ ño ñánh giá có thể ñược nâng cao, khai phá có thể ñược cải tiến trong tương lai, dữ liệu mới có thể ñược chọn hoặc biến ñổi trong tương lai, hoặc các nguồn dữ liệu mới có thể ñược tích hợp nhằm thu ñược các kết quả khác, thích hợp hơn. Quá trình Data mining Quá trình khai phá dữ liệu chỉ là một giai ñoạn của khai phá tri thức trong CSDL. Quá trình này phải ñáng tin cậy và có thể dùng lại ñối với người dùng ít hiểu biết về Data mining. Do ñó quy trình chuẩn công nghiệp Cross cho khai phá dữ liệu (CRISP-DM: CRoss Industry Standard Process for Data mining) ñã ñược một số tổ chức, công ty (SPSS/ISL, NCR, Daimler-Benz, OHRA) hợp tác phát triển và công bố LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

CRISP là một tiến trình chuẩn miễn phí, ñược sử dụng ñể xử lý vấn ñề khai phá dữ liệu trong thương mại và nghiên cứu [5]. CRISP-DM là một vòng ñời bao gồm 6 giai ñoạn, ñược biểu diễn như hình sau: Hình 1.2 – Quá trình CRISP-DM. • Tìm hiểu nghiệp vụ (Business understanding): ñây là giai ñoạn ñầu tiên của quá trình chuẩn CRISP-DM, cũng có thể ñược hiểu là giai ñoạn tìm hiểu nghiên cứu. Phát biểu các mục tiêu của dự án và các yêu cầu rõ ràng trong phạm vi yêu cầu nghiệp vụ hoặc nghiên cứu.

Biến ñổi các mục tiêu và các giới hạn vào các mẫu phát biểu ñịnh nghĩa vấn ñề của data mining. Chuẩn bị ñưa ra các chiến lược ñể ñạt ñược những mục tiêu. • Tìm hiểu dữ liệu (Data understanding): giai ñoạn này gồm các công việc chính là: Tập hợp dữ liệu. Sử dụng các phân tích dữ liệu mang tính thăm dò ñể hiểu dữ liệu và khai phá sự hiểu biết ban ñầu ðánh giá chất lượng dữ liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 15 Nếu ñược ñề nghị thì lựa chọn các tập con hấp dẫn mà có thể gồm các mẫu có thể hữu ích.

• Chuẩn bị dữ liệu (Data preparation): chuẩn bị dữ liệu từ những dòng ban ñầu ñến tập dữ liệu cuối cùng ñược sử dụng trong các giai ñoạn sau. Giai ñoạn này lựa chọn các tình huống và các biến mà ta muốn phân tích mà liên quan ñến phân tích của chúng ta. Thực hiện các biến ñổi trên các biến chắc chắn, nếu cần thiết. Làm sạch các dòng dữ liệu ñã sẵn sàng cho các công cụ mô hình hóa • Mô hình hóa (Modeling): giai ñoạn này bao gồm các công việc chính là: Lựa chọn và sử dụng các kỹ thuật mô hình hóa phù hợp.

Chỉnh sửa các thiết lập mô hình ñể tối ưu các kết quả. Nếu cần thiết, lặp lại giai ñoạn chuẩn bị dữ liệu (preparation) ñể lấy các mẫu của dữ liệu vào các yêu cầu cụ thể của một kỹ thuật khai phá dữ liệu. • ðánh giá (Evaluation): ðánh giá chất lượng và hiệu lực của một hoặc nhiều mô hình ñược thực hiện trong giai ñoạn mô hình hóa trước khi triển khai chúng cho sử dụng trong thực tế. Xác ñịnh mô hình thực tế ñã thu ñược tập mục tiêu ở giai ñoạn ñầu tiên hay chưa.

ðưa vào một số khía cạnh quan trọng của vấn ñề nghiệp vụ hoặc nghiên cứu mà chưa thu ñược thích ñáng. ði ñến các quyết ñịnh sử dụng các kết quả khai phá dữ liệu. • Triển khai (Deployment): Sử dụng các mô hình ñã tạo: Tạo các mô hình không có nghĩa là hoàn thành dự án. Thí ñiểm một triển khai ñơn giản: sinh ra báo cáo.

Thí ñiểm triển khai phức tạp hơn: thực hiện quá trì khai phá dữ liệu song song trong bộ phận khác. Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng ñể phân các dữ liệu mới vào một trong LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 16 những lớp (còn gọi là loại) ñã ñược xác ñịnh trước. Nhận dạng cũng là một bài toán thuộc kiểu Phân loại. Các giải thuật Tìm luật liên kết (Association Rule) tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường ñược mua kèm với nhau trong siêu thị.

Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các ñối tượng dữ liệu có tính chất giống nhau vào cùng một nhóm. Mỗi cụm là một tập hợp các ñối tượng dữ liệu giống nhau và khác với các ñối tượng cụm khác. Phân cụm khác với phân lớp ở chỗ không có biến ñích cho phân cụm. Phân cụm không cố gắng phân lớp, ước lượng, dự ñoán giá trị của một biến ñích.

Thay vào ñó, các thuật toán phân cụm sẽ tìm các mảng dữ liệu có quan hệ với nhau tạo thành các nhóm hoặc các cụm. Mô tả dữ liệu (Description): ñôi khi các nhà nghiên cứu và phân tích thường tìm các cách ñể mô tả các mẫu và xu hướng của dữ liệu. Các mô hình khai phá dữ liệu có thể trong suốt. Vì vậy kết quả của mô hình khai phá dữ liệu phải mô tả các mẫu rõ ràng như hình cây, các luật hay ñồ họa.

Ước lượng (Estimation): tương tự như phân lớp ngoại trừ biến ñích là số thay vì chủ ñề như phân lớp. Các mô hình ñược xây dựng sử dụng các bản ghi ñầy ñủ, nó cung cấp giá trị của biến ñích như dự ñoán. Sau ñó các quan sát mới, ñánh giá giá trị của biến ñích ñược thực hiện, dựa vào các giá trị của dự ñoán. Ví dụ: ước lượng số bệnh nhân huyết áp cao trong bệnh viện dựa vào ñộ tuổi, giới tính, … Quan hệ giữa bệnh nhân huyết áp cao và các biến dự ñoán trong tập huấn luyện sẽ cung cấp cho ta mô hình ước lượng.

Chúng ta có thể sử dụng mô hình này cho các trường hợp mới. Dự ñoán (Prediction): Tương tự như phân lớp và ước lượng. Tuy nhiên dự ñoán ñưa ra kết quả là trong tương lai. Bài toán dự ñoán rủi ro tín dụng trong luận văn là một ví dụ của dự ñoán.

Bất kỳ phương pháp và kỹ thuật nào sử dụng cho phân lớp và ước lượng ñều có thể sử dụng(thích hợp) cho dự ñoán.3 ðánh giá mô hình dự ñoán ðể ñánh giá một mô hình dự ñoán người ta thường sử dụng một số ñộ ño như bảng sau [7]: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 17 ðộ ño Công thức mean-squared error ( p1 − a1 ) +. + ( p n − a n ) 2 n mean absolute error | p1 − a1 | +.+ | p n − an | 2 2 n relative squared error ( p1 − a1 ) 2 + .+ | a n − a | 2 , a = ∑ ai n i relative absolute error ( p1 − a1 ) 2 + .+ | a n − a | 2 root relative squared error | p1 − a1 | +.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Phân tích và đánh giá rủi ro tín dụng

khai phá tri thức và dữ liệu

ứng dụng học máy trong tài chính ngân hàng