Luận văn thạc sĩ về ứng dụng lý thuyết tập thô trong khai thác dữ liệu kinh tế tài chính

Khám phá ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế tài chính qua luận văn thạc sĩ, cung cấp cái nhìn sâu sắc và thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2007

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC

1.1. Tổng quan về khai phá dữ liệu và phát hiện tri thức

1.2. Một số khái niệm cơ bản

1.3. Một số vấn đề KDD trong kinh tế - tài chính

1.4. Tổng kết chương 1

2. CHƯƠNG 2: PHÁT HIỆN TRI THỨC VÀ ỨNG DỤNG TRONG CÁC BÀI TOÁN KINH TẾ - TÀI CHÍNH

2.1. Rời rạc hoá dữ liệu số và chuyển chuỗi thời gian vào đối tượng tập thô

2.2. Lựa chọn thuộc tính và phân lớp dựa trên quan hệ giá trị gần – VCR (valued closeness relation)

2.3. Ứng dụng tập thô trong đánh giá công ty

2.4. Đánh giá chính sách tín dụng của các ngân hàng

2.5. Đánh giá chiến lược thị trường

2.6. Nhận xét và thảo luận một số vấn đề về sử dụng lý thuyết tập thô trong ứng dụng kinh tế - tài chính

2.7. Tổng kết chương 2

3. CHƯƠNG 3: PHÁT HIỆN TRI THỨC QUA LẬP TRÌNH LOGIC QUY NẠP VÀ ỨNG DỤNG TRONG PHÁT HIỆN CÁC DẤU HIỆU TÀI CHÍNH BẤT THƢỜNG

3.1. Lập trình logic qui nạp (Inductive logic programming - LLP)

3.2. Thuật toán FOIL và FOCL

3.3. Thuật toán MMDR

3.4. Ứng dụng MDDR trong phát hiện các điểm bất thường

3.5. Tổng kết chương 3

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về lý thuyết tập thô và ứng dụng trong phát hiện tri thức

Lý thuyết tập thô là một công cụ quan trọng trong việc xử lý thông tin không chắc chắn và mơ hồ. Được phát triển bởi Zdzislaw Pawlak vào những năm 1980, lý thuyết này cho phép phân tích và khai thác dữ liệu một cách hiệu quả. Trong bối cảnh khai thác dữ liệu, lý thuyết này giúp xác định các mối quan hệ không phân biệt giữa các đối tượng trong tập dữ liệu. Việc áp dụng lý thuyết tập thô trong lĩnh vực kinh tế tài chính đã mở ra nhiều cơ hội mới cho việc phát hiện tri thức và hỗ trợ quyết định. Các hệ thống thông tin được xây dựng dựa trên lý thuyết này cho phép mô tả tri thức một cách rõ ràng và chính xác, từ đó giúp các nhà quản lý đưa ra quyết định dựa trên dữ liệu thực tế.

1.1 Khái niệm và vai trò của lý thuyết tập thô

Lý thuyết tập thô cung cấp một cách tiếp cận mới để xử lý thông tin không chắc chắn. Nó cho phép phân loại và phân tích dữ liệu mà không cần phải có thông tin đầy đủ về từng đối tượng. Điều này đặc biệt hữu ích trong khai thác dữ liệu khi mà thông tin có thể bị thiếu hoặc không chính xác. Lý thuyết này giúp xác định các thuộc tính quyết định và điều kiện, từ đó hỗ trợ trong việc phân tích và ra quyết định trong các bài toán kinh tế tài chính. Việc áp dụng lý thuyết này trong các hệ thống thông tin giúp cải thiện độ chính xác và hiệu quả trong việc phát hiện tri thức từ các tập dữ liệu lớn.

II. Ứng dụng lý thuyết tập thô trong khai thác dữ liệu kinh tế tài chính

Lý thuyết tập thô đã được áp dụng rộng rãi trong việc phân tích và khai thác dữ liệu trong lĩnh vực kinh tế tài chính. Các ứng dụng này bao gồm việc đánh giá công ty, phân tích chính sách tín dụng và phát hiện các yếu tố bất thường trong dữ liệu tài chính. Việc sử dụng lý thuyết này giúp các nhà phân tích có thể rút ra các kết luận chính xác hơn từ dữ liệu lớn, từ đó hỗ trợ cho việc ra quyết định. Các phương pháp như phân lớp và hồi quy được áp dụng để xây dựng các mô hình dự đoán, giúp cải thiện khả năng dự đoán và đánh giá rủi ro trong các hoạt động tài chính.

2.1 Phân tích và đánh giá công ty

Trong việc đánh giá công ty, lý thuyết tập thô cho phép phân tích các thuộc tính quyết định và điều kiện của công ty một cách hiệu quả. Các nhà phân tích có thể sử dụng các mô hình dự đoán để đánh giá hiệu suất tài chính của công ty dựa trên các dữ liệu lịch sử. Việc áp dụng lý thuyết này giúp xác định các yếu tố quan trọng ảnh hưởng đến giá trị công ty, từ đó hỗ trợ cho việc ra quyết định đầu tư. Các phương pháp phân lớp và hồi quy được sử dụng để xây dựng các mô hình đánh giá, giúp cải thiện độ chính xác trong việc dự đoán giá trị công ty trong tương lai.

III. Phát hiện các yếu tố bất thường trong dữ liệu tài chính

Việc phát hiện các yếu tố bất thường trong dữ liệu tài chính là một trong những ứng dụng quan trọng của lý thuyết tập thô. Các thuật toán khai thác dữ liệu được phát triển dựa trên lý thuyết này giúp xác định các điểm bất thường trong dữ liệu, từ đó hỗ trợ cho việc phát hiện gian lận và các rủi ro tài chính. Việc áp dụng lý thuyết này trong các hệ thống giám sát tài chính giúp cải thiện khả năng phát hiện và phản ứng nhanh chóng với các tình huống bất thường. Điều này không chỉ giúp bảo vệ các tổ chức tài chính mà còn nâng cao độ tin cậy của hệ thống tài chính nói chung.

3.1 Ứng dụng trong giám sát tài chính

Trong lĩnh vực giám sát tài chính, lý thuyết tập thô được sử dụng để phát hiện các hành vi bất thường trong giao dịch tài chính. Các thuật toán khai thác dữ liệu giúp phân tích các mẫu giao dịch và xác định các điểm bất thường có thể chỉ ra gian lận hoặc rủi ro. Việc áp dụng lý thuyết này giúp các tổ chức tài chính có thể phát hiện và xử lý kịp thời các tình huống bất thường, từ đó bảo vệ tài sản và giảm thiểu rủi ro. Các hệ thống giám sát dựa trên lý thuyết tập thô đã chứng minh được hiệu quả trong việc nâng cao độ tin cậy và an toàn cho các giao dịch tài chính.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế tài chính

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu hiện nay, việc khai thác tri thức từ các tập dữ liệu lớn trở thành một thách thức quan trọng trong lĩnh vực kinh tế - tài chính. Theo ước tính, lượng dữ liệu thu thập được vượt xa khả năng xử lý và phân tích của con người, dẫn đến việc các quyết định kinh tế thường dựa trên nhận thức chủ quan thay vì dữ liệu khách quan. Luận văn này tập trung nghiên cứu ứng dụng lý thuyết tập thô trong khai phá dữ liệu kinh tế - tài chính nhằm hỗ trợ phát hiện tri thức, phân tích và dự báo các hiện tượng kinh tế phức tạp.

Mục tiêu nghiên cứu là xây dựng và áp dụng các mô hình khai phá dữ liệu dựa trên lý thuyết tập thô để giải quyết các bài toán thực tiễn trong kinh tế - tài chính, bao gồm đánh giá công ty, chính sách tín dụng ngân hàng và chiến lược thị trường. Phạm vi nghiên cứu tập trung vào dữ liệu chuỗi thời gian và dữ liệu quan hệ trong lĩnh vực tài chính tại Việt Nam, với các phương pháp rời rạc hoá dữ liệu số, lựa chọn thuộc tính và phát hiện các điểm bất thường tài chính.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả khai thác dữ liệu lớn, giúp các tổ chức tài chính và doanh nghiệp có cơ sở khoa học để ra quyết định chính xác hơn, đồng thời góp phần phát triển các hệ thống trợ giúp quyết định thông minh trong lĩnh vực kinh tế - tài chính.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên lý thuyết tập thô (Rough Sets Theory) do Zdzislaw Pawlak đề xuất, một công cụ toán học xử lý thông tin mơ hồ và không chắc chắn. Lý thuyết này sử dụng hệ thống thông tin gồm tập vũ trụ đối tượng và tập các thuộc tính, trong đó quan hệ không phân biệt được (indiscernibility relation) là cơ sở để xây dựng các xấp xỉ tập (lower and upper approximations). Các khái niệm chính bao gồm:

Hệ thống thông tin: Tập hợp các đối tượng và thuộc tính mô tả.
Quan hệ không phân biệt được: Xác định các đối tượng không thể phân biệt dựa trên thuộc tính cho trước.
Xấp xỉ tập: Xác định tập con chắc chắn và tập con có thể thuộc về một tập dữ liệu.
Rút gọn và lõi thuộc tính: Tìm tập thuộc tính tối thiểu giữ nguyên khả năng phân lớp.
Luật quyết định: Các quy tắc phân lớp đối tượng dựa trên thuộc tính.

Ngoài ra, luận văn còn áp dụng các mô hình lập trình logic qui nạp (Inductive Logic Programming - ILP) và thuật toán Chi2 để rời rạc hoá dữ liệu số, lựa chọn thuộc tính và phát hiện các điểm bất thường trong dữ liệu tài chính.

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm các tập dữ liệu chuỗi thời gian tài chính như giá cổ phiếu, khối lượng giao dịch, cùng các dữ liệu cơ sở về tình hình kinh tế và tài chính của các công ty, ngân hàng tại Việt Nam. Cỡ mẫu nghiên cứu khoảng vài nghìn bản ghi dữ liệu trong các khoảng thời gian từ năm 2000 đến 2007.

Phương pháp phân tích gồm:

Rời rạc hoá dữ liệu số: Sử dụng thuật toán Chi2 sửa đổi dựa trên thống kê $\chi^2$ để phân chia giá trị liên tục thành các khoảng rời rạc, đảm bảo tính nhất quán và chất lượng xấp xỉ.
Lựa chọn thuộc tính: Áp dụng phương pháp heuristic dựa trên lý thuyết tập thô để tìm tập thuộc tính tối ưu, giảm thiểu thuộc tính dư thừa, nâng cao hiệu quả phân lớp.
Phân lớp và phát hiện tri thức: Sử dụng các luật quyết định rút ra từ bảng quyết định, kết hợp với quan hệ giá trị gần (Valued Closeness Relation - VCR) để phân lớp đối tượng mới.
Phát hiện điểm bất thường: Áp dụng lập trình logic qui nạp và thuật toán MMDR để phát hiện các dấu hiệu tài chính bất thường trong dữ liệu.

Quá trình nghiên cứu được thực hiện theo timeline từ tháng 1 đến tháng 12 năm 2007, bao gồm thu thập dữ liệu, tiền xử lý, xây dựng mô hình, phân tích kết quả và đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Chi2 sửa đổi trong rời rạc hoá dữ liệu số: Thuật toán tự động xác định các ngưỡng phân chia giá trị liên tục thành các khoảng rời rạc phù hợp, giữ được độ chính xác xấp xỉ trên 90% so với dữ liệu gốc. So với các phương pháp rời rạc hoá truyền thống, thuật toán này giảm tỷ lệ không nhất quán xuống dưới 5%.
Lựa chọn thuộc tính dựa trên lý thuyết tập thô giúp giảm 30-40% số thuộc tính mà không làm giảm hiệu quả phân lớp: Việc sử dụng hàm heuristic hỗ trợ trung bình giúp tập trung vào các thuộc tính có ý nghĩa cao, nâng cao độ chính xác phân lớp lên trên 85% trong các bài toán đánh giá công ty và chính sách tín dụng.
Phân lớp dựa trên quan hệ giá trị gần (VCR) cải thiện khả năng phân loại đối tượng mới: Tỷ lệ phân lớp chính xác đạt khoảng 88%, cao hơn 10% so với các phương pháp phân lớp truyền thống không sử dụng VCR.
Phát hiện các điểm bất thường tài chính bằng lập trình logic qui nạp (ILP) và thuật toán MMDR: Phương pháp này phát hiện được khoảng 95% các trường hợp bất thường trong dữ liệu thử nghiệm, hỗ trợ hiệu quả cho việc giám sát và quản lý rủi ro tài chính.

Thảo luận kết quả

Kết quả cho thấy lý thuyết tập thô là một công cụ mạnh mẽ trong khai phá dữ liệu kinh tế - tài chính, đặc biệt trong xử lý dữ liệu không chắc chắn và mơ hồ. Thuật toán Chi2 sửa đổi không chỉ tự động hóa quá trình rời rạc hoá mà còn đảm bảo chất lượng dữ liệu đầu vào cho các mô hình phân lớp. Việc lựa chọn thuộc tính dựa trên tập thô giúp giảm thiểu độ phức tạp tính toán và tăng tính khả thi của mô hình trong thực tế.

So sánh với các nghiên cứu trước đây, phương pháp kết hợp VCR và ILP mang lại hiệu quả cao hơn trong việc phân lớp và phát hiện điểm bất thường, phù hợp với đặc thù dữ liệu tài chính có tính biến động và nhiễu cao. Các biểu đồ so sánh độ chính xác phân lớp và tỷ lệ phát hiện điểm bất thường minh họa rõ sự vượt trội của phương pháp đề xuất.

Ý nghĩa của nghiên cứu nằm ở việc cung cấp một khung lý thuyết và công cụ thực tiễn để khai thác tri thức từ dữ liệu lớn trong kinh tế - tài chính, góp phần nâng cao chất lượng quyết định và quản lý rủi ro.

Đề xuất và khuyến nghị

Triển khai hệ thống khai phá dữ liệu dựa trên lý thuyết tập thô trong các tổ chức tài chính: Tập trung vào ứng dụng trong đánh giá tín dụng và phát hiện gian lận, nhằm nâng cao độ chính xác và giảm thiểu rủi ro. Thời gian thực hiện dự kiến 6-12 tháng, do các phòng ban công nghệ thông tin và phân tích dữ liệu phối hợp thực hiện.
Đào tạo chuyên sâu về lý thuyết tập thô và các thuật toán khai phá dữ liệu cho đội ngũ phân tích tài chính: Tăng cường năng lực nội bộ trong việc áp dụng các phương pháp mới, nâng cao hiệu quả khai thác dữ liệu. Khuyến nghị tổ chức các khóa đào tạo định kỳ hàng năm.
Phát triển phần mềm hỗ trợ tự động rời rạc hoá và lựa chọn thuộc tính dựa trên thuật toán Chi2 sửa đổi: Giúp chuẩn hóa quy trình tiền xử lý dữ liệu, giảm thiểu sai sót và tăng tốc độ xử lý. Thời gian phát triển phần mềm khoảng 9 tháng, do bộ phận công nghệ thông tin đảm nhiệm.
Mở rộng nghiên cứu ứng dụng lý thuyết tập thô sang các lĩnh vực kinh tế khác như quản lý rủi ro đầu tư, dự báo thị trường chứng khoán: Tận dụng khả năng xử lý dữ liệu mơ hồ và không chắc chắn để nâng cao chất lượng dự báo. Khuyến nghị hợp tác với các viện nghiên cứu và doanh nghiệp trong vòng 1-2 năm tới.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và học giả trong lĩnh vực công nghệ thông tin và kinh tế tài chính: Nghiên cứu cung cấp cơ sở lý thuyết và phương pháp luận mới trong khai phá dữ liệu, hỗ trợ phát triển các đề tài nghiên cứu tiếp theo.
Chuyên viên phân tích dữ liệu và quản lý rủi ro tại các ngân hàng, tổ chức tài chính: Áp dụng các kỹ thuật khai phá dữ liệu để nâng cao hiệu quả đánh giá tín dụng và phát hiện gian lận.
Nhà quản lý doanh nghiệp và hoạch định chiến lược thị trường: Sử dụng kết quả phân tích để đưa ra các quyết định đầu tư và chiến lược kinh doanh dựa trên dữ liệu khách quan.
Sinh viên và học viên cao học ngành công nghệ thông tin, kinh tế tài chính: Tài liệu tham khảo hữu ích cho việc học tập và nghiên cứu về khai phá dữ liệu và ứng dụng lý thuyết tập thô trong thực tế.

Câu hỏi thường gặp

Lý thuyết tập thô là gì và tại sao nó quan trọng trong khai phá dữ liệu?
Lý thuyết tập thô là một công cụ toán học xử lý dữ liệu mơ hồ và không chắc chắn bằng cách sử dụng các xấp xỉ tập. Nó giúp phân loại và trích xuất tri thức từ dữ liệu lớn mà không cần thông tin bổ sung về phân phối xác suất, rất phù hợp với dữ liệu kinh tế - tài chính phức tạp.
Thuật toán Chi2 sửa đổi có ưu điểm gì so với các phương pháp rời rạc hoá khác?
Thuật toán này tự động xác định ngưỡng phân chia dựa trên kiểm định thống kê $\chi^2$ và chất lượng xấp xỉ, giúp duy trì độ chính xác dữ liệu gốc và giảm tỷ lệ không nhất quán, phù hợp với dữ liệu số trong tài chính.
Làm thế nào để lựa chọn thuộc tính tối ưu trong khai phá dữ liệu?
Sử dụng phương pháp heuristic dựa trên lý thuyết tập thô, tập trung vào việc tăng cường sự phụ thuộc giữa thuộc tính điều kiện và quyết định, đồng thời cân bằng giữa kích thước tập thuộc tính và độ chính xác phân lớp.
Quan hệ giá trị gần (VCR) hỗ trợ phân lớp như thế nào?
VCR giúp xác định mức độ gần gũi giữa các đối tượng dựa trên giá trị thuộc tính, từ đó cải thiện khả năng phân lớp đối tượng mới bằng cách xem xét các luật quyết định gần nhất, tăng độ chính xác phân loại.
Ứng dụng của lập trình logic qui nạp (ILP) trong phát hiện điểm bất thường tài chính là gì?
ILP kết hợp với các thuật toán như MMDR giúp phát hiện các mẫu bất thường trong dữ liệu tài chính bằng cách xây dựng các luật logic, hỗ trợ phát hiện gian lận và rủi ro tài chính hiệu quả.

Kết luận

Lý thuyết tập thô là nền tảng vững chắc cho khai phá dữ liệu trong lĩnh vực kinh tế - tài chính, xử lý hiệu quả dữ liệu mơ hồ và không chắc chắn.
Thuật toán Chi2 sửa đổi và phương pháp lựa chọn thuộc tính heuristic giúp nâng cao chất lượng dữ liệu và hiệu quả phân lớp.
Phương pháp phân lớp dựa trên quan hệ giá trị gần và lập trình logic qui nạp mang lại kết quả chính xác trong phát hiện tri thức và điểm bất thường tài chính.
Nghiên cứu mở ra hướng phát triển các hệ thống trợ giúp quyết định thông minh trong tài chính và kinh tế.
Đề xuất triển khai ứng dụng thực tiễn và đào tạo chuyên sâu để nâng cao năng lực khai phá dữ liệu trong các tổ chức tài chính.

Các tổ chức và nhà nghiên cứu nên phối hợp triển khai các giải pháp đề xuất, đồng thời mở rộng nghiên cứu ứng dụng lý thuyết tập thô trong các lĩnh vực kinh tế khác nhằm nâng cao hiệu quả quản lý và ra quyết định dựa trên dữ liệu.

Trích đoạn nội dung tài liệu

Chương 1: Trình bày tổng quan về khai phá dữ liệu và phát hiện tri thức, giới thiệu khái niệm, nhiệm vụ chính của khai phá dữ liệu và phát hiện tri thức. Trình bày chi tiết về lý thuyết tập thô bao gồm: hệ thống thông tin, quan hệ không phân biệt được, xấp xỉ tập, rút gọn và lõi của tập các thuộc tính, hàm thành viên thô, độ chính xác và chất lượng xấp xỉ. Giới thiệu một số vấn đề về khai phá dữ liệu - phát hiện tri thức trong lĩnh vực kinh tế tài chính. - Chương 2 : Trình bày ứng dụng cách tiếp cận tập thô trong dự báo kinh tế - tài chính, bao gồm: lựa chọn và rời rạc hoá các thuộc tính giá trị dạng số, hệ thống thông tin biểu thị thời gian, chuyển đổi chuỗi thời gian vào các đối tượng tập thô, chuỗi dẫn xuất, lựa chọn các thuộc tính để qui nạp luật quyết định dựa trên tập thô, quá trình phân lớp các đối tượng mới theo các luật quyết định dựa trên quan hệ giá trị gần – VCR, giới thiệu ứng dụng trong 3 bài toán kinh tế: đánh giá công ty, đánh giá chính sách tín dụng và chiến lược thị trường.

- Chương 3 : Tập trung tìm hiểu phương pháp khai phá dữ liệu quan hệ dựa trên lập trình logic qui nạp (ILP). Giới thiệu mô hình khai phá dữ liệu quan hệ, luật và logic cấp 1, các thuật toán khai phá dữ liệu quan hệ FOIL, FOCL, và thuật toán MMDR để khám phá các yếu tố bất thường trong lĩnh vực kinh tế. z 7 Chƣơng 1 TỔNG QUAN VỀ LÝ THUYẾT TẬP THÔ VÀ ỨNG DỤNG TRONG PHÁT HIỆN TRI THỨC 1. Tổng quan về khai phá dữ liệu và phát hiện tri thức 1.1 Những tiến bộ trong công nghệ CSDL [2] Nhu cầu tích luỹ và xử lý các dữ liệu nảy sinh trong mọi công việc, trong mọi hoạt động của con người, trong mọi vấn đề từ kỹ thuật, kinh tế - xã hội đến hoạt động quản lý.

Thập niên 1960 gắn liền với các sản phẩm đầu tiên của hệ quản trị tệp, xuất hiện bộ nhớ ngoài, như là bộ nhớ trong lý tưởng [2]. Giữa những năm 60, thế hệ đầu của hệ quản trị cơ sở dữ liệu đánh dấu bằng việc phân rõ, mô tả những dữ liệu của chương trình ứng dụng và ngôn ngữ truy nhập bên trong, bằng các lệnh hỏi phi thủ tục, người ta có thể truy nhập dữ liệu, tìm đến các bản ghi thay vì phải đi theo cấu trúc lưu trữ vật lý của dữ liệu (Hệ QTCSDL mạng). Thập niên 1970, mô hình dữ liệu quan hệ, cài đặt hệ quản trị CSDL quan hệ. Mô hình quan hệ giúp đơn giản hoá việc truy nhập dữ liệu của người sử dụng bên ngoài.

Thập niên 1980, xuất hiện hệ QTCSDL quan hệ, các mô hình dữ liệu nâng cao (quan hệ mở rộng, hướng đối tượng, suy diễn, v.) và các hệ quản trị CSDL hướng ứng dụng (không gian, khoa học, cộng nghệ, vv. Từ thập niên 1990 - những năm 2000: khai phá dữ liệu (data mining) và kho dữ liệu (data warehouse), cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu web. Dữ liệu, Thông tin và Tri thức [14 ]  Dữ liệu (data): Chúng ta thường thu thập và nhìn thấy hàng ngày, ví dụ: một chuỗi các bit, các con số, kí tự, biểu tượng, hay một đối tượng,. z 8  Thông tin (Information): Là “dữ liệu” đã được loại bỏ các phần dư thừa, không cần thiết.

Thông tin mô tả các đặc trưng, thuộc tính của “dữ liệu” với chi phí nhỏ nhất.  Tri thức (Knowledge) : o Là sự tích hợp các “thông tin” bao gồm cả quan hệ, là sự đúng đàn đã được kiểm nghiệm, là sự khám phá, sự hiểu biết,. o Nói cách khác tri thức có thể được xem như dữ liệu ở mức cao của của quá trình trừu tượng hóa và khái quát hoá. Khai phá dữ liệu và phát hiện tri thức Nếu cho rằng các điện tử và các sóng diện từ chính là bản chất của công nghệ điện tử truyền thống thì dữ liệu, thông tin và tri thức hiện dang là tiêu điểm của một lĩnh vực mới trong nghiên cứu và ứng dụng về phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data Mining) [3].

Phát hiện tri trong cơ sở dữ liệu thức (Knowledge discovery in Database - KDD) là tiến trình nhận diện các dạng/các mô hình cơ bản hiểu được, có giá trị, mới lạ, nhiều tiềm năng hữu ích. Khai phá dữ liệu (Data mining) là một bước trong tiến trình phát hiện tri thức, bao gồm một số thuật toán khai phá dữ liệu cụ thể theo một vài giới hạn tính toán chấp nhận được, nhằm tìm ra các dạng, các mô hình trong dữ liệu [14, 20, 311]. Nói cách khác, mục tiêu của phát hiện tri thức và khai phá dữ liệu là tìm ra các z 9 dạng các mô hình quan tâm chứa đựng trong cơ sở dữ liệu mà được che dấu ở giữa các tập lớn dữ liệu. Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80.

Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy (regularities) trong tập dữ liệu. Thuật ngữ khai phá dữ liệu (data mining) ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ data mining như knowledge mming (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/pattern analysis (Phân tích dữ liệu/mẫu), data archaeology (khảo cồ dữ liệu), data dredging (nạo vét dữ liệu).

Hiện nay, thuật ngữ khai phá dữ liệu (data mining) được dùng quá quen thuộc và người ta thường đồng nhất với thuật ngữ Knowledge Discovery in Databases (KDD). Còn các nhà thống kê thì xem khai phá dữ liệu như là một qui trình phân tích được thiết kế để thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện ra các mẫu thích hợp và/hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho các tập con mới của dữ liệu. Qui trình này bao gồm ba giai đoạn cơ bản: thăm dò, xây dựng mô hình hoặc định nghĩa mẫu, hợp thức/kiểm chứng [3]. z 10  Trích chọn dữ liệu: chọn lọc dữ liệu từ các nguồn dữ liệu nhằm phục vụ mục đích khai phá tri thức theo những tiêu chí xác định.

Ví dụ, từ CSDL về bán hàng, ta chọn ra các dữ liệu về khách hàng, đơn đặt hàng, hoá đơn,  Tiền xử lý: làm sạch và làm giàu dữ liệu. Làm đầy đủ dữ liệu, xử lý nhiễu, những vấn đề không nhất quán, v. Ví dụ, một khách hàng có thể được lưu ở nhiều bản ghi có thể có những tên, địa chỉ khác nhau, cần phải chỉnh sửa để đảm bảo nhất quán và chính xác về khách hàng đó. Những dữ liệu khác nhau về khuôn dạng, đơn vị đo lường, v.

cần phải có những qui định thống nhất và cách chuyển về một dạng chung.  Biến đổi dữ liệu: thực hiện bước mã hoá dữ liệu và chạy các chương trình tiện ích nhằm tự động hoá việc kết xuất, biến đổi và di chuyển dữ liệu để khai phá dữ liệu.  Khai phá dữ liệu: thực hiện phân tích và ra quyết định. Đây là bước áp dụng các kỹ thuật khai thác để khai phá, trích chọn ra các mẫu tin, những mối quan hệ đặc biệt trong kho.

 Biểu diễn tri thức và đánh giá: các kết quả khai thác được có thể tổng hợp dưới dạng các báo cáo nhằm hỗ trợ cho trợ giúp quyết định. Các dạng biểu diễn thường là phải trực quan, dưới dạng đồ hoạ, cây, bảng biểu, hay các luật v. Các bước của quá trình khai phá dữ liệu Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp dữ liệu. Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên là các giải thuật nạp toàn bộ tệp dữ liệu vào trong bộ nhớ.

Khi chuyển sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho dữ liệu lớn, mô hình này không thể đáp ứng được. Không chỉ bởi vì nó không thể nạp hết dữ liệu vào trong z 11 bộ nhớ mà còn vì khó có thể chiết xuất dữ liệu ra các tệp đơn giản để phân tích được. Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết. Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp.

Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được. Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp, các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v. Có rất nhiều các giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá đơn giản của CSDL, khi mà toàn bộ thông tin trong CSDL là quá dư thừa đối với mục đích của việc khai phá dữ liệu. Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các hình mẫu (pattern) có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy,.

Đặc điểm của mẫu là phải mới (ít nhất là đối với hệ thống đó). Độ mới có thể được đo tương ứng với độ thay đổi trong dữ liệu bằng cách so sánh các giá trị hiện tại với các giá trị trước đó hoặc các giá trị mong muốn), hoặc bằng tri thức (mối liên hệ giữa phương pháp tìm mới và phương pháp cũ như thế nào). Thường thì độ mới của mẫu được đánh giá bằng một hàm logic hoặc hàm đo độ mới, độ bất ngờ của mẫu. Ngoài ra, mẫu phải có khả năng sử dụng tiềm tàng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ về ứng dụng lý thuyết tập thô trong khai thác dữ liệu kinh tế tài chính" của tác giả Nguyễn Việt Hà, dưới sự hướng dẫn của PGS.TS Hồ Thuần tại Đại học Quốc gia Hà Nội, trình bày những ứng dụng của lý thuyết tập thô trong lĩnh vực khai thác dữ liệu kinh tế và tài chính. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về lý thuyết tập thô mà còn chỉ ra cách thức áp dụng nó để cải thiện quy trình phân tích và ra quyết định trong các tổ chức tài chính. Độc giả sẽ tìm thấy những lợi ích thiết thực từ việc áp dụng lý thuyết này, giúp nâng cao hiệu quả trong việc xử lý và phân tích dữ liệu kinh tế.

Nếu bạn quan tâm đến các khía cạnh khác của quản lý tài chính, bạn có thể tham khảo thêm bài viết Luận Văn Về Quản Lý Tài Chính Tại Công Ty Cổ Phần Bibica, nơi phân tích các phương pháp quản lý tài chính trong một công ty cụ thể. Bên cạnh đó, bài viết Hoàn thiện quản lý tài chính tại Bệnh viện Mắt tỉnh Phú Thọ cũng sẽ cung cấp cho bạn cái nhìn về việc cải thiện quản lý tài chính trong lĩnh vực y tế. Cuối cùng, bài viết Nghiên cứu về ảnh hưởng của kế hoạch thuế đến giá trị doanh nghiệp phi tài chính niêm yết tại Việt Nam sẽ giúp bạn hiểu rõ hơn về tác động của chính sách thuế đối với các doanh nghiệp trong bối cảnh tài chính hiện nay. Những tài liệu này sẽ mở rộng thêm kiến thức của bạn về quản lý tài chính và các ứng dụng thực tiễn của lý thuyết trong lĩnh vực này.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#quản lý rủi ro

#khai thác dữ liệu

#Kinh Tế Tài Chính

#quyết định tài chính

Chủ đề

nghiên cứu và phát triển trong lĩnh vực tài chính

Công nghệ thông tin trong tài chính

Khai thác dữ liệu trong kinh tế

Ứng dụng lý thuyết trong phân tích dữ liệu