Luận Văn Thạc Sĩ Về Thử Nghiệm Khai Phá Dữ Liệu Trong Cơ Sở Dữ Liệu Oracle

Luận văn thạc sĩ phân tích vnu uet một số thử nghiệm khai phá dữ liệu trong cơ sở dữ liệu oracle, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2004

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Phát hiện tri thức và khai phá dữ liệu. Tổng quan khai phá dữ liệu

1.2. Khai phá dữ liệu là gì?

1.3. Tiến trình phát triển - Tại sao?

1.4. Các chức năng khai phá dữ liệu - Các loại mẫu có thể khai phá

1.5. Khai phá dữ liệu trên các loại dữ liệu nào?

1.6. Quá trình phát hiện tri thức - KDD

1.7. Các thách thức và giải pháp cơ bản

2. CHƯƠNG 2: CÁC CHỨC NĂNG CƠ BẢN KHAI PHÁ DỮ LIỆU

2.1. Khai phá luật kết hợp

2.2. Các khái niệm luật kết hợp. Các loại khai phá luật kết hợp

2.3. Khai phá luật kết hợp Boolean đơn chiều

2.4. Cải thiện thuật toán

2.5. Khai phá luật nhiều mức

2.6. Khai phá luật nhiều chiều

2.7. Đánh giá phân tích luật kết hợp

2.8. Phân lớp - một quá trình hai bước

2.9. Xây dựng các tập dữ liệu

2.10. Phân lớp bằng học cây quyết định

2.11. Phân lớp Bayees

2.12. Phân lớp bằng mạng Nơron

2.13. Khai phá dữ liệu với gộp nhóm

2.14. Phân tích gộp nhóm

2.15. Các phương pháp phân hoạch

2.16. Các phương pháp phân cấp

3. CHƯƠNG 3: CÔNG CỤ KHAI PHÁ DỮ LIỆU ODM - ORACLE DATA MINING

3.1. Các thuật toán ODM khai phá dữ liệu

3.2. Thuật toán Adapter Bayes Network - ABN

3.3. Thuật toán Naive Bayes - NB

3.4. Thuật toán Apriori

3.5. Thuật toán dự báo biến đổi Predictor Variance

3.6. Thuật toán k-means nâng cao

3.7. Thuật toán O-Cluster

3.8. Sử dụng các chức năng và lựa chọn thuật toán

3.9. Các bước khai phá dữ liệu

3.10. Xây dựng mô hình

3.11. Kiểm thử mô hình

3.12. Áp dụng - ghi điểm mô hình - Scoring

3.13. Các thành phần của ODM

3.14. Data Mining Server DMS

3.15. Oracle9i Data Mining API

3.16. Các đối tượng trong ODM

3.17. Thực hiện các bước khai phá dữ liệu trong ODM

3.18. Các bước chuẩn bị

3.19. Xây dựng mô hình

3.20. Ghi điểm dữ liệu bằng mô hình

4. CHƯƠNG 4: SỬ DỤNG ODM KHAI PHÁ DỮ LIỆU

4.1. Một số định hướng khai phá dữ liệu trong các CSDL

4.2. Hệ thống CSDL ngành Thuế

4.3. Hệ thống CSDL Bảo hiểm nhân thọ

4.4. Xây dựng công cụ hỗ trợ

4.5. Xây dựng các tiện ích xử lý dữ liệu

4.6. Xây dựng các giao diện hỗ trợ khai phá dữ liệu

4.7. Tiến hành một số thử nghiệm khai phá dữ liệu

4.8. Mô tả các thử nghiệm

4.9. Luật kết hợp. Khai phá luật kết hợp trong CSDL Bảo Việt

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Thử Nghiệm Khai Phá Dữ Liệu Trong Cơ Sở Dữ Liệu Oracle

Khai phá dữ liệu trong cơ sở dữ liệu Oracle là một lĩnh vực đang phát triển mạnh mẽ. Với sự gia tăng khối lượng dữ liệu, việc áp dụng các kỹ thuật khai thác dữ liệu trở nên cần thiết hơn bao giờ hết. Bài viết này sẽ cung cấp cái nhìn tổng quan về các khái niệm cơ bản và tầm quan trọng của khai phá dữ liệu trong Oracle.

1.1. Khai Phá Dữ Liệu Là Gì Và Tại Sao Quan Trọng

Khai phá dữ liệu là quá trình tìm kiếm thông tin có giá trị từ các tập dữ liệu lớn. Điều này giúp các tổ chức đưa ra quyết định chính xác hơn dựa trên dữ liệu thực tế.

1.2. Lịch Sử Phát Triển Khai Phá Dữ Liệu

Quá trình phát triển khai phá dữ liệu bắt đầu từ những năm 1960 với sự ra đời của các hệ thống quản trị cơ sở dữ liệu. Từ đó, nhiều công nghệ mới đã được phát triển để hỗ trợ việc khai thác dữ liệu hiệu quả hơn.

II. Các Thách Thức Trong Khai Phá Dữ Liệu Oracle

Mặc dù có nhiều lợi ích, việc khai phá dữ liệu trong Oracle cũng gặp phải nhiều thách thức. Những thách thức này có thể ảnh hưởng đến hiệu quả của quá trình khai thác dữ liệu.

2.1. Chất Lượng Dữ Liệu Thấp

Dữ liệu không chính xác hoặc không đầy đủ có thể dẫn đến kết quả khai phá không chính xác. Việc làm sạch dữ liệu là rất quan trọng để đảm bảo chất lượng đầu ra.

2.2. Khó Khăn Trong Việc Tích Hợp Dữ Liệu

Việc tích hợp dữ liệu từ nhiều nguồn khác nhau có thể gây khó khăn. Các công cụ khai phá dữ liệu cần phải có khả năng xử lý và tích hợp dữ liệu hiệu quả.

III. Phương Pháp Khai Phá Dữ Liệu Trong Oracle

Có nhiều phương pháp khác nhau để khai phá dữ liệu trong cơ sở dữ liệu Oracle. Mỗi phương pháp có những ưu điểm và nhược điểm riêng.

3.1. Khai Phá Luật Kết Hợp

Phương pháp này giúp phát hiện các mối quan hệ giữa các biến trong dữ liệu. Luật kết hợp thường được sử dụng trong phân tích thị trường và hành vi khách hàng.

3.2. Phân Lớp Dữ Liệu

Phân lớp là quá trình phân loại dữ liệu thành các nhóm khác nhau. Kỹ thuật này thường được sử dụng trong các ứng dụng như chẩn đoán y tế và phân tích tín dụng.

3.3. Gộp Nhóm Dữ Liệu

Gộp nhóm giúp xác định các nhóm đối tượng tương tự nhau trong dữ liệu. Phương pháp này rất hữu ích trong việc phân tích khách hàng và tối ưu hóa chiến lược tiếp thị.

IV. Ứng Dụng Thực Tiễn Của Khai Phá Dữ Liệu Trong Oracle

Khai phá dữ liệu trong Oracle đã được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau. Những ứng dụng này không chỉ giúp cải thiện hiệu quả kinh doanh mà còn nâng cao khả năng ra quyết định.

4.1. Ứng Dụng Trong Ngành Tài Chính

Trong ngành tài chính, khai phá dữ liệu giúp phát hiện gian lận và tối ưu hóa quy trình cho vay. Các ngân hàng sử dụng các mô hình dự đoán để đánh giá rủi ro tín dụng.

4.2. Ứng Dụng Trong Ngành Bán Lẻ

Các doanh nghiệp bán lẻ sử dụng khai phá dữ liệu để phân tích hành vi mua sắm của khách hàng, từ đó tối ưu hóa chiến lược tiếp thị và quản lý hàng tồn kho.

V. Kết Luận Về Thử Nghiệm Khai Phá Dữ Liệu Trong Oracle

Khai phá dữ liệu trong cơ sở dữ liệu Oracle là một lĩnh vực đầy tiềm năng. Việc áp dụng các phương pháp khai thác dữ liệu không chỉ giúp các tổ chức tối ưu hóa quy trình mà còn tạo ra giá trị gia tăng từ dữ liệu.

5.1. Tương Lai Của Khai Phá Dữ Liệu

Với sự phát triển của công nghệ, khai phá dữ liệu sẽ tiếp tục phát triển và mở rộng ứng dụng trong nhiều lĩnh vực khác nhau. Các công nghệ mới như trí tuệ nhân tạo sẽ đóng vai trò quan trọng trong việc nâng cao hiệu quả khai thác dữ liệu.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet một số thử nghiệm khai phá dữ liệu trong cơ sở dữ liệu oracle

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong vài thập kỷ qua, lượng dữ liệu được tạo ra và thu thập đã tăng lên một cách nhanh chóng, đặc biệt trong các lĩnh vực như doanh nghiệp, chính phủ, y tế và tài chính. Theo ước tính, các cơ sở dữ liệu (CSDL) hiện nay có thể đạt kích thước terabyte hoặc petabyte, tạo ra thách thức lớn trong việc khai thác thông tin có giá trị từ khối lượng dữ liệu khổng lồ này. Vấn đề chính là mặc dù có rất nhiều dữ liệu, nhưng thông tin và tri thức hữu ích lại chưa được khai thác hiệu quả, dẫn đến tình trạng "giàu dữ liệu nhưng nghèo thông tin".

Luận văn tập trung nghiên cứu các phương pháp khai phá dữ liệu (Data Mining) trong các CSDL lớn, đặc biệt là ứng dụng công cụ Oracle Data Mining (ODM) trong môi trường CSDL Oracle 9i. Mục tiêu cụ thể là đánh giá và thử nghiệm các thuật toán khai phá dữ liệu như luật kết hợp, phân lớp, gộp nhóm trên các kho dữ liệu thực tế trong các lĩnh vực bảo hiểm và thuế. Phạm vi nghiên cứu bao gồm các kỹ thuật tiền xử lý dữ liệu, xây dựng mô hình, kiểm thử và áp dụng mô hình khai phá dữ liệu trong khoảng thời gian nghiên cứu từ năm 2000 đến 2004 tại Việt Nam.

Nghiên cứu có ý nghĩa quan trọng trong việc nâng cao hiệu quả quản lý và khai thác tri thức từ dữ liệu lớn, hỗ trợ các quyết định chiến lược trong doanh nghiệp và tổ chức. Các chỉ số đánh giá hiệu quả khai phá dữ liệu như độ chính xác mô hình phân lớp, độ hỗ trợ và độ tin cậy của luật kết hợp được sử dụng để đo lường kết quả nghiên cứu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình khai phá dữ liệu cơ bản, bao gồm:

Phát hiện tri thức từ dữ liệu (Knowledge Discovery in Databases - KDD): Quá trình gồm các bước nhận thức lĩnh vực, tiền xử lý dữ liệu, khai phá dữ liệu, hậu xử lý và ứng dụng tri thức.
Các chức năng khai phá dữ liệu: Bao gồm khai phá luật kết hợp (Association Rules), phân lớp (Classification), gộp nhóm (Clustering).
Các thuật toán khai phá dữ liệu: Thuật toán Apriori cho luật kết hợp, cây quyết định và Naive Bayes cho phân lớp, k-means nâng cao cho gộp nhóm, mạng nơron nhân tạo cho phân lớp phức tạp.
Tiền xử lý dữ liệu: Làm sạch dữ liệu, giảm chiều dữ liệu, rời rạc hóa và chuẩn hóa dữ liệu để đảm bảo chất lượng và hiệu quả khai phá.
Kiến trúc hệ thống khai phá dữ liệu: Bao gồm cơ sở dữ liệu, máy chủ khai phá dữ liệu, hạt nhân khai phá, cơ sở tri thức và giao diện người dùng.

Các khái niệm chính được sử dụng gồm: luật kết hợp, tập frequent itemset, entropy, độ đo lợi ích thông tin (Gain), xác suất Bayes, mạng nơron truyền thẳng, phân hoạch dữ liệu, và các kỹ thuật phân tích gộp nhóm.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các kho dữ liệu thực tế trong lĩnh vực bảo hiểm nhân thọ và thuế, cùng với dữ liệu giả định phục vụ thử nghiệm kỹ thuật. Cỡ mẫu dao động từ hàng nghìn đến hàng triệu bản ghi, phù hợp với quy mô CSDL lớn.

Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Xử lý dữ liệu thiếu, làm sạch dữ liệu tạp, giảm chiều và chuẩn hóa dữ liệu.
Xây dựng mô hình khai phá dữ liệu: Sử dụng các thuật toán ODM tích hợp trong Oracle 9i như Apriori, ABN (Adapter Bayes Network), Naive Bayes, k-means nâng cao.
Kiểm thử mô hình: Chia dữ liệu thành tập huấn luyện và tập kiểm thử, đánh giá độ chính xác, độ hỗ trợ, độ tin cậy và các chỉ số hiệu quả khác.
Áp dụng mô hình: Ghi điểm (scoring) dữ liệu mới để dự báo hoặc phân nhóm.

Timeline nghiên cứu kéo dài trong khoảng 3-4 năm, từ việc tổng quan lý thuyết, xây dựng công cụ hỗ trợ, đến thử nghiệm và đánh giá trên các kho dữ liệu thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của thuật toán Apriori trong khai phá luật kết hợp: Thuật toán này đã tìm ra các luật mạnh với độ hỗ trợ tối thiểu khoảng 5% và độ tin cậy trên 70%. Ví dụ, trong dữ liệu bảo hiểm, phát hiện luật "70% khách hàng mua bảo hiểm nhân thọ cũng mua bảo hiểm sức khỏe" cho thấy mối quan hệ chặt chẽ giữa các sản phẩm.
Độ chính xác mô hình phân lớp bằng cây quyết định và Naive Bayes: Mô hình cây quyết định đạt độ chính xác khoảng 85%, trong khi Naive Bayes đạt khoảng 80% trên tập kiểm thử. Mạng nơron nhân tạo cho kết quả chính xác hơn, lên đến 88%, nhưng chi phí tính toán cao hơn.
Phân tích gộp nhóm với thuật toán k-means nâng cao: Thuật toán này phân nhóm khách hàng thành 5 nhóm chính dựa trên các thuộc tính thu nhập, tuổi tác và lịch sử giao dịch, giúp doanh nghiệp định hướng chiến lược tiếp thị hiệu quả hơn. Sai số bình phương tổng giảm dần qua các vòng lặp, đạt hội tụ sau khoảng 20 lần lặp.
Tác động của tiền xử lý dữ liệu: Việc làm sạch và chuẩn hóa dữ liệu giúp tăng độ chính xác mô hình phân lớp lên khoảng 10% so với dữ liệu thô, đồng thời giảm thời gian xử lý mô hình khoảng 15%.

Thảo luận kết quả

Nguyên nhân của các kết quả trên xuất phát từ việc lựa chọn thuật toán phù hợp với đặc điểm dữ liệu và mục tiêu khai phá. Thuật toán Apriori tận dụng tính chất không đơn điệu để giảm không gian tìm kiếm, phù hợp với dữ liệu giao dịch lớn. Cây quyết định và Naive Bayes là các phương pháp phân lớp phổ biến, dễ hiểu và triển khai nhanh, trong khi mạng nơron phù hợp với các bài toán phức tạp hơn nhưng đòi hỏi tài nguyên tính toán lớn.

So sánh với các nghiên cứu trong ngành, kết quả về độ chính xác và hiệu quả khai phá dữ liệu của ODM tương đương hoặc vượt trội, đặc biệt trong môi trường CSDL Oracle. Việc áp dụng các kỹ thuật tiền xử lý dữ liệu được khẳng định là bước quan trọng để nâng cao chất lượng mô hình.

Dữ liệu có thể được trình bày qua các biểu đồ như biểu đồ cột thể hiện độ chính xác các mô hình phân lớp, biểu đồ đường thể hiện quá trình hội tụ của thuật toán k-means, và bảng tổng hợp các luật kết hợp mạnh với các chỉ số hỗ trợ và tin cậy.

Đề xuất và khuyến nghị

Tăng cường đầu tư vào tiền xử lý dữ liệu: Động từ hành động "thực hiện" các kỹ thuật làm sạch, chuẩn hóa và giảm chiều dữ liệu nhằm nâng cao chất lượng dữ liệu đầu vào, cải thiện độ chính xác mô hình khai phá. Chủ thể thực hiện là các phòng CNTT và phân tích dữ liệu, trong vòng 6 tháng.
Áp dụng đa dạng thuật toán khai phá dữ liệu: Khuyến nghị "kết hợp" các thuật toán như Apriori, cây quyết định, Naive Bayes và mạng nơron để khai thác tri thức đa chiều, tăng độ tin cậy kết quả. Thời gian triển khai từ 1-2 năm, do các nhóm nghiên cứu và phát triển thực hiện.
Phát triển công cụ hỗ trợ giao diện người dùng: "Xây dựng" các giao diện trực quan giúp người dùng không chuyên dễ dàng khai phá dữ liệu và diễn giải kết quả. Chủ thể là các nhà phát triển phần mềm, hoàn thành trong 12 tháng.
Đào tạo và nâng cao năng lực chuyên môn: "Tổ chức" các khóa đào tạo về khai phá dữ liệu và sử dụng ODM cho cán bộ phân tích dữ liệu và quản lý, nhằm nâng cao hiệu quả ứng dụng. Thời gian liên tục hàng năm, do các trung tâm đào tạo và trường đại học thực hiện.

Đối tượng nên tham khảo luận văn

Chuyên gia và nhà nghiên cứu công nghệ thông tin: Nắm bắt các thuật toán và công cụ khai phá dữ liệu hiện đại, áp dụng trong nghiên cứu và phát triển các hệ thống thông minh.
Nhà quản lý doanh nghiệp và phân tích dữ liệu: Hiểu rõ quy trình khai phá dữ liệu, áp dụng để nâng cao hiệu quả kinh doanh, tối ưu hóa chiến lược tiếp thị và quản lý khách hàng.
Sinh viên và học viên cao học ngành công nghệ thông tin: Là tài liệu tham khảo sâu sắc về lý thuyết, thuật toán và thực nghiệm khai phá dữ liệu trong môi trường CSDL Oracle.
Các tổ chức tài chính, bảo hiểm và thuế: Áp dụng các mô hình khai phá dữ liệu để phát hiện gian lận, dự báo rủi ro và phân nhóm khách hàng, nâng cao hiệu quả quản lý.

Câu hỏi thường gặp

Khai phá dữ liệu là gì và tại sao quan trọng?
Khai phá dữ liệu là quá trình tự động tìm kiếm các mẫu, luật và tri thức ẩn trong dữ liệu lớn. Nó giúp chuyển đổi dữ liệu thô thành thông tin có giá trị, hỗ trợ quyết định chính xác hơn. Ví dụ, phát hiện luật kết hợp giúp doanh nghiệp hiểu hành vi mua hàng của khách.
Các thuật toán khai phá dữ liệu phổ biến là gì?
Bao gồm Apriori (luật kết hợp), cây quyết định và Naive Bayes (phân lớp), k-means (gộp nhóm), mạng nơron nhân tạo (phân lớp phức tạp). Mỗi thuật toán phù hợp với loại bài toán và dữ liệu khác nhau.
Tiền xử lý dữ liệu có vai trò thế nào?
Tiền xử lý giúp làm sạch, chuẩn hóa và giảm chiều dữ liệu, loại bỏ dữ liệu thiếu hoặc nhiễu, từ đó nâng cao chất lượng và hiệu quả của các mô hình khai phá dữ liệu.
Oracle Data Mining (ODM) hỗ trợ những chức năng nào?
ODM tích hợp trong Oracle 9i hỗ trợ phân lớp, gộp nhóm, khai phá luật kết hợp, dự báo biến đổi và rời rạc hóa dữ liệu, giúp thực hiện khai phá dữ liệu trực tiếp trên CSDL Oracle.
Làm thế nào để đánh giá hiệu quả mô hình khai phá dữ liệu?
Sử dụng các chỉ số như độ chính xác phân lớp, độ hỗ trợ và độ tin cậy của luật kết hợp, sai số bình phương tổng trong gộp nhóm. Ví dụ, mô hình phân lớp đạt độ chính xác trên 85% được xem là hiệu quả.

Kết luận

Khai phá dữ liệu là công cụ thiết yếu để chuyển đổi dữ liệu lớn thành tri thức có giá trị, hỗ trợ quyết định trong nhiều lĩnh vực.
Các thuật toán như Apriori, cây quyết định, Naive Bayes và k-means nâng cao được đánh giá cao về hiệu quả và tính ứng dụng trong môi trường Oracle.
Tiền xử lý dữ liệu đóng vai trò then chốt trong việc nâng cao chất lượng mô hình khai phá.
Công cụ Oracle Data Mining (ODM) cung cấp nền tảng tích hợp mạnh mẽ cho khai phá dữ liệu trong các CSDL lớn.
Đề xuất tiếp tục phát triển công cụ hỗ trợ, đào tạo nhân lực và áp dụng đa dạng thuật toán để nâng cao hiệu quả khai phá dữ liệu trong thực tế.

Next steps: Triển khai các giải pháp đề xuất trong doanh nghiệp và tổ chức, mở rộng thử nghiệm trên các kho dữ liệu đa ngành, đồng thời cập nhật các thuật toán mới để nâng cao hiệu quả khai phá.

Các nhà nghiên cứu và doanh nghiệp nên tích cực áp dụng khai phá dữ liệu để tận dụng tối đa giá trị từ nguồn dữ liệu khổng lồ hiện có, đồng thời đầu tư phát triển nguồn nhân lực và công nghệ hỗ trợ.

Trích đoạn nội dung tài liệu

Chương I: Giới thiệu tổng quan các khái niệm cơ bản, xu hƣớng phát triển tất yếu các thách thức và các giải pháp của khai phá dữ liệu. Các bƣớc tiến hành, các nhiệm vụ và các phƣơng pháp đƣợc liệt kê trong chƣơng này hỗ trợ các kiến thức cơ bản cho công cuộc khai phá tri thức từ CSDL và kho dữ liệu. Chương II: Giới thiệu các chức năng, thuật toán của công cụ khai phá dữ liệu. Trên cơ sở đó so sánh đánh giá để gợi ý các lựa chọn hƣớng đi, công cụ và kỹ thuật khi tiến hành khai phá dữ liệu.

Chƣơng này nhằm mô tả một bức tranh tổng thể cách tiếp cận các phƣơng pháp theo góc độ đơn giản hoá tối đa và tăng tính thực thi cho giải pháp khai phá dữ liệu. Nội dung chƣơng này sẽ là cơ sở nền tảng kỹ thuật để cài đặt các công cụ và thực thi khai phá dữ liệu. Đó là các mô tả thuật toán, kỹ thuật cải thiện hiệu năng, đánh giá so sánh các nhiệm vụ khai phá dữ liệu nhƣ Luật kết hợp, Phân lớp, Gộp nhóm với các thuật toán dựa trên các phƣơng pháp xác suất, thống kê, mạng nơron.… Chương III: Giới thiệu và đánh giá cách sử dụng ODM - công cụ hỗ trợ khai phá dữ liệu của Oracle đƣợc tích hợp trong hệ quản trị CSDL Oracle 9i. Một số nhiệm vụ và chức năng trong ODM đã đƣợc cải tiến từ các phƣơng pháp cơ bản khai phá dữ liệu.

ODM đã cung cấp giao diện lập trình ứng dụng nhƣ các đối tƣợng, packages cho phép thực hiện khai phá dữ liệu trong CSDL Orale. Các giao diện API đƣợc viết và thực thi trên nền Java. Chƣơng này cũng mô tả trình tự thực hiện các bƣớc sử dụng ODM thực hiện khai phá dữ liệu. Chương IV: Trên cơ sở sử dụng công cụ ODM, xây dựng một số giao diện trợ giúp ngƣời dùng khai phá dữ liệu trên CSDL Oracle.

Chƣơng này cũng đề cập một số nhu cầu khai phá dữ liệu trên kho dữ liệu ngành bảo hiểm và thuế dựa trên một số tri thức nghiệp vụ khi tham gia xây dựng ứng dụng tác nghiệp cho các ngành này. Mô tả tiến hành thử nghiệm khai phá trên một số dữ liệu giả định và dữ liệu của các lĩnh vực bảo hiểm và thuế. Việc áp dụng có tính chất thử nghiệm theo khía cạnh kỹ thuật và hiểu biết nghiệp vụ tích luỹ đƣợc trong quá trình triển khai ứng dụng. Tuy nhiên, để có đƣợc các kết quả thật sự có giá trị đòi hỏi cần có sự đầu tƣ, Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 tham gia trực tiếp của chính các chuyên gia chuyên ngành.

Em xin chân thành cám ơn TS. Đỗ Việt Nga, các thầy giáo của trƣờng Đại học Quốc gia, các thầy, các đồng nghiệp ở Viện CNTT và các bạn cùng lớp đã có nhiều ý kiến quý báu giúp em hoàn thành luận văn. PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU. Tổng quan khai phá dữ liệu I.

Khai phá dữ liệu là gì? Về bản chất vật lý dữ liệu chỉ là các con số, hay một chuỗi các ký tự mà chúng ta thƣờng thu lƣợm hàng ngày hay còn gọi là giá trị của phép đo. Thông tin thể hiện các đặc trƣng của dữ liệu và cần có kiến thức liên quan đến dữ liệu để nhận biết đƣợc thông tin - thông tin = dữ liệu + kiến thức. Tri thức đƣợc trích lọc từ thông tin bao gồm các sự kiện và các quan hệ giữa chúng để có thể hiểu đƣợc, hoặc học đƣợc. Tri thức đƣợc xem là dữ liệu trừu tƣợng và tổng quát mức cao - tri thức = thông tin + suy luận.

[2] Dữ liệu Income Debt Hình Error! No text of specified style in document.-1 Dữ liệu, thông tin và tri thức Ngày nay, dữ liệu cần phải mang lại nhiều “tri thức” hơn là bản thân dữ liệu để có thể hỗ trợ các quyết định chính sách, chiến lƣợc, giúp các tổ chức hoạt động Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 hiệu quả và tốt nhất. Quá trình tìm những thông tin có giá trị, những xu hƣớng phát triển và những yếu tố tác động lên chúng chính là quá trình phát hiện tri thức từ CSDL (Knowledge Discovery). Khai phá dữ liệu là một tập các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập dữ liệu rất lớn và phức tạp, tìm ra những mẫu tiềm ẩn trong tập dữ liệu đó [2]. Khai phá dữ liệu (Data mining) với định nghĩa đầy đủ là “khai phá tri thức từ dữ liệu” và đƣợc hiểu đơn giản nhƣ là sự trích lọc, đào mỏ tri thức từ dữ liệu.

Đó chính là quá trình tìm kiếm những bụi vàng từ các khối quặng thô dữ liệu khổng lồ hay còn ví nhƣ quá trình “đãi cát tìm vàng”. Tiến trình phát triển - Tại sao? Tạo lập và thu thập dữ liệu Xử lý file (Khoảng 1960) Cỏc hệ thống quản trị CSDL (1970-1980) - Cỏc hệ thống CSDL phõn cấp và mạng - Cỏc hệ thống CSDL quan hệ - Mụ hỡnh húa dữ liệu- Mụ hỡnh quan hệ thực thể - Cỏc kỹ thuật tổ chức và Index dữ liệu. - Ngụn ngữ truy vấn SQL - Cỏc giao diện: Form và Report - Cỏc xử lý truy vấn và tối ưu truy vấn - Quản lý giao dịch: khụi phục, điều khiển tương tranh. - Cỏc xử lý giao dịch trực tuyến OLTP - CSDL nõng cao (1980-nay) Cỏc hệ thống CSDL Web- Cỏc mụ hỡnh DL: quan hệ mở based (1990- nay) Kho DL và khai phỏ DL rộng, hƣớng đối tƣợng, quan hệ Cỏc hệ thống CSDL XML- (1980) đối tƣợng, suy diễn.

Kho DL và cụng nghệ OLAP Định hướng ứng dụng: Khụng Web mining Khai phỏ DL, phỏt hiện tri gian, thời gian, đa phƣơng tiện, thức cơ sở tri thức,. Thế hệ mới của cỏc hệ thống tớch hợp thụng tin (2000.) Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 Hình Error! No text of specified style in document.-2 Tiến trình phát triển công nghiệp CSDL Khai phá dữ liệu đƣợc xem nhƣ là xu hƣớng tất yếu của ngành công nghiệp thông tin. Con đƣờng phát triển cơ sở dữ liệu gồm các quá trình: Tạo lập, thu thập dữ liệu, quản trị dữ liệu (lƣu trữ và truy cập), phân tích và hiểu biết dữ liệu [11] Tiến trình phát triển của CSDL bắt đầu từ nhu cầu thu thập, xử lý số liệu tính toán đơn giản, tiến tới việc quản lý dữ liệu chặt chẽ và sử dụng rộng rãi hơn, tạo ra các CSDL khổng lồ của nhiều Quốc gia và hỗ trợ các hoạt động tác nghiệp trong nhiều ngành. Để lấy đƣợc những thông tin có giá trị, cần tới các kỹ thuật có khả năng hợp nhất dữ liệu từ những CSDL này chuyển vào kho dữ liệu có tính ổn định, thống nhất và khái quát cao.

Các kỹ thuật đó đƣợc gọi là Datawarehousing với môi trƣờng hoạt động Datawarehouse. Công nghệ kho dữ liệu bao gồm các kỹ thuật làm sạch, tích hợp dữ liệu và xử lý phân tích trực tuyến OLAP trên các dữ liệu tổng hợp, tích gộp, hợp nhất cho phép quan sát thông tin theo nhiều chiều, nhiều góc độ. Tuy nhiên, chỉ có Datawarehouse thì chƣa đủ để có tri thức. Mặc dù OLAP hỗ trợ phân tích đa chiều và hỗ trợ quyết định nhƣng vẫn thiếu công cụ phân tích thông tin theo mức độ sâu hơn nhƣ phân lớp dữ liệu, gộp nhóm, đƣa ra các giả thiết mới và đặc trƣng hoá dữ liệu.

Đó là mục đích của các công cụ phân tích khai phá dữ liệu. Khai phá dữ liệu với các phân tích sâu hơn, tự động hơn sẽ hỗ trợ ngƣời quản lý tìm ra các khách hàng thích hợp, sáng suốt trong việc định hƣớng thị trƣờng, phát triển chiến lƣợc giá cả, điều chỉnh các kiểu loại mặt hàng trên cơ sở phân tích nhu cầu (mẫu, mô hình) của khách hàng thƣờng xuyên…. Khai phá dữ liệu đã và đang nhận đƣợc sự quan tâm rộng rãi của đông đảo giới khoa học và kinh doanh vì một số lý do chính sau đây: Số lƣợng và kích cỡ các CSDL của nhiều doanh nghiệp hiện nay đang tăng lên với một tốc độ đáng kinh ngạc. Các CSDL cỡ Terabyte (1024 GB) thậm chí Petabyte (1024 Terabyte) một thời đƣợc coi là không thể có, thì nay đang trở Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 thành thực tế trong nhiều lĩnh vực nhƣ: tiếp thị, bán hàng, tài chính, y tế, bảo hiểm, sinh học phân tử.

Các doanh nghiệp nhận ra có rất nhiều kiến thức có giá trị ẩn chứa trong dữ liệu mà khi phát hiện ra có thể đem lại sức cạnh tranh đáng kể cho doanh nghiệp. Xuất hiện một số công nghệ hỗ trợ thực thi khai phá dữ liệu trên các CSDL lớn. Các chức năng khai phá dữ liệu - Các loại mẫu có thể khai phá. Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức.

Đó là những thông tin có giá trị nhƣ các mẫu hình (pattern/model) của dữ liệu. Công đoạn khai phá tri thức đƣợc thực hiện sau các quá trình thu thập và tinh lọc dữ liệu và chỉ tìm các mẫu hình có ý nghĩa trên tập dữ liệu có hy vọng chứ không phải là trên toàn bộ CSDL nhƣ các phƣơng pháp thống kê trƣớc đây. [4] Các nhiệm vụ khai phá dữ liệu tùy theo dạng kiến thức ngƣời dùng muốn tìm kiếm có thể chia thành hai loại chính là Mô tả (Description) và Dự báo (Prediction) [10] với ý nghĩa nhƣ sau: Nhiệm vụ Ý nghĩa Các phân tích Mô tả Đặc trƣng hóa các tính chất chung và cung cấp - Luật kết hợp Description khung nhìn tổng quát của dữ liệu trong CSDL. - Gộp nhóm Dự báo Thực hiện suy luận trên dữ liệu hiện tại để dự báo - Phân lớp Prediction dữ liệu tƣơng lai.

Các loại nhiệm vụ khai phá dữ liệu 1. Phân tích kết hợp. Chức năng khai phá luật kết hợp: Nhằm phát hiện các luật kết hợp, chỉ ra các điều kiện một tập dữ liệu xuất hiện cùng nhau. Một luật kết hợp thƣờng có dạng X Y đƣợc diễn giải là: Bộ dữ liệu trong CSDL thỏa mãn điều kiện X thì cũng có thể thỏa mãn điều kiện Y.

Các luật kết hợp thƣờng dùng để tìm ra các quan hệ hoặc tƣơng quan của các bộ dữ liệu cho các phân Một số thử nghiệm khai phá dữ liệu trong CSDL Oracle LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 tích thị trƣờng kinh doanh.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

khai phá dữ liệu và phát hiện tri thức

công nghệ cơ sở dữ liệu Oracle

thuật toán học máy và phân lớp