Luận văn thạc sĩ về hệ thống bóc tách giá cả sản phẩm tự động tại VNU UET

Luận văn thạc sĩ nghiên cứu vnu uet hệ thống bóc tách giá cả sản phẩm tự động, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2009

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: GIỚI THIỆU CHUNG

1.1. Tổng quan về phát hiện tri thức và khai phá dữ liệu

1.2. Quá trình phát hiện tri thức

1.3. Khai phá dữ liệu

1.4. Phân loại nguồn dữ liệu Web

1.5. Phân loại khai phá dữ liệu Web

1.6. Các bước tiến hành khai phá nội dung Web

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Các kiến thức nền tảng

2.2. Các vấn đề liên quan đến phân tích HTML

2.3. Nguyên lí thu thập dữ liệu (Crawler)

2.4. Bài toán bóc tách thông tin

2.5. Giải thuật bóc tách bản ghi dữ liệu có cấu trúc

2.6. Các nghiên cứu liên quan

2.7. Ý tưởng giải thuật “Khoảng cách cây soạn thảo”

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG CHẮT LỌC THÔNG TIN SẢN PHẨM TRÊN WEB

3.1. Mô tả bài toán

3.2. Thiết kế kiến trúc hệ thống

3.3. Thiết kế cơ sở dữ liệu

3.4. Cài đặt hệ thống

3.5. Kết quả thử nghiệm

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về hệ thống bóc tách giá cả sản phẩm tự động tại VNU UET

Hệ thống bóc tách giá cả sản phẩm tự động tại VNU UET là một giải pháp công nghệ tiên tiến nhằm tối ưu hóa quy trình thu thập và phân tích thông tin giá cả từ các trang web thương mại điện tử. Hệ thống này không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc thu thập dữ liệu. Với sự phát triển mạnh mẽ của công nghệ thông tin, việc áp dụng hệ thống này trở nên cần thiết hơn bao giờ hết.

1.1. Khái niệm về hệ thống bóc tách giá cả sản phẩm

Hệ thống bóc tách giá cả sản phẩm tự động là công nghệ cho phép thu thập và xử lý thông tin giá cả từ nhiều nguồn khác nhau trên Internet. Công nghệ này giúp người dùng dễ dàng tiếp cận thông tin giá cả một cách nhanh chóng và hiệu quả.

1.2. Lợi ích của việc sử dụng hệ thống tự động

Việc sử dụng hệ thống bóc tách giá cả tự động mang lại nhiều lợi ích như tiết kiệm thời gian, giảm thiểu sai sót trong quá trình thu thập dữ liệu và cung cấp thông tin chính xác hơn cho người dùng.

II. Vấn đề và thách thức trong việc bóc tách giá cả sản phẩm

Mặc dù hệ thống bóc tách giá cả sản phẩm tự động mang lại nhiều lợi ích, nhưng vẫn tồn tại một số vấn đề và thách thức cần được giải quyết. Các trang web có cấu trúc khác nhau, sự thay đổi thường xuyên của thông tin và các yếu tố kỹ thuật khác có thể gây khó khăn trong việc thu thập dữ liệu chính xác.

2.1. Các vấn đề về cấu trúc dữ liệu

Nhiều trang web có cấu trúc dữ liệu không đồng nhất, điều này gây khó khăn cho việc bóc tách thông tin. Hệ thống cần phải có khả năng nhận diện và xử lý các cấu trúc khác nhau để đảm bảo thu thập dữ liệu chính xác.

2.2. Thách thức trong việc duy trì độ chính xác

Độ chính xác của thông tin thu thập được có thể bị ảnh hưởng bởi sự thay đổi thường xuyên của các trang web. Hệ thống cần được cập nhật thường xuyên để đảm bảo thông tin luôn chính xác và đáng tin cậy.

III. Phương pháp xây dựng hệ thống bóc tách giá cả sản phẩm tự động

Để xây dựng hệ thống bóc tách giá cả sản phẩm tự động, cần áp dụng các phương pháp và công nghệ hiện đại. Các bước chính bao gồm thu thập dữ liệu, xử lý và phân tích thông tin, và cuối cùng là trình bày kết quả cho người dùng.

3.1. Quy trình thu thập dữ liệu

Quy trình thu thập dữ liệu bao gồm việc sử dụng các công cụ tự động để truy cập và lấy thông tin từ các trang web thương mại điện tử. Điều này giúp tiết kiệm thời gian và công sức so với việc thu thập thủ công.

3.2. Phân tích và xử lý dữ liệu

Sau khi thu thập, dữ liệu cần được phân tích và xử lý để loại bỏ thông tin không cần thiết và chuẩn hóa dữ liệu. Điều này giúp nâng cao độ chính xác và tính khả thi của thông tin.

IV. Ứng dụng thực tiễn của hệ thống bóc tách giá cả sản phẩm

Hệ thống bóc tách giá cả sản phẩm tự động có nhiều ứng dụng thực tiễn trong lĩnh vực thương mại điện tử. Nó không chỉ giúp người tiêu dùng so sánh giá cả mà còn hỗ trợ các doanh nghiệp trong việc phân tích thị trường và đưa ra quyết định kinh doanh.

4.1. Hỗ trợ người tiêu dùng

Người tiêu dùng có thể dễ dàng so sánh giá cả giữa các sản phẩm khác nhau, từ đó đưa ra quyết định mua sắm thông minh hơn. Hệ thống cung cấp thông tin giá cả chính xác và kịp thời.

4.2. Giúp doanh nghiệp phân tích thị trường

Doanh nghiệp có thể sử dụng thông tin thu thập được để phân tích xu hướng giá cả, từ đó điều chỉnh chiến lược kinh doanh và tối ưu hóa lợi nhuận.

V. Kết luận và tương lai của hệ thống bóc tách giá cả sản phẩm

Hệ thống bóc tách giá cả sản phẩm tự động tại VNU UET không chỉ là một công cụ hữu ích mà còn là một bước tiến quan trọng trong việc ứng dụng công nghệ thông tin vào lĩnh vực thương mại điện tử. Tương lai của hệ thống này hứa hẹn sẽ còn phát triển mạnh mẽ hơn nữa với sự hỗ trợ của các công nghệ mới.

5.1. Triển vọng phát triển công nghệ

Với sự phát triển không ngừng của công nghệ, hệ thống bóc tách giá cả sản phẩm sẽ ngày càng hoàn thiện hơn, đáp ứng tốt hơn nhu cầu của người dùng.

5.2. Tác động đến thị trường thương mại điện tử

Hệ thống này sẽ góp phần làm thay đổi cách thức hoạt động của thị trường thương mại điện tử, tạo ra một môi trường cạnh tranh công bằng hơn cho các doanh nghiệp.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet hệ thống bóc tách giá cả sản phẩm tự động

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh Internet phát triển mạnh mẽ, lượng dữ liệu trên các trang Web ngày càng tăng lên nhanh chóng, đặc biệt là các trang thương mại điện tử với hàng triệu sản phẩm và thông tin giá cả được cập nhật liên tục. Theo ước tính, việc khai thác thông tin từ các nguồn dữ liệu Web chiếm tỷ trọng lớn trong các nguồn dữ liệu hiện nay, tuy nhiên, việc trích xuất thông tin có giá trị từ dữ liệu thô vẫn còn nhiều hạn chế do tính phi cấu trúc và đa dạng của dữ liệu Web. Vấn đề chính đặt ra là làm thế nào để tự động bóc tách thông tin giá cả sản phẩm từ các trang Web bán hàng trực tuyến một cách chính xác và hiệu quả, không phụ thuộc vào cấu trúc cụ thể của từng trang.

Mục tiêu nghiên cứu của luận văn là xây dựng một hệ thống tự động bóc tách giá cả sản phẩm từ các trang Web thương mại điện tử, sử dụng các thuật toán khai phá dữ liệu và kỹ thuật xử lý cấu trúc HTML nhằm trích xuất thông tin có cấu trúc từ dữ liệu bán cấu trúc trên Web. Phạm vi nghiên cứu tập trung vào các trang Web bán hàng trực tuyến tại Việt Nam, với dữ liệu thu thập trong khoảng thời gian gần đây, nhằm phục vụ cho việc so sánh và phân tích giá cả sản phẩm trên thị trường.

Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp một công cụ hỗ trợ tự động hóa trong việc thu thập và phân tích thông tin giá cả, giúp doanh nghiệp và người tiêu dùng có thể tiếp cận thông tin nhanh chóng, chính xác, từ đó nâng cao hiệu quả kinh doanh và quyết định mua sắm. Các chỉ số hiệu quả như độ chính xác của việc bóc tách thông tin và tốc độ xử lý dữ liệu được đặt ra làm tiêu chí đánh giá hệ thống.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database - KDD): Quá trình tương tác giữa người dùng và công cụ khai phá dữ liệu nhằm trích xuất các mẫu thông tin có giá trị từ dữ liệu lớn.
Khai phá dữ liệu Web (Web Mining): Bao gồm khai phá nội dung Web, khai phá cấu trúc Web và khai phá việc sử dụng Web. Trong đó, khai phá nội dung Web tập trung vào việc trích xuất thông tin có cấu trúc từ các trang Web bán hàng.
Mô hình cây DOM (Document Object Model): Mô hình biểu diễn tài liệu HTML dưới dạng cấu trúc cây, giúp truy xuất và thao tác trên các phần tử HTML một cách có hệ thống.
Thuật toán khoảng cách soạn thảo cây (Tree Edit Distance): Phương pháp đo khoảng cách giữa hai cây có nhãn dựa trên các phép biến đổi như chèn, xóa, thay thế nút, được sử dụng để nhận dạng và phân vùng các bản ghi dữ liệu có cấu trúc tương tự trên trang Web.
Các khái niệm chính: Đỉnh gộp (cluster node), vùng dữ liệu (data region), cây mẫu (template tree), wrapper (hàm trích xuất thông tin).

Phương pháp nghiên cứu

Nguồn dữ liệu: Thu thập dữ liệu HTML từ các trang Web bán hàng trực tuyến phổ biến tại Việt Nam, bao gồm các trang có cấu trúc liệt kê sản phẩm với thông tin tên, giá cả, hình ảnh.
Phương pháp chọn mẫu: Sử dụng phương pháp chọn mẫu ngẫu nhiên có chủ đích, lựa chọn các trang Web đại diện cho các loại cấu trúc khác nhau nhằm đảm bảo tính đa dạng và khả năng tổng quát của hệ thống.
Phương pháp phân tích: Áp dụng kỹ thuật phân tích cấu trúc HTML dựa trên mô hình DOM, kết hợp thuật toán khoảng cách soạn thảo cây để phân vùng dữ liệu và nhận dạng các bản ghi sản phẩm. Thuật toán được phát triển nhằm tự động nhận diện các vùng dữ liệu có cấu trúc tương tự và trích xuất thông tin giá cả, tên sản phẩm, hình ảnh.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong vòng 12 tháng, bao gồm các giai đoạn thu thập dữ liệu, phát triển thuật toán, xây dựng hệ thống, thử nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân vùng dữ liệu: Thuật toán dựa trên khoảng cách soạn thảo cây đã phân vùng chính xác các vùng dữ liệu chứa thông tin sản phẩm trên trang Web với độ chính xác đạt khoảng 92%, vượt trội so với các phương pháp thủ công và bán giám sát truyền thống.
Tỷ lệ bóc tách thành công thông tin giá cả: Hệ thống tự động bóc tách được thông tin giá cả sản phẩm với tỷ lệ thành công khoảng 89%, trong đó các trường hợp thất bại chủ yếu do sự thay đổi đột ngột trong cấu trúc HTML của trang Web.
Tốc độ xử lý: Trung bình hệ thống xử lý và cập nhật thông tin cho một trang Web trong vòng 3-5 giây, phù hợp với yêu cầu cập nhật dữ liệu thời gian thực hoặc gần thực tế.
So sánh với các nghiên cứu khác: Kết quả đạt được tương đương hoặc vượt trội hơn các nghiên cứu gần đây về khai phá dữ liệu Web trong lĩnh vực thương mại điện tử, đặc biệt về khả năng tự động hóa và không cần cấu hình thủ công cho từng nguồn dữ liệu.

Thảo luận kết quả

Nguyên nhân của hiệu quả cao trong phân vùng và bóc tách thông tin là do việc áp dụng mô hình cây DOM kết hợp với thuật toán khoảng cách soạn thảo cây giúp nhận dạng chính xác các vùng dữ liệu có cấu trúc tương tự nhau trên trang Web, đồng thời thuật toán có khả năng thích ứng với các biến đổi nhỏ trong cấu trúc HTML. So với các phương pháp thủ công hoặc bán giám sát, hệ thống giảm thiểu sự can thiệp của người dùng, tiết kiệm thời gian và công sức.

Kết quả có thể được trình bày qua biểu đồ so sánh tỷ lệ thành công của các phương pháp bóc tách thông tin, bảng thống kê thời gian xử lý trung bình trên từng loại trang Web, và biểu đồ phân bố các lỗi bóc tách theo nguyên nhân.

Ý nghĩa của nghiên cứu không chỉ nằm ở việc nâng cao hiệu quả khai thác thông tin giá cả sản phẩm mà còn mở rộng khả năng ứng dụng cho các bài toán khai phá dữ liệu Web khác như phân loại sản phẩm, tổng hợp đánh giá khách hàng, hoặc tích hợp dữ liệu từ nhiều nguồn.

Đề xuất và khuyến nghị

Phát triển thuật toán thích ứng: Cải tiến thuật toán khoảng cách soạn thảo cây để tự động điều chỉnh ngưỡng nhận dạng vùng dữ liệu, nhằm tăng khả năng thích ứng với các thay đổi lớn trong cấu trúc Web, nâng cao tỷ lệ bóc tách thành công lên trên 95% trong vòng 12 tháng tới.
Mở rộng phạm vi dữ liệu: Triển khai thu thập và bóc tách thông tin từ các trang Web thương mại điện tử đa ngành hàng, không chỉ giới hạn ở sản phẩm điện tử, nhằm tăng độ phủ và tính ứng dụng của hệ thống trong 6 tháng tiếp theo.
Tích hợp công nghệ học máy: Áp dụng các mô hình học máy để phân loại và dự đoán xu hướng giá cả dựa trên dữ liệu thu thập được, giúp doanh nghiệp có thể đưa ra các quyết định kinh doanh chính xác hơn trong vòng 1 năm.
Xây dựng giao diện người dùng thân thiện: Phát triển module Web hiển thị kết quả bóc tách và cho phép người dùng tìm kiếm, so sánh giá cả sản phẩm một cách trực quan, dễ sử dụng, dự kiến hoàn thành trong 3 tháng tới.

Các giải pháp trên cần sự phối hợp giữa nhóm phát triển hệ thống, chuyên gia dữ liệu và các doanh nghiệp thương mại điện tử để đảm bảo tính khả thi và hiệu quả thực tiễn.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin: Có thể sử dụng luận văn làm tài liệu tham khảo về kỹ thuật khai phá dữ liệu Web, thuật toán khoảng cách soạn thảo cây và ứng dụng trong trích xuất thông tin tự động.
Doanh nghiệp thương mại điện tử: Hệ thống và phương pháp nghiên cứu giúp doanh nghiệp tự động thu thập, cập nhật và phân tích thông tin giá cả sản phẩm từ các đối thủ cạnh tranh, hỗ trợ chiến lược kinh doanh và marketing.
Nhà phát triển phần mềm: Có thể áp dụng các thuật toán và kiến trúc hệ thống được đề xuất để xây dựng các công cụ thu thập và xử lý dữ liệu Web phục vụ nhiều mục đích khác nhau như so sánh giá, tổng hợp đánh giá khách hàng.
Chuyên gia phân tích dữ liệu và quản lý sản phẩm: Sử dụng kết quả nghiên cứu để hiểu rõ hơn về cách thức khai thác dữ liệu Web, từ đó đưa ra các quyết định dựa trên dữ liệu chính xác và kịp thời.

Câu hỏi thường gặp

Hệ thống có thể áp dụng cho các trang Web không có cấu trúc rõ ràng không?
Hệ thống chủ yếu tập trung vào các trang Web có cấu trúc bán cấu trúc hoặc cấu trúc tương đối ổn định, như các trang liệt kê sản phẩm. Với các trang Web có cấu trúc lỏng lẻo, hiệu quả bóc tách sẽ giảm do khó nhận dạng mẫu dữ liệu.
Thuật toán khoảng cách soạn thảo cây có thể xử lý các thay đổi nhỏ trong cấu trúc Web như thế nào?
Thuật toán cho phép đo lường sự khác biệt giữa các cây DOM, từ đó nhận diện các vùng dữ liệu tương tự dù có sự thay đổi nhỏ như thêm hoặc bớt một số nút, giúp hệ thống thích ứng tốt với các biến đổi thường xuyên trên Web.
Tốc độ xử lý của hệ thống có đáp ứng được yêu cầu cập nhật dữ liệu thời gian thực không?
Với thời gian xử lý trung bình 3-5 giây cho một trang Web, hệ thống phù hợp với các ứng dụng cập nhật dữ liệu gần thời gian thực, tuy nhiên với khối lượng lớn cần tối ưu thêm về mặt phần cứng và thuật toán.
Hệ thống có cần người dùng cấu hình thủ công cho từng nguồn dữ liệu không?
Không, hệ thống được thiết kế để tự động bóc tách thông tin mà không cần cấu hình thủ công cho từng trang Web, giúp tiết kiệm thời gian và công sức khi mở rộng phạm vi thu thập dữ liệu.
Có thể mở rộng hệ thống để trích xuất các thông tin khác ngoài giá cả sản phẩm không?
Có, với cơ sở lý thuyết và kiến trúc hiện tại, hệ thống có thể được điều chỉnh để trích xuất các trường thông tin khác như mô tả sản phẩm, đánh giá khách hàng, hoặc thông tin kỹ thuật, tùy thuộc vào yêu cầu ứng dụng.

Kết luận

Luận văn đã xây dựng thành công hệ thống tự động bóc tách giá cả sản phẩm từ các trang Web bán hàng trực tuyến dựa trên mô hình cây DOM và thuật toán khoảng cách soạn thảo cây.
Hệ thống đạt tỷ lệ bóc tách thông tin chính xác trên 89% và tốc độ xử lý phù hợp với yêu cầu thực tế.
Phương pháp nghiên cứu và giải thuật được phát triển có tính mở rộng cao, có thể áp dụng cho nhiều loại trang Web và bài toán khai phá dữ liệu Web khác.
Các đề xuất cải tiến nhằm nâng cao khả năng thích ứng và mở rộng phạm vi ứng dụng được xác định rõ ràng cho các bước phát triển tiếp theo.
Kêu gọi các nhà nghiên cứu và doanh nghiệp hợp tác phát triển, ứng dụng hệ thống để nâng cao hiệu quả khai thác dữ liệu Web trong thương mại điện tử và các lĩnh vực liên quan.

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan về khai phá dữ liệu nói chung và khai thác webói riêng Chương 2: Cơ sở lý thuyết Chương 3: Xây dựng hệ thống chắt lọc thông tin sản phẩm trên web Cuối cùng là kết luận và hướng phát triển tiếp theo của đề tài. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 3 CHƢƠNG I: GIỚI THIỆU CHUNG 1.1 Tổng quan về phát hiện tri thức và khai phá dữ liệu 1.1 Quá trình phát hiện tri thức 1.1 Phát hiện tri thức Thông thường, dữ liệu được coi như một dãy các bit, hoặc các số và các ký hiệu, hoặc các “đối tượng” với một ý nghĩa nào đó khi được gửi đến một chương trình dưới một dạng nhất định. Ta sử dụng các bit để đo lượng thông tin và xem nó như là các dữ liệu đã được lọc bỏ các dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Chúng ta có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối quan hệ giữa chúng.

Các mối quan hệ này có thể được hiểu ra, được phát hiện, hoặc có thể được học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ trừu tượng và tổ chức cao. Sử dụng thông tin hiệu quả là yếu tố thành công và mang tính sống còn trong mọi lĩnh vực nghiệp vụ hiện nay. Điều đó có nghĩa là, từ dữ liệu có sẵn phải lấy được những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng.

Thực hiện công việc này chính là quá trình phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in DataBase – KDD) mà trong đó kỹ thuật cho phép lấy ra các tri thức gọi là kỹ thuật khai phá dữ liệu (Data mining). Tri thức có thể hiểu là một biểu diễn trong một ngôn ngữ nào đó diễn đạt một hoặc một vài mối quan hệ giữa các thuộc tính trong dữ liệu. Các ngôn ngữ thường được dùng để biểu diễn tri thức là các khung (frames), các đồ thị, các luật (rules), các công thức chính trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một hay các hệ thống phương trình. Quá trình phát hiện tri thức mang tính hướng nhiệm vụ, tức là không hướng đến sự phát hiện mọi tri thức bất kì mà nhằm giải quyết tốt một nhiệm vụ cụ thể nhất định.

Vì vậy, quá trình phát hiện tri thức là quá trình hoạt động tương tác giữa người sử dụng hoặc chuyên gia phân tích với các công cụ tin học.2 Các giai đoạn của quá trình phát hiện tri thức Mục đích của quá trình phát hiện tri thức là rút ra tri thức từ dữ liệu trong cơ sở dữ liệu (CSDL) lớn. Quá trình KDD gồm nhiều giai đoạn và được lặp lại, mà trong đó sự lặp lại có thể xảy ra ở bất cứ thời điểm nào cần thiết. Quá trình đó có thể mô tả như trong hình 1.1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.1: Quy trình phát hiện tri thức Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán. Bước này sẽ quyết định cho việc trích rút các tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và với bản chất của dữ liệu.

Bước thứ hai là thu thập và xử lý thô, hay còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, giải quyết tình huống thiếu dữ liệu, biến đổi và rút gọn dữ liệu nếu cần thiết. Bước này thường chiếm nhiều thời gian nhất trong toàn bộ quá trình phát hiện tri thức. Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các mô hình tiềm ẩn dưới các dữ liệu. Bước thứ tư là nắm hiểu tri thức đã tìm được và đặc biệt là làm sáng rõ các tri thức bằng các mô tả và hay suy luận.

Bước thứ năm là củng cố, tinh chế các tri thức được phát hiện. Kết hợp các tri thức thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác được. Sau đó tri thức được chuẩn bị sẵn sang cho ứng dụng.

Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện.2 Khai phá dữ liệu 1.1 Định nghĩa Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong các nguồn dữ liệu lớn. Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Các hoạt động khai phá dữ liệu Một quá trình khai phá dữ liệu (KPDL) bao gồm năm giai đoạn chính sau: (1) Tìm hiểu nghiệp vụ và dữ liệu (2) Chuẩn bị dữ liệu (3) Mô hình hóa dữ liệu (4) Hậu xử lý và đánh giá mô hình (5) Triển khai tri thức Quá trình này có thể được lặp lại nhiều lần hay nhiều giai đoạn dựa trên phản hồi từ kết quả của các giai đoạn sau. Tham gia chính trong quá trình KPDL là các nhà tư vấn (NTV) và phát triển chuyên nghiệp trong lĩnh vực KPDL. [1] Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ và dữ liệu, NTV nghiên cứu kiến thức về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu.

Việc nghiên cứu này được thực hiện thông qua việc giao tiếp giữa NTV và người dùng. Khác với phương pháp giải quyết vấn đề truyền thống mà ở đó bài toán được xác định chính xác ngay ở bước đầu tiên, ở đây NTV cần tìm hiểu các yêu cầu đầu tiên của người dùng và đề nghị các bài toán tiềm năng có thể phải giải quyết với nguồn dữ liệu đã cho. Tập các bài toán tiềm năng được tinh chỉnh và làm hẹp lại trong các giai đoạn sau. Các nguồn và đặc tả dữ liệu có liên quan đến tập các bài toán tiềm năng cũng được xác định chính xác dần.

Giai đoạn Chuẩn bị dữ liệu sử dụng các kỹ thuật tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu làm thích hợp với những yêu cầu của các giải thuật học. Phần lớn các giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu đơn và phẳng, do đó dữ liệu phải được trích xuất và biến đối từ các dạng có sẵn trong CSDL phân tán (loại quan hệ hay hướng đối tượng) sang dạng CSDL quan hệ đơn giản với một bảng dữ liệu. Các giải thuật tiền xử lý tiêu biểu bao gồm: (a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu bị thiếu sẽ được thay thế bởi các giá trị thích hợp. (b) Khử sự trùng lặp: các đối tượng dữ liệu trùng lặp sẽ bị loại bỏ đi.

Kỹ thuật này không sử dụng cho các tác vụ liên quan đến phân bố dữ liệu. (c) Giảm nhiễu: nhiễu và các đối tượng nằm ngoài khỏi phân bố chung sẽ bị loại đi khỏi dữ liệu. (d) Chuẩn hóa: miền giá trị của dữ liệu sẽ được chuẩn hóa. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 (e) Rời rạc hóa: các dữ liệu số sẽ được biến đổi ra các giá trị rời rạc.

(f) Trích rút và xây dựng đặc trưng mới từ các thuộc tính đã có. (g) Giảm chiều: dữ liệu của các thuộc tính chứa ít thông tin sẽ được loại bỏ. Các bài toán cần giải quyết được hình thành trong giai đoạn Mô hình hóa dữ liệu. Các giải thuật được áp dụng trong giai đoạn hai sẽ sử dụng dữ liệu đã tiền xử lý để tìm kiếm các qui tắc tiềm ẩn và chưa biết.

Công việc quan trọng nhất trong giai đoạn này là lựa chọn kỹ thuật phù hợp để giải quyết các vấn đề đặt ra. Để làm điều này, các bài toán được phân loại vào một trong những nhóm bài toán chính trong KPDL dựa trên đặc tả của chúng. Các mô hình kết quả của giai đoạn ba sẽ được hậu xử lý và đánh giá trong giai đoạn 4. Dựa trên các đánh giá của người dùng sau khi kiểm tra trên các tập thử, các mô hình sẽ được tinh chỉnh và kết hợp lại nếu cần.

Chỉ các mô hình đạt được mức yêu cầu cơ bản của người dùng mới đưa ra triển khai trong thực tế. Trong giai đoạn này, các kết quả được biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho người dùng. Trong giai đoạn cuối, Triển khai tri thức, các mô hình được đưa vào những hệ thống thông tin thực tế dưới dạng các môđun hỗ trợ việc đưa ra quyết định. Mối quan hệ chặt chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho việc nghiên cứu KPDL.

Một giải thuật trong KPDL không thể được phát triển độc lập, không quan tâm đến bối cảnh áp dụng mà thường được xây dựng để giải quyết một mục tiêu cụ thể. Do đó, sự hiểu biết bối cảnh vận dụng là rất cần thiết. Thêm vào đó, các kỹ thuật được sử dụng trong các giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật sử dụng trong các giai đoạn tiếp theo.3 Các bài toán thông dụng trong Khai phá dữ liệu Trong KPDL, các bài toán có thể phân thành bốn loại chính. Bài toán thông dụng nhất là bài toán Phân lớp.

Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ lọc ra bộ phân loại (classifier) dùng để phân các dữ liệu mới vào một trong những lớp đã được xác định trước. Nhận dạng cũng là một bài toán thuộc kiểu Phân loại. Với mô hình học tương tự như bài toán Phân loại, lớp bài toán Dự đoán sẽ lọc ra các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán.

Bài toán tiêu biểu trong nhóm này là dự đoán giá sản phẩm để lập kế hoạch trong kinh doanh. Các giải thuật Tìm luật liên kết (Association Rule) nhằm tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví dụ như nhóm các món hàng thường được mua kèm với nhau trong siêu thị. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các đối tượng dữ liệu có tính chất giống nhau vào cùng một nhóm.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Khai phá dữ liệu và Web Mining

trích xuất thông tin có cấu trúc từ web