Hệ Thống Xử Lý Dữ Liệu Đa Chiều Tại Đại Học Giao Thông Vận Tải Hà Nội

Người đăng

Ẩn danh

Thể loại

luận văn

2003

127
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Tổng Quan Hệ Thống Xử Lý Dữ Liệu Đa Chiều Giới Thiệu

Trong bối cảnh công nghệ thông tin phát triển mạnh mẽ, lượng dữ liệu ngày càng tập trung trong các cơ sở dữ liệu khổng lồ. Nhu cầu truy nhập vào tất cả các dữ liệu để lấy ra thông tin là cần thiết. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập tìm ra thông tin cần thiết là kho dữ liệu. Ở nước ta ngày càng có nhiều kho dữ liệu được xây dựng và lượng dữ liệu ngày một lớn. Tuy nhiên việc khai thác hiện nay chưa có hiệu quả, vì trong kho dữ liệu lớn, đa chiều thường chứa nhiều thông tin (tri thức) ẩn kín mà các công cụ truyền thống như kỹ thuật truy vấn SQL rất khó và nhiều khi không phát hiện được. Hơn thế nữa, do yêu cầu của người sử dụng liên tục thay đổi, đòi hỏi các câu trả lời phải theo thứ tự khác nhau. Yêu cầu làm thế nào có thể khai thác thông tin có hiệu quả, thỏa mãn nhu cầu khai thác mức cao của người dùng, đòi hỏi phải có công nghệ khai thác thích hợp, hiện nay xử lý phân tích trực tuyến (OLAP) là một trong các phương pháp khai thác có hiệu quả trên những tập dữ liệu lớn và hỗn hợp.

1.1. Định Nghĩa Chi Tiết về Hệ Thống Kho Dữ Liệu

Kho dữ liệu (Data warehouse - DW) là một tập hợp các cơ sở dữ liệu tích hợp, hướng chuyên đề, được thiết kế cho việc truy vấn và phân tích hơn là xử lý giao dịch để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể. Kích thước của kho dữ liệu thường rất lớn, được tổ chức, lưu trữ và phân tích phục vụ cho việc cung cấp các thông tin liên quan đến nghiệp vụ của tổ chức. Kho dữ liệu phục vụ cho việc phân tích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập, xử lý dữ liệu loại này còn gọi là hệ xử lý phân tích trực tuyến - OLAP.

1.2. Các Đặc Điểm Nổi Bật Của Dữ Liệu Trong Kho

Dữ liệu hướng chuyên đề: Kho dữ liệu được thiết kế để giúp cho việc phân tích dữ liệu. Ví dụ để biết nhiều hơn về dữ liệu bán hàng của tổ chức, doanh nghiệp có thể xây dựng một kho dữ liệu tập trung vào chuyên đề bán hàng. Sử dụng kho dữ liệu này có thể trả lời được các câu hỏi có liên quan đến bán hàng như: “Khu vực nào tiêu thụ sản phẩm là Video nhiều nhất trong quí I năm 2003”. Đây là khả năng cho phép định nghĩa kho dữ liệu theo các chuyên đề, tạo ra kho dữ liệu hướng chuyên đề.

II. Thách Thức Xây Dựng Hệ Thống Xử Lý Dữ Liệu Lớn

Các doanh nghiệp, tổ chức kinh tế - xã hội đều đang phải đối đầu với sự thay đổi của thị trường, sự thay đổi hoàn thiện của các chính sách kinh tế xã hội. Để có thể đưa ra một quyết định đúng đắn, trước hết phải có khả năng nhanh chóng truy nhập được tới các thông tin mà doanh nghiệp, tổ chức có sẵn. Đối với một doanh nghiệp, tổ chức, muốn có một quyết định đúng đắn, cần nghiên cứu cả những dữ liệu trong quá khứ và hiện tại, nhằm phân tích và xác định ra các xu hướng có thể ở hiện tại và tương lai. Để phục vụ phân tích dữ liệu cần được tập trung lại và do đó sẽ tạo ra những cơ sở dữ liệu khổng lồ. Cách tổ chức dữ liệu có hiệu quả nhất để trợ giúp nhu cầu truy nhập thông tin hỗ trợ ra quyết định là tổ chức thành các kho dữ liệu.

2.1. Vấn Đề Khi Sử Dụng CSDL Giao Dịch Trực Tuyến

Chính từ những đặc điểm này, nếu chúng ta sử dụng CSDL xử lý giao dịch trực tuyến cho phân tích trực tuyến thì thường gặp những khó khăn sau: Các yêu cầu phân tích, tổng kết những khối lượng lớn dữ liệu, ảnh hưởng tới khả năng của hệ thống. Sự thực hiện của hệ thống khi đáp ứng những yêu cầu phân tích phức tạp có thể chậm hoặc không ổn định, cung cấp sự hỗ trợ không đầy đủ cho những người sử dụng trong phân tích trực tuyến. Sự thay đổi dữ liệu thường xuyên gây trở ngại cho tính tin cậy của thông tin phân tích.

2.2. So Sánh Kho Dữ Liệu và Hệ Thống OLTP Điểm Khác Biệt

Kho dữ liệuhệ OLTP xây dựng phục vụ cho nhu cầu khác nhau. Sự khác nhau cơ bản giữa hai hệ thống này là dạng chuẩn của dữ liệu, kho dữ liệu thường không sử dụng dạng chuẩn 3NF, còn trong các hệ thống OLTP thường sử dụng chuẩn 3NF. Sau đây là sự khác nhau tiêu biểu giữa kho dữ liệu và các hệ thống OLTP.

III. Kiến Trúc Hệ Thống Xử Lý Dữ Liệu Đa Chiều Các Loại

Các kho dữ liệu và các kiến trúc kho không phải luôn luôn là giống nhau mà phụ thuộc vào hoàn cảnh cụ thể của tổ chức, doanh nghiệp. Thông thường có ba dạng kiến trúc cơ bản sau của kho dữ liệu: Kiến trúc kho dữ liệu cơ bản, Kiến trúc kho dữ liệu với vùng tạm, Kiến trúc kho dữ liệu với vùng tạm và dữ liệu chuyên đề.

3.1. Kiến Trúc Cơ Bản Của Hệ Thống Kho Dữ Liệu

Kiến trúc đơn giản nhất của một kho dữ liệu là người sử dụng cuối truy nhập trực tiếp dữ liệu được dẫn xuất từ nhiều hệ thống nguồn thông qua kho dữ liệu. Mô hình của kiến trúc này như sau: Các nguồn dữ liệu, Các người sử dụng, Kho dữ liệu, Hệ thống tác nghiệp, Phân tích, Siêu dữ liệu, Hệ thống tác nghiệp, Kho dữ liệu, Dữ liệu, Tạo báo cáo, Dữ liệu thô tổng hợp, Các file phẳng, Khai phá, Siêu dữ liệu.

3.2. Kiến Trúc Kho Dữ Liệu Với Vùng Tạm Chi Tiết

Cần phải làm sạch và xử lý dữ liệu tác nghiệp trước khi đưa chúng vào trong kho. Công việc này có thể được thực hiện một cách tự động, hầu hết các kho dữ liệu dùng một vùng tạm thay thế. Một vùng tạm sẽ làm đơn giản hóa việc xây dựng tổng hợp và quản lý kho dữ liệu. Mô hình của kiến trúc này như sau: Các nguồn dữ liệu, Các người, Vùng tạm, Kho dữ liệu, Dữ liệu sử dụng, Hệ thống tác nghiệp, Phân tích, Siêu dữ liệu, Hệ thống tác nghiệp, Dữ liệu, Dữ liệu thô, Tạo báo cáo tổng hợp, Các file phẳng, Khai phá, Siêu dữ liệu.

IV. Các Thành Phần Cấu Thành Hệ Thống Kho Dữ Liệu

Các hệ thống nằm trong được coi như là các hệ thống nguồn hoặc các hệ thống đã có sẵn. Hệ thống đã có sẵn (Legacy System-LS): là hệ thống tác nghiệp hỗ trợ công tác nghiệp vụ. Hệ thống này đã từng được phát triển sử dụng các công nghệ có sẵn và vẫn phù hợp với các nhu cầu nghiệp vụ. Các hệ thống này có thể được thực hiện trong nhiều năm và có lẽ không có hoặc có rất ít minh chứng bằng tài liệu. Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của một tổ chức, là những dữ liệu do người sử dụng cuối yêu cầu để điền vào bức tranh tổng thể các nhu cầu nghiệp vụ của họ.

4.1. Các Nguồn Dữ Liệu Bên Trong và Bên Ngoài Tổ Chức

Các LS được phát triển xung quanh các vùng nghiệp vụ phục vụ cho dự án. Các ứng dụng được phát triển cùng với dữ liệu mà các dữ liệu này lại đáp ứng nhiều nhu cầu khác nhau. Cùng là một dữ liệu nhưng lại có tên khác nhau, hoặc thuộc các hệ thống đo lường khác nhau. Kết quả cuối cùng là các nguồn dữ liệu cần được đánh giá và các định nghĩa cần được đưa vào siêu dữ liệu để nhắm tới các vấn đề sau: Xác định các nguồn khác nhau, cấu trúc file khác nhau, các nền khác nhau.

4.2. Công Cụ Thu Thập Làm Sạch và Chuyển Đổi Dữ Liệu

Một phần quan trọng trong cài đặt là sử dụng những dữ liệu đã được tinh chế từ những hệ thống tác nghiệp và đưa chúng vào một khuôn dạng thích hợp cho các ứng dụng thông tin. Những công cụ này thực hiện tất cả các công việc chuyển đổi, tóm tắt, những thay đổi quan trọng, những thay đổi về cấu trúc và những công đoạn cần thiết cho sự chuyển đổi dữ liệu riêng rẽ thành thông tin có thể được dùng trong những công cụ hỗ trợ quyết định.

V. Ứng Dụng Công Nghệ OLAP Hỗ Trợ Quyết Định Lợi Ích

Không giống với các hệ trợ giúp quyết định truyền thống thường được xây dựng với mục đích đưa ra giải pháp tối ưu cho một bài toán cụ thể, trong một phạm vi ứng dụng hẹp, công nghệ OLAP hướng đến việc giúp người sử dụng có thể khai thác được tối đa khả năng tiềm ẩn của một khối lượng dữ liệu lớn, nhằm thu được những thông tin tổng hợp ở đủ các khía cạnh khác nhau của dữ liệu, để từ đó có thể ra các quyết định một cách nhanh chóng. Do đặc điểm này, phạm vi ứng dụng của hệ trợ giúp quyết định sử dụng công nghệ OLAP dựa vào dữ liệu là rộng rãi cho các bài toán khác nhau, trong nhiều lĩnh vực khác nhau.

5.1. Lợi Ích Của OLAP Trong Hỗ Trợ Ra Quyết Định

Công nghệ OLAP giúp nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo những khía cạnh khác nhau của dữ liệu, nhằm thu thập được tối đa những gì họ cần hiểu rõ, để từ đó có thể ra được những quyết định tốt nhất một cách nhanh chóng.

5.2. Các Mô Hình Ứng Dụng OLAP Trong Thực Tế

Các mô hình ứng dụng OLAP rất đa dạng, từ phân tích bán hàng, phân tích thị trường, đến phân tích rủi ro tài chính. OLAP cho phép người dùng khám phá dữ liệu từ nhiều góc độ khác nhau, tìm ra các xu hướng và mối quan hệ ẩn sâu trong dữ liệu.

VI. Đào Tạo và Nghiên Cứu Dữ Liệu Đa Chiều Tại Đại Học GTVT

Xuất phát từ nhu cầu thực tiễn tôi chọn hướng đề tài nghiên cứu: “Công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định” nhằm tìm hiểu về kho dữ liệucông nghệ OLAP sử dụng để khai thác trên các kho dữ liệu, hướng tới xây dựng các hệ thống có khả năng ứng dụng công nghệ phân tích trực tuyến vào khai thác dữ liệu phục vụ công tác quản lý, hỗ trợ ra quyết định. Đề tài đề cập đến việc nghiên cứu nhằm hướng đến xây dựng các hệ thống trợ giúp quyết định sử dụng phương pháp luận OLAP.

6.1. Mục Tiêu Nghiên Cứu và Phát Triển Hệ Thống OLAP

Luận văn sẽ tập trung vào các công việc chính là nghiên cứu vấn đề tổ chức, xây dựng kho dữ liệu, nhấn mạnh vào nghiên cứu mô hình CSDL đa chiềuphân tích dữ liệu trực tuyến để trợ giúp ra quyết định. Hệ trợ giúp quyết định theo tiếp cận này, có thể giúp cho nhà quản lý thiết lập một mô hình OLAP cho ứng dụng cụ thể của mình trong việc tổ chức CSDL đa chiều, và giúp cho họ dễ dàng trong hoạt động phân tích, tìm kiếm thông tin theo những khía cạnh khác nhau của dữ liệu, nhằm thu thập được tối đa những gì họ cần hiểu rõ, để từ đó có thể ra được những quyết định tốt nhất một cách nhanh chóng.

6.2. Hướng Phát Triển và Ứng Dụng Công Nghệ OLAP

Hướng phát triển của công nghệ OLAP là tích hợp với các công nghệ khác như khai phá dữ liệu, học máy để tạo ra các hệ thống thông minh hơn, có khả năng tự động phân tích và đưa ra các gợi ý, dự báo chính xác hơn. Ứng dụng của OLAP sẽ ngày càng mở rộng trong nhiều lĩnh vực khác nhau, từ kinh doanh, tài chính, đến y tế, giáo dục.

05/06/2025
Luận văn công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định
Bạn đang xem trước tài liệu : Luận văn công nghệ xử lý phân tích trực tuyến trong việc trợ giúp quyết định

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Tài liệu "Hệ Thống Xử Lý Dữ Liệu Đa Chiều Tại Đại Học Giao Thông Vận Tải Hà Nội" trình bày một hệ thống tiên tiến giúp xử lý và phân tích dữ liệu đa chiều, phục vụ cho việc ra quyết định trong quản lý và giảng dạy tại trường. Hệ thống này không chỉ tối ưu hóa quy trình xử lý thông tin mà còn nâng cao khả năng truy xuất và phân tích dữ liệu, từ đó hỗ trợ các giảng viên và sinh viên trong việc nghiên cứu và học tập.

Để mở rộng thêm kiến thức về các hệ thống hỗ trợ học vụ và công nghệ thông tin trong giáo dục, bạn có thể tham khảo các tài liệu liên quan như Luận văn thạc sĩ khoa học máy tính xây dựng hệ thống hỗ trợ học vụ đa ngôn ngữ trong tiếng việt và tiếng anh, nơi bạn sẽ tìm thấy những giải pháp đa ngôn ngữ cho hệ thống học vụ. Ngoài ra, Luận văn thạc sĩ hệ thống thông tin quản lý công nghệ điện toán đám mây trong môi trường đại học sẽ cung cấp cái nhìn sâu sắc về việc áp dụng công nghệ điện toán đám mây trong giáo dục. Cuối cùng, Luận văn thạc sĩ hệ thống thông tin quản lý đề xuất giải pháp lưu trữ và chia sẻ file an toàn cho trường đại học tài chính marketing sẽ giúp bạn hiểu rõ hơn về các giải pháp lưu trữ và chia sẻ dữ liệu an toàn trong môi trường học thuật.

Những tài liệu này không chỉ mở rộng kiến thức mà còn cung cấp những góc nhìn đa dạng về công nghệ thông tin trong giáo dục, giúp bạn có cái nhìn toàn diện hơn về lĩnh vực này.