Phát Triển Mô Hình Kho Dữ Liệu Tuyển Sinh Đại Học Tại Việt Nam

Chuyên khảo phân tích Phát triển mô hình kho dữ liệu tuyển sinh đại học khai thác sử dụng tại trường đại học của việt nam, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên

Trường đại học

Trường Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

Luận Văn

2023

100

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: GIỚI THIỆU VỀ ĐỒ ÁN HỌC PHẦN

1.1. Tổng quan về ĐỒ ÁN HỌC PHẦN

1.2. Nội dung chuyên môn chính của ĐỒ ÁN HỌC PHẦN

1.3. Mục tiêu của ĐỒ ÁN HỌC PHẦN

1.4. Công cụ và nền tảng kỹ thuật thực hiện ĐỒ ÁN HỌC PHẦN

1.5. Sản phẩm của ĐỒ ÁN HỌC PHẦN

1.6. Bố cục của báo cáo

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN

2.1. Tổng quan về kho dữ liệu (DWH)

2.2. Các khái niệm cơ bản về Kho dữ liệu

2.3. Nguyên lý hình thành DWH

2.4. Các đặc điểm cơ bản của DWH

2.5. Phân biệt DWH với CSDL truyền thống

2.6. Xác định các Facts và Dims

3. CHƯƠNG 3: GIỚI THIỆU TỔNG QUAN VỀ KHO DỮ LIỆU TUYỂN SINH ĐẠI HỌC SỬ DỤNG TẠI TRƯỜNG ĐẠI HỌC VIỆT NAM

3.1. Giới thiệu chung về Kho dữ liệu

3.2. Mô tả tổng quan về DWH

3.3. Các dữ liệu nguồn hình thành DWH

3.4. Xác định nhu cầu tổ chức và phân tích dữ liệu của toàn bộ DWH

3.5. Các thành phần Kho dữ liệu phân công các cá nhân phụ trách

4. CHƯƠNG 4: PHÂN TÍCH, THIẾT KẾ VÀ KHAI THÁC SỬ DỤNG CÁC THÀNH PHẦN KHO DỮ LIỆU TUYỂN SINH ĐẠI HỌC SỬ DỤNG TẠI TRƯỜNG ĐẠI HỌC VIỆT NAM

4.1. Thành phần đăng ký dự thi theo tỉnh hoặc vùng miền và khu vực ưu tiên

4.2. Thành phần đăng ký dự thi theo nhóm ngành nghề

4.3. Thành phần đăng ký dự thi theo khối thi

4.4. Thành phần đăng ký dự thi theo phương thức

4.5. Thành phần đăng ký dự thi theo dạng trường phổ thông

4.6. Thành phần đăng ký dự thi theo cơ sở đào tạo

4.7. Thành phần đăng ký dự thi theo nhóm tư vấn tuyển sinh của cơ sở đào tạo

4.8. Thành phần đăng ký dự thi theo đối tượng ưu tiên

4.9. Thành phần đăng ký dự thi theo kết quả trúng tuyển và nhập học

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỒ ÁN HỌC PHẦN

5.1. Những kết quả đạt được

5.2. Hướng phát triển

5.3. Hướng khắc phục các hạn chế

5.4. Hướng mở rộng ĐỒ ÁN HỌC PHẦN

DANH MỤC TÀI LIỆU THAM KHẢO

Tóm tắt

I. Khám Phá Mô Hình Kho Dữ Liệu Tuyển Sinh Đại Học Tối Ưu

Trong bối cảnh chuyển đổi số trong tuyển sinh đại học đang diễn ra mạnh mẽ, việc quản lý và khai thác thông tin thí sinh trở thành yếu tố sống còn quyết định thành công của mỗi cơ sở giáo dục. Mô hình kho dữ liệu tuyển sinh đại học ra đời như một giải pháp chiến lược, không chỉ để lưu trữ mà còn để phân tích, tổng hợp và biến dữ liệu thô thành tri thức hữu ích. Khác với cơ sở dữ liệu giao dịch thông thường (OLTP) chỉ tập trung vào việc ghi nhận các giao dịch hàng ngày, một data warehouse cho trường đại học được thiết kế chuyên biệt cho mục đích phân tích (OLAP). Theo nghiên cứu từ Trường Đại học Sư phạm Kỹ thuật TP. HCM, một kho dữ liệu (DWH) hiệu quả phải mang bốn đặc tính cốt lõi: tính hướng chủ đề (tập trung vào các vấn đề tuyển sinh), tính tích hợp (hợp nhất dữ liệu từ nhiều nguồn), tính lịch sử (lưu trữ dữ liệu qua nhiều năm), và tính ổn định (dữ liệu không bị thay đổi sau khi nạp). Việc phát triển mô hình kho dữ liệu tuyển sinh đại học tại Việt Nam cho phép các nhà quản lý giáo dục có cái nhìn toàn cảnh, từ đó đưa ra những quyết định chiến lược dựa trên bằng chứng thay vì cảm tính. Hệ thống này không chỉ là một công cụ lưu trữ, mà còn là một hệ thống hỗ trợ ra quyết định tuyển sinh mạnh mẽ, giúp dự báo xu hướng, tối ưu hóa chiến dịch và nâng cao chất lượng đầu vào.

1.1. Định nghĩa Data warehouse cho trường đại học là gì

Một data warehouse cho trường đại học là một hệ thống lưu trữ dữ liệu tập trung, được thiết kế đặc biệt để hỗ trợ các hoạt động phân tích và báo cáo trong công tác tuyển sinh và quản lý đào tạo. Dữ liệu được thu thập từ nhiều hệ thống nguồn khác nhau như hệ thống quản lý hồ sơ thí sinh, cổng thông tin tuyển sinh, dữ liệu từ Bộ Giáo dục và Đào tạo (Bộ GD&ĐT), và các nền tảng truyền thông. Sau đó, dữ liệu này được làm sạch, tích hợp và cấu trúc lại theo một mô hình nhất quán, thường là mô hình dữ liệu OLAP, để phục vụ cho việc truy vấn phức tạp và phân tích dữ liệu tuyển sinh đa chiều. Mục tiêu chính là cung cấp một nguồn dữ liệu duy nhất, đáng tin cậy cho các nhà quản lý để thực hiện báo cáo và thống kê tuyển sinh một cách nhanh chóng và chính xác.

1.2. Phân biệt DWH và Cơ sở dữ liệu CSDL truyền thống

Sự khác biệt cơ bản giữa Kho dữ liệu (DWH) và CSDL truyền thống nằm ở mục đích thiết kế và cách thức hoạt động. CSDL truyền thống, hay hệ thống OLTP (Online Transaction Processing), được tối ưu cho các giao dịch ghi, đọc, sửa, xóa dữ liệu nhanh chóng và thường xuyên, ví dụ như việc nộp hồ sơ trực tuyến. Ngược lại, một DWH sử dụng công nghệ OLAP (Online Analytical Processing), được thiết kế để xử lý các truy vấn phân tích phức tạp trên một khối lượng dữ liệu khổng lồ. Tài liệu tham khảo chỉ rõ, CSDL truyền thống thường được chuẩn hóa cao để tránh dư thừa dữ liệu, trong khi kiến trúc kho dữ liệu lại ưu tiên cấu trúc phi chuẩn hóa (như lược đồ sao và bông tuyết) để tăng tốc độ truy vấn. Dữ liệu trong CSDL là dữ liệu tác nghiệp tại thời gian thực, còn dữ liệu trong DWH mang tính lịch sử, được cập nhật định kỳ và không thể thay đổi, phục vụ cho việc dự báo xu hướng tuyển sinh.

II. Bài Toán Quản Lý Dữ Liệu Tuyển Sinh Vai Trò Của DWH

Công tác tuyển sinh đại học tại Việt Nam hiện nay đối mặt với nhiều thách thức lớn. Dữ liệu thí sinh đến từ nhiều nguồn phân mảnh: hồ sơ giấy, hệ thống đăng ký trực tuyến của Bộ, cổng thông tin riêng của trường, các kênh tư vấn... Điều này tạo ra một "đại dương" dữ liệu lớn (Big Data) trong tuyển sinh nhưng lại thiếu tính nhất quán và khó khai thác. Việc tổng hợp báo cáo thủ công bằng Excel không chỉ tốn thời gian, nhân lực mà còn tiềm ẩn nhiều sai sót, làm chậm quá trình ra quyết định quan trọng. Hơn nữa, việc thiếu một công cụ phân tích mạnh mẽ khiến các trường đại học bỏ lỡ nhiều thông tin giá trị ẩn sau các con số, chẳng hạn như hành vi chọn ngành của thí sinh hay hiệu quả của các kênh truyền thông. Đây chính là lúc mô hình kho dữ liệu tuyển sinh đại học phát huy vai trò. Bằng cách xây dựng một kho dữ liệu giáo dục tập trung, các trường có thể tự động hóa quy trình tổng hợp, đảm bảo tính toàn vẹn và chính xác của thông tin. Quan trọng hơn, nó cung cấp nền tảng để triển khai các công cụ Business Intelligence trong giáo dục, giúp các nhà quản lý trả lời những câu hỏi phức tạp và đưa ra chiến lược tuyển sinh dựa trên dữ liệu.

2.1. Thách thức từ dữ liệu lớn Big Data trong tuyển sinh

Mỗi mùa tuyển sinh, các trường đại học phải xử lý hàng chục, thậm chí hàng trăm nghìn bộ hồ sơ với vô số trường thông tin. Dữ liệu lớn trong tuyển sinh không chỉ đề cập đến khối lượng (Volume) mà còn là sự đa dạng (Variety) của dữ liệu – từ thông tin cá nhân, điểm số, nguyện vọng, đến dữ liệu tương tác trên mạng xã hội. Việc xử lý tập dữ liệu phức tạp này bằng các phương pháp truyền thống là bất khả thi. Các thách thức chính bao gồm: dữ liệu không đồng nhất về định dạng, thông tin trùng lặp hoặc thiếu sót, và khó khăn trong việc liên kết dữ liệu từ các nguồn khác nhau để có cái nhìn 360 độ về thí sinh. Một kho dữ liệu giáo dục được thiết kế tốt sẽ giải quyết vấn đề này thông qua quy trình ETL chuẩn hóa.

2.2. Sự cần thiết của hệ thống hỗ trợ ra quyết định tuyển sinh

Trong môi trường cạnh tranh, việc ra quyết định nhanh và chính xác là lợi thế sống còn. Một hệ thống hỗ trợ ra quyết định tuyển sinh dựa trên DWH cung cấp cho ban lãnh đạo những báo cáo trực quan và phân tích sâu sắc. Thay vì chờ đợi các báo cáo thủ công, họ có thể tự mình khám phá dữ liệu, ví dụ như phân tích tỷ lệ đăng ký theo từng tỉnh thành, so sánh hiệu quả giữa các phương thức xét tuyển, hay xác định các nhóm ngành đang là "điểm nóng". Hệ thống này giúp chuyển đổi từ việc quản lý dữ liệu thí sinh đơn thuần sang việc khai thác tri thức từ dữ liệu, từ đó tối ưu hóa chỉ tiêu, phân bổ nguồn lực marketing và nâng cao tỷ lệ nhập học thành công.

III. Hướng Dẫn Thiết Kế Kiến Trúc Kho Dữ Liệu Tuyển Sinh

Việc phát triển mô hình kho dữ liệu tuyển sinh đại học đòi hỏi một nền tảng kiến trúc vững chắc. Theo các tài liệu học thuật, một kiến trúc kho dữ liệu điển hình bao gồm ba tầng chính. Tầng đáy (Data Source Layer) là nơi tập hợp dữ liệu thô từ các hệ thống nguồn như CSDL của trường, dữ liệu từ Bộ GD&ĐT, và các file Excel. Tầng giữa (Data Warehouse Layer) là trái tim của hệ thống, nơi dữ liệu được xử lý qua quy trình ETL và lưu trữ trong một máy chủ OLAP. Tại đây, dữ liệu được tổ chức theo mô hình dữ liệu OLAP đa chiều, giúp tối ưu hóa cho các truy vấn phân tích. Tầng trên cùng (Presentation Layer) là nơi người dùng cuối tương tác với dữ liệu thông qua các công cụ báo cáo, dashboard và các ứng dụng Business Intelligence trong giáo dục. Việc lựa chọn mô hình hóa dữ liệu tuyển sinh phù hợp, như mô hình hình sao (Star Schema) hay bông tuyết (Snowflake Schema), là yếu tố then chốt quyết định hiệu suất và tính linh hoạt của toàn bộ hệ thống. Đồ án của sinh viên trường ĐH SPKT TP.HCM đã áp dụng thành công kiến trúc này, sử dụng các công cụ của Microsoft như SQL Server và BIDS để triển khai.

3.1. Phân tích kiến trúc kho dữ liệu ba tầng cơ bản

Kiến trúc ba tầng là một phương pháp tiêu chuẩn trong việc xây dựng DWH. Tầng đáy chịu trách nhiệm thu thập dữ liệu gốc. Tầng giữa thực hiện các tác vụ nặng nhất: trích xuất, biến đổi và tải dữ liệu (ETL) vào kho lưu trữ chính. Quá trình biến đổi bao gồm các hoạt động như làm sạch, chuẩn hóa, và tính toán các chỉ số tổng hợp. Tầng trên cùng cung cấp các công cụ khai phá dữ liệu tuyển sinh và trực quan hóa dữ liệu tuyển sinh, cho phép người dùng cuối, từ chuyên viên đến ban giám hiệu, dễ dàng truy cập và phân tích thông tin mà không cần kiến thức kỹ thuật sâu.

3.2. Giới thiệu mô hình dữ liệu OLAP và mô hình hóa đa chiều

OLAP là công nghệ nền tảng cho phép người dùng phân tích dữ liệu từ nhiều góc độ khác nhau. Mô hình dữ liệu OLAP tổ chức dữ liệu dưới dạng các khối (Cubes) đa chiều. Mỗi chiều (Dimension) đại diện cho một tiêu chí phân tích, ví dụ như thời gian, địa lý (tỉnh thành), ngành học, phương thức xét tuyển. Các số liệu cần phân tích, như số lượng hồ sơ, số thí sinh trúng tuyển, được gọi là các Fact. Mô hình hóa dữ liệu tuyển sinh theo cách này cho phép thực hiện các thao tác phân tích linh hoạt như Drill-down (xem chi tiết), Roll-up (tổng hợp), và Slicing/Dicing (cắt lát dữ liệu) một cách cực kỳ nhanh chóng, cung cấp cái nhìn sâu sắc mà các báo cáo phẳng truyền thống không thể làm được.

IV. Quy Trình 5 Bước Triển Khai Kho Dữ Liệu Giáo Dục Hiệu Quả

Để phát triển mô hình kho dữ liệu tuyển sinh đại học tại Việt Nam thành công, việc tuân thủ một quy trình chuẩn hóa là rất quan trọng. Quy trình này có thể được chia thành năm bước chính. Bước đầu tiên là khảo sát và xác định yêu cầu, làm việc với các phòng ban liên quan để hiểu rõ họ cần phân tích những chỉ số gì. Bước hai là mô hình hóa dữ liệu tuyển sinh, thiết kế cấu trúc cho các bảng Dimension và Fact, thường sử dụng lược đồ hình sao vì tính đơn giản và hiệu quả. Bước ba là xây dựng quy trình ETL (Extract, Transform, Load) trong giáo dục. Đây là giai đoạn phức tạp nhất, đòi hỏi phải tích hợp, làm sạch và biến đổi dữ liệu từ nhiều nguồn không đồng nhất. Bước bốn là triển khai thực tế, cài đặt cơ sở dữ liệu, nạp dữ liệu lịch sử và cấu hình máy chủ. Cuối cùng, bước năm là xây dựng các lớp báo cáo và trực quan hóa, sử dụng các công cụ như Power BI, Tableau để tạo ra các dashboard tương tác, giúp người dùng dễ dàng khai thác thông tin. Quy trình này đảm bảo dự án đi đúng hướng và sản phẩm cuối cùng đáp ứng đúng nhu cầu nghiệp vụ của nhà trường.

4.1. Quy trình ETL Extract Transform Load trong giáo dục

Quy trình ETL (Extract, Transform, Load) trong giáo dục là xương sống của mọi dự án DWH. 'Extract' là quá trình trích xuất dữ liệu từ các hệ thống nguồn. 'Transform' là giai đoạn biến đổi dữ liệu, bao gồm các công việc: làm sạch (loại bỏ dữ liệu rác), chuẩn hóa (đưa dữ liệu về cùng một định dạng), tích hợp (kết hợp dữ liệu từ nhiều nguồn), và tạo ra các trường dữ liệu mới (ví dụ: tính toán tổng điểm). 'Load' là quá trình tải dữ liệu đã được biến đổi vào kho dữ liệu đích. Trong đồ án tham khảo, nhóm sinh viên đã sử dụng các công cụ như SQL Server Integration Services (SSIS) trong bộ BIDS để tự động hóa hoàn toàn quy trình này.

4.2. Xây dựng báo cáo và thống kê tuyển sinh tự động

Mục tiêu cuối cùng của DWH là phục vụ việc ra quyết định thông qua các báo cáo. Sau khi dữ liệu đã được nạp vào kho, bước tiếp theo là xây dựng các báo cáo và thống kê tuyển sinh tự động. Thay vì các báo cáo tĩnh, các công cụ BI hiện đại cho phép tạo ra các dashboard tương tác. Người dùng có thể lọc dữ liệu theo thời gian, khu vực, ngành học chỉ bằng vài cú nhấp chuột. Ví dụ, một báo cáo có thể hiển thị bản đồ Việt Nam với màu sắc đậm nhạt thể hiện số lượng hồ sơ từ mỗi tỉnh, hoặc biểu đồ thể hiện xu hướng đăng ký vào các nhóm ngành qua từng năm. Việc tự động hóa này giúp tiết kiệm hàng trăm giờ lao động và cung cấp thông tin cập nhật gần như theo thời gian thực.

V. Ứng Dụng Business Intelligence Phân Tích Dữ Liệu Tuyển Sinh

Khi mô hình kho dữ liệu tuyển sinh đại học đã được xây dựng, tiềm năng khai thác của nó là vô cùng lớn thông qua các ứng dụng Business Intelligence (BI). BI không chỉ dừng lại ở việc tạo báo cáo, mà còn là quá trình khai phá dữ liệu tuyển sinh để tìm ra các quy luật và tri thức ẩn. Các trường đại học có thể sử dụng các kỹ thuật này để phân khúc thí sinh, xác định nhóm tiềm năng nhất và xây dựng chiến dịch marketing cá nhân hóa. Ví dụ, phân tích dữ liệu có thể chỉ ra rằng thí sinh từ các trường chuyên ở một tỉnh cụ thể có xu hướng chọn nhóm ngành Công nghệ thông tin và có tỷ lệ nhập học cao. Dựa vào đó, phòng tuyển sinh có thể tập trung nguồn lực tư vấn vào đúng đối tượng. Hơn nữa, việc trực quan hóa dữ liệu tuyển sinh thông qua các biểu đồ, bản đồ nhiệt và dashboard tương tác giúp truyền tải thông tin phức tạp một cách dễ hiểu, hỗ trợ ban lãnh đạo nắm bắt tình hình nhanh chóng và đưa ra các quyết sách kịp thời. Đây là bước tiến thực sự trong việc quản trị đại học dựa trên dữ liệu.

5.1. Khai phá dữ liệu tuyển sinh để dự báo xu hướng

Khai phá dữ liệu tuyển sinh (Data Mining) là quá trình sử dụng các thuật toán thống kê và học máy để phát hiện các mẫu tiềm ẩn trong dữ liệu. Ứng dụng phổ biến nhất là dự báo xu hướng tuyển sinh. Dựa trên dữ liệu lịch sử nhiều năm, hệ thống có thể dự báo số lượng hồ sơ đăng ký cho từng ngành, dự báo điểm chuẩn dự kiến, hoặc xác định các yếu tố ảnh hưởng lớn nhất đến quyết định chọn trường của thí sinh. Những dự báo này cung cấp thông tin đầu vào vô giá cho việc xây dựng chỉ tiêu và hoạch định chiến lược cho các mùa tuyển sinh tiếp theo.

5.2. Kỹ thuật trực quan hóa dữ liệu tuyển sinh hiệu quả

Một hình ảnh đáng giá hơn ngàn lời nói. Trực quan hóa dữ liệu tuyển sinh là nghệ thuật và khoa học của việc biểu diễn dữ liệu bằng hình ảnh. Thay vì nhìn vào những bảng số liệu khô khan, người quản lý có thể tương tác với biểu đồ cột so sánh số lượng nguyện vọng theo ngành, biểu đồ tròn thể hiện cơ cấu thí sinh theo khu vực, hoặc biểu đồ đường biểu diễn sự tăng trưởng qua các năm. Một dashboard hiệu quả sẽ tích hợp nhiều biểu đồ, cho phép người dùng xem từ tổng quan đến chi tiết (drill-down), giúp họ nhanh chóng phát hiện các điểm bất thường hoặc các cơ hội mới, qua đó nâng cao chất lượng của hệ thống hỗ trợ ra quyết định tuyển sinh.

10/07/2025

Bạn đang xem trước tài liệu:

Phát triển mô hình kho dữ liệu tuyển sinh đại học khai thác sử dụng tại trường đại học của việt nam

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu đồ án của học phần DWH Chương 2: Các cơ sở lý thuyết của HP phục việc thực hiện đề tài HP - 14 - Chương 3: Giới thiệu tổng quan về Kho dữ liệu (DWH) Kho dữ liệu Tuyển sinh Đại Học tại các trường đại học Chương 4: Phân tích, thiết kế và tổ chức khai thác sử dụng từng thành phần của Kho dữ liệu Chương 5: Tổng kết các kết quản đạt được và còn hạn chế của đồ án, đồng thời đề xuất hướng khắc phục hạn chế và phát triển Đồ án. CƠ SỞ LÝ THUYẾT CỦA HỌC PHẦN 2. Tổng quan về kho dữ liệu (DWH) 2. Các khái niệm cơ bản về Kho dữ liệu 2.

Kho dữ liệu (DWH)? Kho dữ liệu (data warehouse), gọi một cách chính xác hơn là kho thông tin (information warehouse), là một cơ sở dữ liệu hướng đối tượng được thiết kế với việc tiếp cận các ý kiến trong mọi lĩnh vực đặc biệt là trong lĩnh vực kinh doanh. Nó cung cấp các công cụ để đáp ứng thông tin cần thiết cho các nhà quản trị kinh doanh tại mọi cấp độ tổ chức - không những là những yêu cầu dữ liệu phức hợp, mà còn là điều kiện thuận tiện nhất để đạt được việc lấy thông tin nhanh, chính xác. Một kho dữ liệu được thiết kế để người sử dụng có thể nhận ra thông tin mà họ muốn có và truy cập đến bằng những công cụ đơn giản. Nguyên lý hình thành DWH Một kho dữ liệu là một sự pha trộn của nhiều công nghệ, bao gồm các cơ sở dữ liệu đa chiều và mối quan hệ giữa chúng, kiến trúc chủ khách, giao diện người dùng đồ họa và nhiều nữa.

Nguyên nhân chính cho sự phát triển một kho dữ liệu là hoạt động tích hợp dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu đơn lẻ và dày đặc mà kho này cung cấp cho việc phân tích và ra quyết định trong công việc kinh doanh, quản lý. Các đặc điểm cơ bản của DWH *Tính hướng chủ đề (Object Oriented): Dữ liệu đƣợc tập hợp, phân lớp, lƣu trữ và xử lý theo từng chủ đề, để dễ dàng xác định được những thông tin cần thiết trong từng hoạt động. Các dữ liệu của mỗi chủ đề chính trong tổ chức đƣợc liên kết với các khóa đại diện và đƣa vào cùng một vị trí. *Tính tích hợp (Integration); Dữ liệu tập hợp từ nhiều nguồn khác nhau.

Điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, xắp xếp, rút gọn dữ liệu. *Dữ liệu gắn thời gian và có tính lịch sử. Các dữ liệu đến từ quá trình kinh doanh của công ty có thể có từ nhiều năm trước. *Dữ liệu có tính ổn định (non volatility): Khi một Transaction hoàn chỉnh, dữ liệu không thể tạo thêm hay sửa đổi.

Phân biệt [SS] DWH với CSDL truyền thống - 16 - Tham số Database Data warehouse Mục đích Được thiết kế để lưu lại bản ghi Được thiết kế để phân tích Xử lý Online Transactional Processing Online Analytical Processing (OLAP) (OLTP) Bảng và Bảng và joins các bảng phức Không được chuẩn hóa Joins tạp, mối quan hệ, chuẩn hóa Định Phục vụ định hướng cho ứng Định hướng cho các loại mục đích khác nhau hướng dụng, sản phẩm Giới hạn Thường giới hạn trong 1 ứng Lưu trữ dữ liệu từ nhiều nguồn khác nhau lưu trữ dụng Độ khả Dữ liệu có sẵn từ thời gian thực, Được làm mới khi cần thiết từ nhiều nguồn dụng cần là có khác nhau, cần thì phải đợi hệ thống chạy tạo lại dữ liệu định kì cần thiết Sử dụng Kỹ thuật mô hình ER được sử Kỹ thuật mô hình dữ liệu được sử dụng dụng Kỹ thuật Capture dữ liệu Analyze dữ liệu Loại dữ Dữ liệu được lưu trữ trong Cơ Dữ liệu hiện tại và lịch sử được lưu trữ. Có thể liệu sở dữ liệu được cập nhật. không được cập nhật. Lưu trữ Phương pháp tiếp cận quan hệ Sử dụng phương pháp tiếp cận đa chiều và dữ liệu phẳng được sử dụng để lưu trữ chuẩn hóa cho cấu trúc dữ liệu.

Ví dụ: Lược đồ dữ liệu. sao và bông tuyết. Loại truy Các truy vấn giao dịch đơn giản Các truy vấn phức tạp được sử dụng cho mục vấn được sử dụng. đích phân tích.

Tóm tắt Lưu dữ liệu chi tiết Lưu trữ dữ liệu tóm tắt dữ liệu - 17 - - Từ hai bảng này kết với bảng ThiSinh để lấy thông tin thí sinh - Thông qua hàm aggr count để đếm số lượng thí sinh thông qua groupby maKhuVuc Tổng thí sinh đăng ký theo Tỉnh: - Xuất phát từ table Tỉnh - Kết với bảng địa phương thông qua maTinh - Từ hai bảng này kết với bảng ThiSinh để lấy thông tin thí sinh - Thông qua hàm aggr count để đếm số lượng thí sinh thông qua groupby maTinh. Xác định các Facts và Dims NHÓM 2: SoLuongThiSinh và SoLuongPhieuDangKy Factor Dim 4. Lập các Views tính toán các Facts trên CSDL nguồn liên quan thành phần DWH tuyển sinh đại học -- VIEW: Thống kê số lượng thí sinh theo khu vực ưu tiên CREATE VIEW view_ThongKeKV_TS ([Mã Khu Vực],[Số lượng thí sinh])AS SELECT k.maKhuVuc as [Mã Khu Vực], COUNT(t.maThiSinh) as [Số lượng thí sinh] - 32 - FROM dbo.ThiSinh as t INNER JOIN dbo.DiaPhuong as d ON t.maDiaPhuong INNER JOIN dbo.KhuVucUuTien as k ON d.maKhuVuc GROUP BY k.maKhuVuc; -- View: Thống kê số lượng thí sinh theo tỉnh CREATE VIEW view_ThongKeTinh_TS ([Tỉnh], [Số lượng thí sinh]) AS SELECT k.tenTinh as [Tỉnh], COUNT(t.maThiSinh) as [Số lượng thí sinh] FROM dbo.ThiSinh as t INNER JOIN dbo.DiaPhuong as d ON t.maDiaPhuong INNER JOIN dbo.Tinh as k ON d.maTinh GROUP BY k.tenTinh; -- View: thống kê số lượng phiếu đăng ký theo khu vực CREATE VIEW view_ThongKeKV_PhieuDK ([Mã Khu Vực],[Số lượng phiếu])AS SELECT k.maKhuVuc as [Mã Khu Vực], COUNT(p.maPhieu) as [Số lượng phiếu] FROM dbo.ThiSinh as t INNER JOIN dbo.DiaPhuong as d ON t.maDiaPhuong INNER JOIN dbo.KhuVucUuTien as k ON d.maKhuVuc INNER JOIN dbo.PhieuDangKy as p ON t.maThiSinh - 33 - GROUP BY k.maKhuVuc; GO -- View: Thống kê số lượng phiếu đăng ký theo tỉnh CREATE VIEW view_ThongKeTinh_PhieuDK ([Tỉnh], [Số lượng phiếu]) AS SELECT k.tenTinh as [Tỉnh], COUNT(p.maPhieu) as [Số lượng thí sinh] FROM dbo.ThiSinh as t INNER JOIN dbo.DiaPhuong as d ON t.maDiaPhuong INNER JOIN dbo.Tinh as k ON d.maTinh INNER JOIN dbo.PhieuDangKy as p ON t.maThiSinh GROUP BY k. Phân phân tích các DB gốc xác định yêu cầu phân tích DWH của thành phần + Tỉnh - 34 - + DiaPhuong + KhuVucUuTien - 35 - 4.

Triển khai thành phần DWH lên BIDS - Triển khai view lên DWH + View Số lượng thí sinh theo tỉnh + View số lượng thí sinh theo khu vực ưu tiên - 36 - + View Số lượng thí sinh theo tỉnh + View Số lượng phiếu đăng ký: - 37 - - Triển khai tính toán theo measure + Measure Phiếu đăng ký theo Tỉnh + Measure Thi Sinh theo mã Tỉnh - 38 - - 39 - 4. 44_Nguyễn Thanh Sang _Thành phần đăng k dự thi theo nhóm ngành nghề 4. Mô tả tổng quan về thành phần DWH đăng k dự thi theo nhóm ngành nghề Sơ bộ thành phần DWH: + Sơ bộ thành phần DWH: Theo nhóm ngành nghề [Ngành]: Chứa mã ngành và tên ngành [ Nhóm ngành]: Chứa mã nhóm ngành và mã các ngành nằm trong đó + Xác định tên. Dim: Thành phần đăng ký dự thi theo nhóm ngành nghề (Công nghệ thông tin, Sư phạm,.

Fact: FACT theo tổng số lượng đơn dự tuyển theo nhóm ngành. Nguồn: Cơ sở đào tạo đại học 4. Xác định nguồn dữ liệu tích hợp thành phần Kho dữ liệu Thành phần đăng ký dự thi theo nhóm ngành nghề (Công nghệ thông tin, Sư phạm,.CSDL đăng ký dự thi do trường đại học quản lý: - Lưu thông tin thí sinh, ngành và nhóm ngành. - 40 - - Phát sinh records khi thí sinh nộp đơn đăng ký vào trường đại học.

- Huỷ CSDL khi không còn kỳ thi tuyển vào đại học - Ràng buộc toàn vẹn: + UNIQUE: Ngành là duy nhất trong một trường + NOT NULL: Các ngành, nhóm ngành không được phép null + Foreign Key: Mỗi ngành thuộc một nhóm ngành nhất định - Mô tả entity class: + Entity [nganh] và [nhomNganh]: có quan hệ THUỘC n-1, [nganh] quan hệ THUỘC 1-n với [nhomNganh] - Mở rộng: Dữ liệu được mở rộng nếu các trường đại học thêm ngành hoặc nhóm ngành vào chương trình đào tạo 4. Xác định  tưởng hình thành thành phần của Kho dữ liệu Có hai phương thức thực hiện: Giúp các trường đại học xác định được các nhóm ngành có nhiều hay ít thí sinh đăng ký dự thi, từ đó có kế hoạch tổ chức giảng dạy các ngành một cách hợp lý Thành phần cá nhân => [Ngành], [NhomNganh] Bảng ngành: Bảng nhóm ngành: - 41 - 4. Mô tả các DIM = tiêu chí phân tích + Dim là Thành phần đăng ký dự thi theo ngành hoặc nhóm ngành + Các số liệu mẫu của Dim: - 42 - + Nơi khai thác sử dụng: Cơ sở đại học, bộ giáo dục và các tỉnh thành phố + Mục đích (Mục tiêu) khác thác sử dụng để tra cứu, thống kê số lượng thí sinh đăng ký dự tuyển vào các ngành, nhóm ngành 4. Mô tả cá Facts = Số liệu phân tích của thành phần FACT theo tổng số lượng đơn dự tuyển theo nhóm ngành (COUNT) PHÂN TÍCH: xuất phát từ Fact TongSoThiSinh: + Tổng thí sinh đăng ký theo khu vực: - Xuất phát từ table PhieuDangKy - Kết với bảng khối thông qua khóa là maPhieu - Từ hai bảng này kết với bảng Nganh để lấy thông tin nhóm ngành - Thông qua hàm aggr count để đếm số lượng thí sinh thông qua groupby maNhomNganh 4.

Lập các View tính toán -- View : Thống kê số lượng thí sinh theo nhóm Ngành CREATE VIEW [dbo].[view_ThiSinhtheoNhomNganh] (count_ThiSinh, maNhomNganh, tenNhomNganh) AS Select count(PhieuDangKy.tenNhomNganh From NhomNganh inner join Nganh on NhomNganh.maNhomNganh - 43 - inner Join NganhThuocKhoi on Nganh.maNganh inner join Khoi on Khoi.maKhoi inner join Dk_Khoi on Khoi.maKhoi = DK_Khoi.maKhoi inner join PhieuDangKy on PhieuDangKy.maPhieu = DK_Khoi.maPhieu Group by NhomNganh.tenNhomNganh; --View : Thống kê số lượng thí sinh theo ngành CREATE VIEW [dbo].[view_ThiSinhtheoNganh] (count_ThiSinh, maNganh, tenNganh) AS Select count(PhieuDangKy.tenNganh From Nganh inner Join NganhThuocKhoi on Nganh.maNganh inner join Khoi on Khoi.maKhoi inner join Dk_Khoi on Khoi.maKhoi = DK_Khoi.maKhoi inner join PhieuDangKy on PhieuDangKy.maPhieu = DK_Khoi.maPhieu Group by Nganh. Thiết kế DB mới tổ chức phân tích Kho dữ liệu cho thành phần + Ngành và nhóm ngành - 44 - + Ngành và số thí sinh đăng ký - 45 - 4. Triển khai thành phần DWH trên BIDS - Số thí sinh đăng ký theo ngành - Số thí sinh đăng ký theo nhóm ngành - 46 - 4. 38_ Lê Thị Nhung _ Thành phần đăng k dự thi theo khối thi 4.

Mô tả tổng quan về thành phần DWH : Thành phần đăng k dự thi theo khối thi Nhiệm vụ :Thành phần đăng ký dự thi theo khối thi (A, A1, B, C, D,.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng công nghệ thông tin trong giáo dục

Phát triển hệ thống kho dữ liệu

Quản lý tuyển sinh giáo dục đại học

Phân tích dữ liệu và báo cáo thông minh