I. Tổng Quan Về Phân Tích Dữ Liệu Lớn tại ĐHQGHN
Trong bối cảnh số hóa ngày càng mạnh mẽ, việc phân tích dữ liệu lớn trở thành yếu tố then chốt cho sự phát triển của nhiều lĩnh vực. Tại Đại học Quốc gia Hà Nội (ĐHQGHN), hoạt động phân tích dữ liệu lớn không chỉ là một lĩnh vực nghiên cứu mà còn là một công cụ hỗ trợ đắc lực cho công tác quản lý, giảng dạy và nghiên cứu khoa học. Sự xuất hiện của dữ liệu "bẩn" và dị thường ảnh hưởng lớn đến hiệu quả xử lý và độ chính xác của kết quả, thậm chí làm hệ thống phần mềm trở nên vô giá trị. Theo ước tính, dữ liệu dị thường và "bẩn" chiếm khoảng 5% dữ liệu thực tế, thúc đẩy xu hướng phát triển các phương pháp làm sạch dữ liệu. Mục tiêu hàng đầu của làm sạch dữ liệu là loại bỏ những nhân bản thừa trong tập hợp dữ liệu có sẵn.
1.1. Vai trò của Khoa học Dữ liệu trong Hệ thống Lớn ĐHQGHN
Khoa học dữ liệu đóng vai trò trung tâm trong việc khai thác giá trị từ hệ thống lớn tại ĐHQGHN. Các nhà khoa học dữ liệu sử dụng các công cụ và kỹ thuật tiên tiến để thu thập, xử lý, phân tích và trực quan hóa dữ liệu, từ đó đưa ra những hiểu biết sâu sắc và hỗ trợ ra quyết định. Các ứng dụng của khoa học dữ liệu rất đa dạng, từ việc cải thiện chất lượng đào tạo đến việc tối ưu hóa các quy trình quản lý. Quá trình làm sạch dữ liệu đòi hỏi nhiều loại tri thức cũng như kiến thức về xử lý và bảo trì dữ liệu. Quá trình làm sạch dữ liệu khó có thể thực hiện được nếu không có sự tham gia của các chuyên gia hay các kiến thức chuyên gia, vì việc loại bỏ dữ liệu dị thường và dữ liệu “bẩn” cần phải có kiến thức chuyên gia về lĩnh vực đó.
1.2. Ứng dụng Big Data Analytics trong Giáo dục tại ĐHQGHN
Phân tích dữ liệu lớn (Big Data Analytics) đang được ứng dụng rộng rãi trong lĩnh vực giáo dục tại ĐHQGHN. Các ứng dụng này bao gồm việc phân tích kết quả học tập của sinh viên để cá nhân hóa lộ trình học tập, dự đoán khả năng thành công của sinh viên, và cải thiện hiệu quả giảng dạy của giảng viên. Dữ liệu lớn trong giáo dục giúp nhà trường đưa ra các quyết định dựa trên bằng chứng, từ đó nâng cao chất lượng đào tạo. Quá trình làm sạch dữ liệu là quá trình bán tự động. Hiệu quả và sự thành công của quá trình làm sạch dữ liệu phụ thuộc rất nhiều vào kiến thức chuyên gia hiện có và những thông tin cần thiết để xác định và chỉnh sửa những dữ liệu dị thường.
II. Thách Thức và Vấn Đề trong Phân Tích Dữ Liệu Lớn ĐHQGHN
Mặc dù có nhiều tiềm năng, hoạt động phân tích dữ liệu lớn tại ĐHQGHN cũng đối mặt với không ít thách thức. Các thách thức này bao gồm việc thu thập và tích hợp dữ liệu từ nhiều nguồn khác nhau, đảm bảo chất lượng dữ liệu, bảo vệ quyền riêng tư của dữ liệu, và đào tạo đội ngũ chuyên gia có đủ năng lực để thực hiện các phân tích phức tạp. Bên cạnh đó, việc lựa chọn và triển khai các công cụ phân tích dữ liệu lớn phù hợp cũng là một vấn đề quan trọng cần được giải quyết. Làm sạch dữ liệu là một thuật ngữ không rõ ràng và không có định nghĩa chính xác. Nguyên nhân chính là vì mục đích chính của làm sạch dữ liệu là tìm ra “lỗi” trong dữ liệu có sẵn, tuy nhiên thế nào là dữ liệu lỗi và thế nào là không lỗi thì phụ thuộc rất nhiều vào từng lĩnh vực, khó có thể đưa ra một định nghĩa chung.
2.1. Đảm bảo Chất lượng Dữ liệu cho Big Data Analytics VNU
Chất lượng dữ liệu là yếu tố then chốt để đảm bảo tính chính xác và tin cậy của các phân tích. Tại ĐHQGHN, việc đảm bảo chất lượng dữ liệu đòi hỏi các quy trình kiểm soát chặt chẽ, từ khâu thu thập đến khâu lưu trữ và xử lý. Các kỹ thuật làm sạch dữ liệu, như loại bỏ dữ liệu trùng lặp, sửa lỗi chính tả, và điền các giá trị thiếu, cần được áp dụng một cách có hệ thống. Có nhiều phương pháp chỉ tập trung vào một phần nhỏ của kiến thức về lĩnh vực đang xét bằng cách sử dụng một số thuật toán cũng như áp dụng kinh nghiệm sẵn có.
2.2. Vấn đề Bảo mật và Quyền riêng tư trong Data Science VNU
Bảo mật và quyền riêng tư là những vấn đề ngày càng được quan tâm trong bối cảnh phân tích dữ liệu lớn. ĐHQGHN cần tuân thủ các quy định về bảo vệ dữ liệu cá nhân và áp dụng các biện pháp kỹ thuật để ngăn chặn truy cập trái phép và rò rỉ dữ liệu. Các kỹ thuật như ẩn danh hóa dữ liệu và mã hóa dữ liệu có thể được sử dụng để bảo vệ quyền riêng tư của các cá nhân liên quan. Có nhiều phương pháp được áp dụng để làm sạch dữ liệu như phân tích cú pháp (parsing), biến đổi dữ liệu (data transformation), tạo các ràng buộc về mặt dữ liệu (Integrity constraint enforcement), phương pháp thống kê…
III. Phương Pháp và Công Cụ Phân Tích Dữ Liệu Lớn tại ĐHQGHN
Để khai thác tối đa tiềm năng của phân tích dữ liệu lớn, ĐHQGHN đã và đang triển khai nhiều phương pháp và công cụ tiên tiến. Các phương pháp này bao gồm khai phá dữ liệu, học máy, thống kê, và trực quan hóa dữ liệu. Các công cụ được sử dụng bao gồm Hadoop, Spark, R, Python, và Tableau. Việc lựa chọn phương pháp và công cụ phù hợp phụ thuộc vào đặc điểm của dữ liệu và mục tiêu phân tích. Trong phạm vi luận văn này tôi nghiên cứu phương pháp loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu dựa vào hệ chuyên gia và hệ số chắc chắn(Certainty factor).
3.1. Sử dụng Học Máy trong Phân Tích Dữ Liệu Giáo Dục
Học máy (Machine Learning) là một công cụ mạnh mẽ để phân tích dữ liệu giáo dục. Các thuật toán học máy có thể được sử dụng để dự đoán kết quả học tập của sinh viên, phát hiện các mẫu hành vi bất thường, và cá nhân hóa lộ trình học tập. ĐHQGHN đang nghiên cứu và ứng dụng các thuật toán học máy để cải thiện chất lượng đào tạo và nâng cao hiệu quả quản lý. Đóng góp của đề tài là nghiên cứu và xây dựng thuật toán loại bỏ mẩu tin thừa cho một quan hệ của cơ sở dữ liệu quan hệ; xây dựng ứng dụng thực hiện ý đồ của giải thuật; bên cạnh đó là thực hiện kiểm thử chương trình với một quan hệ có số lượng bản ghi từ 50 tới 300.
3.2. Trực Quan Hóa Dữ Liệu để Hiểu Rõ Hơn về Data Mining VNU
Trực quan hóa dữ liệu là một kỹ thuật quan trọng để giúp các nhà phân tích và người dùng hiểu rõ hơn về dữ liệu. Các biểu đồ, đồ thị, và bản đồ có thể được sử dụng để trình bày dữ liệu một cách trực quan và dễ hiểu. ĐHQGHN đang sử dụng các công cụ trực quan hóa dữ liệu để trình bày kết quả phân tích và hỗ trợ ra quyết định. Các nghiên cứu trong luận văn này sẽ hữu ích cho các nghiên cứu ở mức cao hơn như loại bỏ mẩu tin thừa cho một cơ sở dữ liệu quan hệ… Cấu trúc luận văn được trình bày như sau: Chương 1: Cơ sở lý thuyết. Chương này trình bày về các kiến thức cơ sở dùng cho thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ.
IV. Ứng Dụng Thực Tiễn và Kết Quả Nghiên Cứu Phân Tích Dữ Liệu
Các kết quả nghiên cứu về phân tích dữ liệu tại ĐHQGHN đã được ứng dụng vào nhiều lĩnh vực khác nhau, từ quản lý sinh viên đến nghiên cứu khoa học. Các ứng dụng này đã mang lại những lợi ích thiết thực, như cải thiện chất lượng đào tạo, nâng cao hiệu quả quản lý, và thúc đẩy sự phát triển của các lĩnh vực nghiên cứu. Việc chia sẻ kinh nghiệm và kết quả nghiên cứu với các trường đại học và tổ chức khác cũng là một hoạt động quan trọng để lan tỏa những lợi ích của phân tích dữ liệu. Kiến thức cơ sở gồm hai phần: ✓ Cơ sở dữ liệu: Phần này là tóm tắt các kiến thức cơ bản về cơ sở dữ liệu quan hệ cũng như các kiến thức về cơ sở dữ liệu phân tán. Đặc biệt, trong phần này luận văn còn đề cập đến các kiểu phân mảnh trong cơ sở dữ liệu phân tán, kiến thức này là nền tảng cho ý tưởng của thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ.
4.1. Phân Tích Dự Đoán Kết quả Học tập của Sinh viên ĐHQGHN
Phân tích dự đoán (Predictive Analytics) được sử dụng để dự đoán kết quả học tập của sinh viên dựa trên các yếu tố như điểm trung bình, điểm thi, và các hoạt động ngoại khóa. Kết quả dự đoán này có thể được sử dụng để cung cấp hỗ trợ kịp thời cho những sinh viên có nguy cơ tụt hậu, từ đó nâng cao tỷ lệ tốt nghiệp. ✓ Lý thuyết chắc chắn: Lý thuyết chắc chắn là kiến thức cơ sở giúp xây dựng thuật toán loại bỏ mẩu tin nhân bản thừa. Nội dung cơ bản là nghiên cứu các luật và suy luận dựa vào các hệ số chắc chắn thu thập được từ hệ các chuyên gia hoặc hệ chuyên gia.
4.2. Tối ưu hóa Quy trình Quản lý Dựa trên Phân Tích Mô Tả
Phân tích mô tả (Descriptive Analytics) được sử dụng để mô tả các xu hướng và mẫu trong dữ liệu quản lý sinh viên, như số lượng sinh viên đăng ký vào các ngành khác nhau, tỷ lệ sinh viên tốt nghiệp, và mức độ hài lòng của sinh viên. Các thông tin này có thể được sử dụng để tối ưu hóa các quy trình quản lý và cải thiện trải nghiệm của sinh viên. Chương 2: Thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ. Chương này trình bày thuật toán nhận diện bản ghi nhân bản thừa trong cơ sở dữ liệu quan hệ dựa vào kiến thức về cơ sở dữ liệu và lý thuyết chắc chắn ở chương 1.
V. Tương Lai của Phân Tích Dữ Liệu Lớn tại Đại Học Quốc Gia Hà Nội
Trong tương lai, phân tích dữ liệu lớn sẽ tiếp tục đóng vai trò quan trọng trong sự phát triển của ĐHQGHN. Các xu hướng mới như trí tuệ nhân tạo, học sâu, và Internet of Things sẽ mở ra những cơ hội mới để khai thác giá trị từ dữ liệu. Việc xây dựng một hệ sinh thái dữ liệu mở và hợp tác với các trường đại học và tổ chức khác sẽ giúp ĐHQGHN trở thành một trung tâm hàng đầu về phân tích dữ liệu trong khu vực. Là phần phân tích yêu cầu, thiết kế và cài đặt hệ thống loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ. Bên cạnh đó luận văn cũng đưa ra những kết quả kiểm thử trên dữ liệu thật để đi đến những đánh giá về hiệu quả của thuật toán.
5.1. Phát triển Trung Tâm Phân Tích Dữ Liệu Lớn ĐHQGHN
Việc thành lập một trung tâm phân tích dữ liệu lớn sẽ giúp ĐHQGHN tập trung nguồn lực và chuyên môn để giải quyết các vấn đề phức tạp liên quan đến dữ liệu. Trung tâm này sẽ là nơi nghiên cứu, phát triển, và ứng dụng các công nghệ phân tích dữ liệu tiên tiến, đồng thời cung cấp dịch vụ tư vấn và đào tạo cho các đơn vị trong và ngoài trường. Kết luận, đánh giá những gì đã đạt được và chưa làm được trong luận văn tốt nghiệp và nêu ra hướng phát triển của đề tài là nội dung trình bày của chương này.
5.2. Đào tạo Chuyên Gia Phân Tích Dữ Liệu Lớn ĐHQGHN
Để đáp ứng nhu cầu ngày càng tăng về chuyên gia phân tích dữ liệu, ĐHQGHN cần tăng cường đào tạo nguồn nhân lực chất lượng cao trong lĩnh vực này. Các chương trình đào tạo cần trang bị cho sinh viên những kiến thức và kỹ năng cần thiết để thu thập, xử lý, phân tích, và trực quan hóa dữ liệu, đồng thời giúp họ hiểu rõ về các vấn đề đạo đức và pháp lý liên quan đến dữ liệu.