Tổng quan nghiên cứu
Trong bối cảnh phát triển mạnh mẽ của khoa học và công nghệ, dữ liệu nghiên cứu khoa học và công nghệ (DLNC) đã trở thành nguồn tài nguyên quý giá, đóng vai trò then chốt trong việc thúc đẩy đổi mới sáng tạo và phát triển kinh tế xã hội. Tại Việt Nam, đặc biệt là tại Viện Hàn lâm Khoa học và Công nghệ Việt Nam, lượng dữ liệu nghiên cứu được tạo ra từ các dự án khoa học và công nghệ ngày càng lớn, tuy nhiên việc quản lý và lưu trữ dữ liệu này vẫn còn nhiều hạn chế, chưa có hệ thống quản lý dữ liệu khoa học và công nghệ hiệu quả, đồng bộ. Mục tiêu nghiên cứu của luận văn là xây dựng kiến trúc dữ liệu nghiên cứu khoa học và công nghệ nhằm tối ưu hóa việc lưu trữ, quản lý, tích hợp và chia sẻ dữ liệu tại Học viện Khoa học và Công nghệ – Viện Hàn lâm. Nghiên cứu tập trung trong khoảng thời gian từ tháng 5 năm 2021 đến tháng 5 năm 2023, với phạm vi khảo sát tại Học viện Khoa học và Công nghệ. Việc xây dựng kiến trúc dữ liệu này không chỉ giúp nâng cao hiệu quả quản lý dữ liệu mà còn góp phần thúc đẩy sự hợp tác nghiên cứu, tăng cường bảo mật và khả năng truy cập dữ liệu, từ đó nâng cao chất lượng và tốc độ nghiên cứu khoa học trong nước. Theo ước tính, việc quản lý dữ liệu khoa học hiệu quả có thể tăng tốc độ nghiên cứu và nâng cao chỉ số ảnh hưởng của các công trình khoa học, đồng thời giảm thiểu rủi ro mất mát dữ liệu và tăng cường khả năng tái sử dụng dữ liệu trong cộng đồng nghiên cứu.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên hai khung lý thuyết chính: lý thuyết quản lý dữ liệu nghiên cứu và mô hình kiến trúc dữ liệu. Lý thuyết quản lý dữ liệu nghiên cứu nhấn mạnh vòng đời dữ liệu từ tạo lập, lưu trữ, bảo mật, truy cập đến chia sẻ và tái sử dụng, chịu sự chi phối bởi các quy định pháp luật và chính sách quản lý. Mô hình kiến trúc dữ liệu tập trung vào việc phân loại, tổ chức, tiêu chuẩn hóa, quản lý phiên bản, bảo mật và chia sẻ dữ liệu nhằm đảm bảo tính nhất quán, toàn vẹn và khả năng truy cập dữ liệu. Các khái niệm chính bao gồm:
- Dữ liệu nghiên cứu khoa học và công nghệ (DLNC): Bao gồm dữ liệu thô, siêu dữ liệu, tài liệu khoa học, mã nguồn và các sản phẩm nghiên cứu khác.
- Kiến trúc dữ liệu: Cấu trúc tổ chức và quản lý dữ liệu nhằm tối ưu hóa lưu trữ, truy xuất và chia sẻ.
- Quản lý vòng đời dữ liệu: Các giai đoạn từ tạo lập, lưu trữ, bảo mật đến chia sẻ và tái sử dụng dữ liệu.
- Tiêu chuẩn FAIR: Nguyên tắc dữ liệu phải dễ tìm kiếm (Findable), truy cập (Accessible), tương tác (Interoperable) và tái sử dụng (Reusable).
- Hệ thống tích hợp dữ liệu: Công nghệ và phương pháp kết nối, chuyển đổi và lưu trữ dữ liệu từ nhiều nguồn khác nhau.
Phương pháp nghiên cứu
Nghiên cứu sử dụng phương pháp kết hợp:
- Nghiên cứu tài liệu: Tổng hợp và phân tích các văn bản pháp luật, báo cáo, giáo trình liên quan đến quản lý dữ liệu nghiên cứu khoa học và công nghệ trong nước và quốc tế.
- Phân tích và tổng hợp: Thu thập dữ liệu từ các dự án, hội thảo, báo cáo thực tế tại Học viện Khoa học và Công nghệ, phân tích thực trạng quản lý dữ liệu hiện tại.
- Thảo luận nhóm: Trao đổi với các cán bộ, nghiên cứu sinh, học viên cao học và chuyên gia công nghệ thông tin tại Viện Hàn lâm để thu thập ý kiến và đánh giá mô hình kiến trúc dữ liệu đề xuất.
- Thực nghiệm mô hình: Xây dựng và thử nghiệm hệ thống quản lý dữ liệu dựa trên kiến trúc đề xuất, sử dụng công nghệ Apache NiFi, hệ quản trị cơ sở dữ liệu quan hệ và NoSQL, cùng framework Next.js và TypeScript cho giao diện người dùng.
Cỡ mẫu nghiên cứu bao gồm các học viên cao học, nghiên cứu sinh và cán bộ công nghệ thông tin tại Học viện Khoa học và Công nghệ, với thời gian nghiên cứu kéo dài 2 năm (2021-2023). Phương pháp phân tích dữ liệu chủ yếu là phân tích định tính kết hợp đánh giá hiệu quả vận hành hệ thống thử nghiệm.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
- Thực trạng quản lý dữ liệu nghiên cứu tại Học viện Khoa học và Công nghệ còn nhiều hạn chế: Khoảng 80% dữ liệu được lưu trữ thủ công trên các thiết bị cá nhân như ổ cứng, thẻ nhớ, hoặc dịch vụ lưu trữ miễn phí, dẫn đến rủi ro mất mát, bảo mật kém và khó khăn trong truy xuất dữ liệu.
- Kiến trúc dữ liệu đề xuất bao gồm ba khối chức năng chính: Khối tích hợp dữ liệu (Ingestion), khối lưu trữ (Storage) và khối người dùng (User ). Hệ thống hỗ trợ tích hợp dữ liệu từ bốn nguồn chính: cơ sở dữ liệu quan hệ (RDBMS), dữ liệu tệp (file), dữ liệu dịch vụ SaaS qua API, và dữ liệu dòng thời gian thực (Streaming).
- Ứng dụng Apache NiFi trong khối tích hợp dữ liệu giúp tự động hóa luồng dữ liệu: NiFi hỗ trợ thu thập, xử lý, chuyển đổi và quản lý luồng dữ liệu với khả năng mở rộng cao, đảm bảo an toàn và tính toàn vẹn dữ liệu.
- Giao diện người dùng xây dựng trên nền tảng Next.js và TypeScript cung cấp trải nghiệm thân thiện: Hệ thống có 5 chức năng chính gồm giới thiệu hệ thống, truy cập dữ liệu theo 12 lĩnh vực nghiên cứu, đóng góp dữ liệu, huấn luyện mô hình học máy và hỗ trợ thông tin liên hệ.
- Hiệu quả thử nghiệm mô hình: Hệ thống cho phép truy cập dữ liệu nhanh chóng, hỗ trợ chia sẻ và bảo mật dữ liệu, đồng thời tạo điều kiện thuận lợi cho việc hợp tác nghiên cứu và phát triển các mô hình học máy từ dữ liệu sẵn có.
Thảo luận kết quả
Nguyên nhân của thực trạng lưu trữ dữ liệu thủ công chủ yếu do thiếu nền tảng quản lý dữ liệu tập trung và đồng bộ, cũng như hạn chế về nguồn lực công nghệ thông tin tại các đơn vị nghiên cứu. Việc xây dựng kiến trúc dữ liệu với ba khối chức năng chính đã giải quyết được các vấn đề về tích hợp đa nguồn, lưu trữ an toàn và truy cập dữ liệu hiệu quả. So sánh với các mô hình quản lý dữ liệu nghiên cứu tại các nước phát triển như Anh, Mỹ và Úc, hệ thống đề xuất đã áp dụng các công nghệ tiên tiến như Apache NiFi và tuân thủ nguyên tắc FAIR, góp phần nâng cao chất lượng quản lý dữ liệu nghiên cứu trong nước. Việc tích hợp các công cụ hỗ trợ huấn luyện mô hình học máy từ dữ liệu cũng mở ra hướng phát triển mới cho nghiên cứu khoa học và công nghệ tại Việt Nam. Dữ liệu có thể được trình bày qua biểu đồ phân bố nguồn dữ liệu, bảng thống kê số lượng tài liệu theo lĩnh vực và biểu đồ hiệu suất truy cập dữ liệu trên hệ thống thử nghiệm, giúp minh họa rõ ràng hiệu quả của kiến trúc dữ liệu xây dựng.
Đề xuất và khuyến nghị
- Xây dựng và triển khai hệ thống quản lý dữ liệu tập trung: Tập trung phát triển nền tảng lưu trữ và quản lý dữ liệu nghiên cứu khoa học và công nghệ tại các viện nghiên cứu và trường đại học, nhằm đảm bảo tính nhất quán, bảo mật và khả năng truy cập dữ liệu. Thời gian thực hiện: 1-2 năm; Chủ thể: Bộ Khoa học và Công nghệ, Viện Hàn lâm.
- Áp dụng công nghệ tự động hóa tích hợp dữ liệu: Sử dụng các công cụ mã nguồn mở như Apache NiFi để tự động hóa quá trình thu thập, xử lý và chuyển đổi dữ liệu từ nhiều nguồn khác nhau, giảm thiểu sai sót và tăng hiệu quả quản lý. Thời gian thực hiện: 6-12 tháng; Chủ thể: Trung tâm CNTT các viện nghiên cứu.
- Đào tạo và nâng cao năng lực quản lý dữ liệu cho cán bộ nghiên cứu: Tổ chức các khóa đào tạo về quản lý dữ liệu, bảo mật và chia sẻ dữ liệu theo tiêu chuẩn FAIR, giúp nâng cao nhận thức và kỹ năng cho nhà khoa học và cán bộ quản lý. Thời gian thực hiện: liên tục; Chủ thể: Học viện Khoa học và Công nghệ, các trường đại học.
- Phát triển chính sách và quy định về quản lý dữ liệu nghiên cứu: Ban hành các quy định về quyền truy cập, bảo mật, chia sẻ và tái sử dụng dữ liệu nghiên cứu khoa học, đảm bảo tuân thủ pháp luật và bảo vệ quyền lợi các bên liên quan. Thời gian thực hiện: 1 năm; Chủ thể: Bộ Khoa học và Công nghệ, các cơ quan quản lý nhà nước.
- Khuyến khích hợp tác và chia sẻ dữ liệu trong cộng đồng nghiên cứu: Xây dựng các nền tảng chia sẻ dữ liệu mở, thúc đẩy hợp tác liên viện, liên ngành và quốc tế nhằm tận dụng tối đa giá trị của dữ liệu nghiên cứu. Thời gian thực hiện: liên tục; Chủ thể: Viện Hàn lâm, các tổ chức nghiên cứu.
Đối tượng nên tham khảo luận văn
- Nhà quản lý và hoạch định chính sách khoa học công nghệ: Luận văn cung cấp cơ sở khoa học và thực tiễn để xây dựng chính sách quản lý dữ liệu nghiên cứu, giúp nâng cao hiệu quả quản lý và phát triển nguồn lực khoa học công nghệ.
- Các viện nghiên cứu và trường đại học: Hướng dẫn xây dựng hệ thống quản lý dữ liệu nghiên cứu khoa học và công nghệ, từ đó nâng cao chất lượng lưu trữ, truy cập và chia sẻ dữ liệu phục vụ nghiên cứu và đào tạo.
- Nhà khoa học và nghiên cứu sinh: Cung cấp kiến thức về quản lý dữ liệu nghiên cứu, giúp họ hiểu rõ tầm quan trọng của việc lưu trữ, bảo mật và chia sẻ dữ liệu, đồng thời hỗ trợ phát triển các mô hình học máy từ dữ liệu.
- Chuyên gia công nghệ thông tin và phát triển phần mềm: Tham khảo mô hình kiến trúc dữ liệu và công nghệ áp dụng trong nghiên cứu để phát triển các giải pháp công nghệ phù hợp với nhu cầu quản lý dữ liệu nghiên cứu khoa học và công nghệ.
Luận văn cũng hữu ích cho các tổ chức tài trợ nghiên cứu, các cơ quan thư viện và trung tâm thông tin khoa học công nghệ nhằm nâng cao hiệu quả quản lý và khai thác dữ liệu nghiên cứu.
Câu hỏi thường gặp
Tại sao cần xây dựng kiến trúc dữ liệu nghiên cứu khoa học và công nghệ?
Việc xây dựng kiến trúc dữ liệu giúp tổ chức, quản lý và chia sẻ dữ liệu nghiên cứu một cách hiệu quả, tăng cường bảo mật, giảm thiểu rủi ro mất mát và nâng cao khả năng tái sử dụng dữ liệu, từ đó thúc đẩy tiến bộ khoa học và đổi mới sáng tạo.Hệ thống quản lý dữ liệu đề xuất có những tính năng nổi bật nào?
Hệ thống bao gồm khối tích hợp dữ liệu tự động từ nhiều nguồn, khối lưu trữ an toàn và khối người dùng với giao diện thân thiện, hỗ trợ truy cập dữ liệu theo thời gian thực và chức năng huấn luyện mô hình học máy từ dữ liệu.Apache NiFi đóng vai trò gì trong hệ thống?
Apache NiFi là công cụ mã nguồn mở giúp tự động hóa luồng dữ liệu, thu thập, xử lý và chuyển đổi dữ liệu từ nhiều nguồn khác nhau, đảm bảo tính toàn vẹn và an toàn dữ liệu, đồng thời hỗ trợ mở rộng quy mô xử lý dữ liệu.Làm thế nào để đảm bảo bảo mật và quyền riêng tư dữ liệu trong hệ thống?
Hệ thống áp dụng các biện pháp mã hóa dữ liệu, quản lý quyền truy cập chặt chẽ, xác thực người dùng và tuân thủ các quy định pháp luật về bảo vệ dữ liệu cá nhân và quyền riêng tư.Lợi ích của việc chia sẻ dữ liệu nghiên cứu là gì?
Chia sẻ dữ liệu giúp tăng cường hợp tác nghiên cứu, nâng cao chất lượng và số lượng công trình khoa học, tăng chỉ số trích dẫn, đồng thời tiết kiệm thời gian và chi phí nghiên cứu bằng cách tái sử dụng dữ liệu có sẵn.
Kết luận
- Luận văn đã phân tích thực trạng quản lý dữ liệu nghiên cứu khoa học và công nghệ tại Học viện Khoa học và Công nghệ, chỉ ra nhiều hạn chế trong lưu trữ và truy xuất dữ liệu.
- Đã xây dựng kiến trúc dữ liệu gồm ba khối chức năng chính: tích hợp dữ liệu, lưu trữ và người dùng, áp dụng công nghệ Apache NiFi và hệ quản trị cơ sở dữ liệu đa dạng.
- Hệ thống thử nghiệm cho thấy hiệu quả trong việc tự động hóa thu thập, xử lý và chia sẻ dữ liệu, đồng thời hỗ trợ huấn luyện mô hình học máy từ dữ liệu nghiên cứu.
- Đề xuất các giải pháp triển khai hệ thống quản lý dữ liệu tập trung, đào tạo nhân lực và xây dựng chính sách quản lý dữ liệu nghiên cứu khoa học phù hợp.
- Các bước tiếp theo bao gồm mở rộng phạm vi áp dụng hệ thống, nâng cao tính năng bảo mật và phát triển các công cụ phân tích dữ liệu nâng cao nhằm hỗ trợ quyết định trong nghiên cứu và phát triển công nghệ.
Mời các nhà nghiên cứu, quản lý và chuyên gia công nghệ thông tin tham khảo và ứng dụng kết quả nghiên cứu để nâng cao hiệu quả quản lý dữ liệu nghiên cứu khoa học và công nghệ tại Việt Nam.