I. Giới thiệu bài toán
Dữ liệu ngày càng thể hiện vai trò cực kỳ quan trọng cho sự phát triển của rất nhiều lĩnh vực như giáo dục, y tế, khoa học và kỹ thuật. Góp phần thúc đẩy sự phát triển của kinh tế, nâng cao chất lượng cuộc sống và tạo ra những tri thức hoàn toàn mới cho nhân loại. Sự ảnh hưởng này kéo theo sự phát triển của lĩnh vực phân tích dữ liệu nhằm tận dụng tối đa giá trị mà dữ liệu mang lại. Hạt nhân của các hệ thống phân tích dữ liệu chính là dữ liệu. Dữ liệu càng nhiều thì độ chính xác của các hệ thống phân tích càng cao. Do đó, chia sẻ dữ liệu là một xu hướng hiện nay. Một mô hình được tạo ra từ xu hướng này đó chính là dữ liệu mở. Hệ thống quản lý dữ liệu mở cho phép xuất bản, phân loại, tìm kiếm và trực quan dữ liệu. Người dùng có thể thao tác với hệ thống thông qua cổng dữ liệu mở. Ngày nay, dữ liệu tồn tại ở rất nhiều định dạng và từ nhiều nguồn khác nhau, trong đó bao gồm: dữ liệu điện toán đám mây, mạng xã hội, và dữ liệu streaming. Dữ liệu streaming đóng vai trò quan trọng trong nhiều lĩnh vực và có thể được chia sẻ vào các hệ thống quản lý dữ liệu mở, tạo ra nhiều lợi ích cho sự phát triển của tập dữ liệu trong hệ thống này.
II. Tích hợp Data Distributed vào hệ thống quản lý dữ liệu mở
Khi tích hợp Data Distributed Service (DDS) vào hệ thống quản lý dữ liệu mở, sẽ có một vấn đề xảy ra đó là dữ liệu sẽ có nhiều định dạng, nhiều kiểu khác nhau. Do đó, thường người ta sẽ dựng một hệ thống chuyển đổi để có thể lấy được những dữ liệu đa dạng này. Mô hình tích hợp DDS giúp khắc phục điểm yếu của các mô hình trước đó bằng cách sử dụng DDS như một bộ chuyển đổi. Dữ liệu sẽ được đưa về cùng một kiểu mà chuẩn DDS quy định. Mô hình này giúp mở rộng khả năng tham gia của nhiều tổ chức vào hệ thống dữ liệu mở, tăng cường tính phong phú và đa dạng của dữ liệu. Hơn nữa, DDS hỗ trợ tính năng streaming, giúp hệ thống quản lý dữ liệu mở tiếp cận được nhiều bên tham gia hơn. Việc tích hợp DDS không chỉ đơn thuần là chuyển đổi dữ liệu mà còn là cải thiện khả năng xử lý và lưu trữ dữ liệu trong hệ thống.
III. Chuyển đổi dữ liệu từ Interface Definition Language sang chuẩn JSON
Hệ thống quản lý dữ liệu mở hiện tại quy ước JSON làm dữ liệu chuẩn. Do đó, tất cả dữ liệu phải được chuyển đổi về JSON trước khi lưu vào hệ thống. Khi tích hợp DDS vào hệ thống này, việc chuyển đổi dữ liệu từ chuẩn DDS là Interface Definition Language (IDL) sang JSON là cần thiết. Các dạng dữ liệu như Struct, Union, Sequences, Array, Map, Enum, String và các kiểu dữ liệu nguyên thủy cần được chuyển đổi một cách chính xác để đảm bảo tính tương thích với hệ thống. Việc này không chỉ giúp duy trì tính nhất quán của dữ liệu mà còn đảm bảo rằng hệ thống có thể xử lý và phân tích dữ liệu một cách hiệu quả.
IV. JSON tối ưu cho dữ liệu streaming
Khi tích hợp Data Distributed Service vào hệ thống quản lý dữ liệu mở, ta cần nghiên cứu phương pháp chuyển đổi dữ liệu từ Interface Definition Language qua JSON sao cho hiệu quả. JSON được sử dụng trong dữ liệu streaming bằng cách truyền đi các JSON object. Các JSON object có thể được ngăn cách và định dạng bằng nhiều cách khác nhau, như không chứa ký tự xuống dòng hoặc sử dụng ký tự điều khiển phân tách. Mỗi cách đều có ưu nhược điểm riêng, và việc lựa chọn cách phù hợp nhất cho dữ liệu streaming của hệ thống hiện tại là rất quan trọng. Điều này không chỉ đảm bảo tính hiệu quả trong việc xử lý dữ liệu mà còn duy trì tính chính xác và độ tin cậy của thông tin.
V. Các bài toán khác có liên quan trong bối cảnh hiện nay
Ngoài các vấn đề được trình bày trong luận văn, vẫn còn nhiều khía cạnh cần giải quyết khi tích hợp dữ liệu streaming trong bối cảnh dữ liệu mở hiện nay như: tính riêng tư của dữ liệu, quyền sở hữu dữ liệu, và kiểm tra và đánh giá chất lượng của dữ liệu. Tính riêng tư của dữ liệu là một vấn đề quan trọng, đặc biệt khi dữ liệu được chia sẻ có thể chứa thông tin nhạy cảm. Quyền sở hữu dữ liệu cũng cần được xác định rõ ràng để tránh các tranh chấp trong việc sử dụng dữ liệu. Cuối cùng, việc kiểm tra và đánh giá chất lượng của dữ liệu là cần thiết để đảm bảo rằng dữ liệu được chia sẻ là chính xác và đáng tin cậy, từ đó nâng cao giá trị của hệ thống quản lý dữ liệu mở.