Tổng quan nghiên cứu

Ùn tắc giao thông là vấn nạn nghiêm trọng tại nhiều đô thị lớn trên thế giới, gây thiệt hại kinh tế hàng tỷ đô la mỗi năm. Tại Việt Nam, theo Ủy ban An Toàn Giao Thông Quốc gia, thiệt hại do ùn tắc giao thông ước tính khoảng 30.000 tỷ đồng mỗi năm, tương đương 1,34 tỷ USD. Tại Mỹ, con số này lên tới 124 tỷ USD. Trước thực trạng đó, việc ứng dụng công nghệ thông tin trong giám sát và quản lý giao thông trở nên cấp thiết. Thành phố Hồ Chí Minh đã đầu tư hệ thống camera giám sát và bảng thông tin giao thông điện tử, giúp giảm số điểm ùn tắc từ 37 điểm năm 2016 xuống còn 22 điểm năm 2019, minh chứng cho hiệu quả của công nghệ trong lĩnh vực này.

Tuy nhiên, hệ thống giám sát giao thông hiện đại tạo ra lượng dữ liệu khổng lồ từ hàng loạt cảm biến và camera, với tốc độ sinh dữ liệu lên đến hàng chục nghìn bản ghi mỗi ngày. Do đó, việc xây dựng một hệ thống lưu trữ và truy vấn dữ liệu giao thông hiệu quả, có khả năng mở rộng, xử lý và truy vấn dữ liệu lớn là nhiệm vụ quan trọng. Mục tiêu nghiên cứu là đề xuất và triển khai giải pháp lưu trữ dữ liệu giao thông dựa trên kiến trúc Data Lakehouse, kết hợp các công nghệ mã nguồn mở như Delta Lake, Iceberg, MinIO và Trino, đồng thời đánh giá hiệu năng thực nghiệm trên dữ liệu thực tế tại TP. Hồ Chí Minh trong giai đoạn 2022.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

  • Kiến trúc Data Warehouse: Là mô hình lưu trữ dữ liệu có cấu trúc, hỗ trợ các tác vụ phân tích và báo cáo với tính năng ACID đảm bảo tính nhất quán dữ liệu. Tuy nhiên, Data Warehouse không phù hợp với dữ liệu phi cấu trúc và có chi phí lưu trữ cao.

  • Kiến trúc Data Lake: Lưu trữ dữ liệu thô với chi phí thấp, hỗ trợ đa dạng loại dữ liệu (cấu trúc, bán cấu trúc, phi cấu trúc). Tuy nhiên, Data Lake gặp khó khăn trong quản lý dữ liệu và hiệu năng truy vấn.

  • Kiến trúc Data Lakehouse: Kết hợp ưu điểm của Data Warehouse và Data Lake, cung cấp khả năng lưu trữ chi phí thấp, quản lý dữ liệu hiệu quả với tính năng ACID, đồng thời hỗ trợ truy vấn nhanh và các ứng dụng học máy.

  • Các khái niệm chính: 5V của dữ liệu lớn (Volume, Variety, Velocity, Veracity, Value), Table Format (Delta Lake, Iceberg) giúp quản lý metadata và hỗ trợ ACID trên Data Lake, kỹ thuật gom file và phân vùng dữ liệu để tối ưu hiệu năng truy vấn.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Dữ liệu giao thông thu thập từ hệ thống camera giám sát tại 20 trạm quan sát ở TP. Hồ Chí Minh, gồm dữ liệu đếm phương tiện (22.000 bản ghi/ngày) và dữ liệu biển số phương tiện (74.000 bản ghi/ngày).

  • Phương pháp phân tích: Xây dựng kiến trúc lưu trữ dựa trên Data Lakehouse sử dụng các công nghệ mã nguồn mở như Delta Lake, Iceberg, MinIO, Trino. Thực hiện các kỹ thuật tối ưu như gom file và phân vùng dữ liệu để nâng cao hiệu năng truy vấn.

  • Timeline nghiên cứu: Nghiên cứu và triển khai từ tháng 02/2022 đến tháng 07/2022, bao gồm giai đoạn khảo sát, thiết kế, triển khai thử nghiệm và đánh giá hiệu năng trên dữ liệu thực tế.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  • Hiệu năng lưu trữ và truy vấn: Giải pháp sử dụng Delta Lake kết hợp MinIO cho thấy hiệu năng truy vấn vượt trội so với Delta Lake trên HDFS, giảm độ trễ đọc dữ liệu đáng kể trên tập dữ liệu 1.160 bản ghi đếm phương tiện và 2.320 bản ghi biển số.

  • So sánh công nghệ truy vấn: Trino kết hợp Iceberg và MinIO cung cấp hiệu năng truy vấn tốt hơn Spark SQL trên Delta Lake, đặc biệt trong các truy vấn phức tạp và dữ liệu lớn.

  • Tối ưu hóa dữ liệu: Kỹ thuật gom file và phân vùng dữ liệu giúp giảm thiểu số lượng file nhỏ, tránh nghẽn IO, nâng cao tốc độ truy vấn và khả năng mở rộng hệ thống.

  • Mô hình dữ liệu tam cấp: Phân chia dữ liệu thành ba tầng (Bronze - thô, Silver - sạch, Gold - tổng hợp) giúp quản lý dữ liệu hiệu quả, tăng tính sẵn sàng và tiện lợi cho các ứng dụng phân tích và báo cáo.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu năng là do việc áp dụng kiến trúc Data Lakehouse với Table Format hiện đại, cho phép quản lý metadata và thực hiện các giao dịch ACID trên dữ liệu lớn. So với mô hình truyền thống Data Warehouse hoặc Data Lake riêng lẻ, Data Lakehouse giảm thiểu các bước ETL phức tạp, giảm lỗi và độ trễ trong xử lý dữ liệu.

Kết quả thực nghiệm phù hợp với các nghiên cứu quốc tế về hiệu quả của Data Lakehouse trong quản lý dữ liệu lớn và hỗ trợ các ứng dụng học máy. Việc sử dụng MinIO thay thế HDFS cũng giúp giảm thiểu lỗi IO và tăng tính linh hoạt trong triển khai trên môi trường cloud-native.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ trễ truy vấn giữa các giải pháp, bảng thống kê số lượng file và kích thước file trước và sau khi gom file, cũng như sơ đồ mô hình dữ liệu tam cấp để minh họa cấu trúc lưu trữ.

Đề xuất và khuyến nghị

  • Triển khai kiến trúc Data Lakehouse: Áp dụng kiến trúc Data Lakehouse với các Table Format như Delta Lake hoặc Iceberg để đảm bảo quản lý dữ liệu hiệu quả và hỗ trợ truy vấn nhanh, hướng tới mục tiêu giảm độ trễ truy vấn dưới 1 giây cho các báo cáo thời gian thực.

  • Sử dụng nền tảng lưu trữ MinIO: Thay thế HDFS bằng MinIO để tăng hiệu năng IO, giảm lỗi trong quá trình ghi dữ liệu, phù hợp với môi trường cloud-native, triển khai trong vòng 6 tháng tới bởi các đội ngũ kỹ thuật CNTT.

  • Áp dụng kỹ thuật gom file và phân vùng dữ liệu: Thực hiện gom file định kỳ và phân vùng dữ liệu theo các cột khóa phù hợp để tối ưu hóa truy vấn, giảm thiểu số lượng file nhỏ, nâng cao hiệu suất hệ thống trong vòng 3 tháng.

  • Phát triển hệ thống ETL/ELT tự động: Xây dựng quy trình ETL/ELT tự động, đảm bảo dữ liệu được chuẩn hóa và cập nhật nhanh chóng, hỗ trợ các ứng dụng phân tích và học máy, với mục tiêu hoàn thành trong 9 tháng.

  • Đào tạo và nâng cao năng lực nhân sự: Tổ chức các khóa đào tạo về công nghệ Data Lakehouse, Table Format và các công cụ phân tích dữ liệu lớn cho đội ngũ kỹ thuật và phân tích dữ liệu, nhằm nâng cao hiệu quả vận hành hệ thống.

Đối tượng nên tham khảo luận văn

  • Các nhà quản lý giao thông đô thị: Nhận diện các giải pháp công nghệ hiện đại để nâng cao hiệu quả quản lý và giảm ùn tắc giao thông thông qua dữ liệu lớn.

  • Chuyên gia công nghệ thông tin và dữ liệu lớn: Áp dụng kiến trúc Data Lakehouse và các công nghệ mã nguồn mở trong xây dựng hệ thống lưu trữ và phân tích dữ liệu lớn.

  • Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Công nghệ Thông tin: Tham khảo mô hình nghiên cứu, phương pháp triển khai và đánh giá hiệu năng thực nghiệm trong lĩnh vực lưu trữ và truy vấn dữ liệu lớn.

  • Doanh nghiệp phát triển giải pháp giao thông thông minh: Tận dụng các kỹ thuật tối ưu truy vấn và kiến trúc lưu trữ để phát triển sản phẩm, dịch vụ dựa trên dữ liệu giao thông thời gian thực.

Câu hỏi thường gặp

  1. Data Lakehouse là gì và có ưu điểm gì so với Data Warehouse và Data Lake?
    Data Lakehouse kết hợp ưu điểm của Data Warehouse và Data Lake, vừa lưu trữ dữ liệu đa dạng với chi phí thấp, vừa đảm bảo tính nhất quán và hiệu năng truy vấn cao nhờ các tính năng ACID và quản lý metadata.

  2. Tại sao lại chọn Delta Lake và Iceberg làm Table Format?
    Delta Lake và Iceberg là các Table Format mã nguồn mở hỗ trợ ACID transaction trên Data Lake, giúp quản lý dữ liệu hiệu quả và tối ưu truy vấn. Iceberg có ưu điểm phân vùng ẩn giúp truy vấn linh hoạt hơn.

  3. MinIO có lợi thế gì so với HDFS trong lưu trữ dữ liệu lớn?
    MinIO cung cấp API tương thích S3, dễ dàng triển khai trên môi trường cloud-native, có hiệu năng IO cao hơn và giảm thiểu lỗi khi ghi dữ liệu liên tục so với HDFS.

  4. Kỹ thuật gom file và phân vùng dữ liệu ảnh hưởng thế nào đến hiệu năng truy vấn?
    Gom file giảm số lượng file nhỏ, tránh nghẽn IO; phân vùng dữ liệu giúp truy vấn chỉ tập trung vào phần dữ liệu cần thiết, giảm thời gian quét toàn bộ dữ liệu, từ đó cải thiện tốc độ truy vấn.

  5. Hệ thống lưu trữ dữ liệu giao thông có thể mở rộng như thế nào khi dữ liệu tăng nhanh?
    Kiến trúc Data Lakehouse với nền tảng lưu trữ phân tán như MinIO và công cụ xử lý phân tán như Apache Spark cho phép mở rộng linh hoạt về dung lượng và hiệu năng xử lý khi dữ liệu tăng lên.

Kết luận

  • Đề xuất và triển khai thành công giải pháp lưu trữ và truy vấn dữ liệu giao thông dựa trên kiến trúc Data Lakehouse, sử dụng các công nghệ mã nguồn mở như Delta Lake, Iceberg, MinIO và Trino.
  • Giải pháp đáp ứng được yêu cầu lưu trữ dữ liệu lớn, truy vấn nhanh và hỗ trợ các ứng dụng phân tích, học máy trong lĩnh vực giao thông.
  • Kỹ thuật gom file và phân vùng dữ liệu giúp nâng cao hiệu năng truy vấn, giảm thiểu độ trễ và tăng tính ổn định của hệ thống.
  • Thực nghiệm trên dữ liệu thực tế tại TP. Hồ Chí Minh cho thấy hiệu quả vượt trội so với các giải pháp truyền thống.
  • Đề xuất các hướng phát triển tiếp theo bao gồm mở rộng quy mô hệ thống, tự động hóa quy trình ETL và đào tạo nhân lực chuyên sâu.

Hành động tiếp theo: Khuyến khích các đơn vị quản lý giao thông và doanh nghiệp công nghệ áp dụng giải pháp, đồng thời tiếp tục nghiên cứu nâng cao hiệu năng và tích hợp các công nghệ mới trong lĩnh vực dữ liệu lớn và trí tuệ nhân tạo.