Tổng quan nghiên cứu

Trong bối cảnh đại dịch COVID-19 diễn biến phức tạp, việc truy xuất và tìm kiếm thông tin về bệnh nhân trở thành một nhu cầu cấp thiết nhằm hỗ trợ công tác phòng chống dịch hiệu quả. Tính đến ngày 01/09/2021, Việt Nam đã ghi nhận nhiều ca nhiễm với các thông tin đa dạng về nhân khẩu học, lịch trình di chuyển và tình trạng điều trị. Tuy nhiên, việc quản lý và truy vấn dữ liệu bệnh nhân còn gặp nhiều khó khăn do tính phân tán và thiếu liên kết giữa các nguồn dữ liệu. Luận văn tập trung phát triển ứng dụng hỗ trợ tìm kiếm thông tin bệnh nhân COVID-19 dựa trên công nghệ Web ngữ nghĩa và bản đồ mở OpenStreetMap, nhằm tạo ra một hệ thống lưu trữ, truy vấn và hiển thị dữ liệu hiệu quả, chính xác.

Mục tiêu nghiên cứu là xây dựng một hệ thống ứng dụng Web ngữ nghĩa kết hợp với dữ liệu không gian địa lý từ OpenStreetMap để hỗ trợ truy vấn thông tin bệnh nhân COVID-19 tại Việt Nam, đặc biệt tại Hà Nội và vùng phụ cận. Phạm vi nghiên cứu bao gồm dữ liệu bệnh nhân, địa điểm di chuyển và sự kiện liên quan trong khoảng thời gian từ đầu năm 2021 đến tháng 9/2021. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao khả năng truy xuất thông tin nhanh chóng, chính xác, hỗ trợ công tác truy vết, cách ly và điều trị, góp phần kiểm soát dịch bệnh hiệu quả hơn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: công nghệ Web ngữ nghĩa (Semantic Web) và bản đồ mở OpenStreetMap (OSM). Web ngữ nghĩa là sự mở rộng của Web hiện tại, cho phép mô tả dữ liệu với ngữ nghĩa rõ ràng thông qua các mô hình RDF (Resource Description Framework) và RDFS (RDF Schema). RDF biểu diễn dữ liệu dưới dạng bộ ba (subject, predicate, object), giúp máy tính hiểu và xử lý thông tin một cách tự động. Ngôn ngữ truy vấn SPARQL được sử dụng để truy xuất dữ liệu RDF hiệu quả.

OpenStreetMap là một nền tảng bản đồ thế giới mở, do cộng đồng người dùng đóng góp và duy trì, cung cấp dữ liệu không gian địa lý phong phú và miễn phí. OSM hỗ trợ các ứng dụng nhân đạo, cứu trợ khẩn cấp và nhiều dịch vụ khác nhờ tính chính xác và cập nhật liên tục. Việc kết hợp Web ngữ nghĩa với dữ liệu OSM tạo điều kiện thuận lợi cho việc liên kết dữ liệu bệnh nhân với vị trí địa lý, giúp truy vấn thông tin theo không gian và thời gian.

Các khái niệm chính bao gồm: RDF, RDFS, SPARQL, Ontology (bản thể luận), Linked Data (dữ liệu liên kết), và kiến trúc hệ thống Web ngữ nghĩa. Ngoài ra, framework Spring MVC và thư viện Jena được sử dụng để phát triển ứng dụng Web ngữ nghĩa, hỗ trợ tạo mô hình RDF, truy vấn và hiển thị dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ trang thông tin điện tử của Bộ Y tế Việt Nam, Trung tâm Kiểm soát bệnh tật, cùng các báo cáo y tế và dữ liệu bản đồ OpenStreetMap. Dữ liệu bệnh nhân COVID-19 được tổng hợp thành các bảng Excel bao gồm thông tin nhân khẩu học, lịch trình di chuyển và tình trạng điều trị. Dữ liệu địa điểm được trích xuất từ OSM dưới dạng file *.osm, sau đó xử lý bằng công cụ JOSM.

Phương pháp phân tích bao gồm: chuyển đổi dữ liệu Excel sang mô hình RDF sử dụng thư viện Jena, xây dựng ontology mô tả các khái niệm và mối quan hệ trong lĩnh vực y tế và dịch tễ, truy vấn dữ liệu bằng ngôn ngữ SPARQL, và phát triển giao diện Web sử dụng Spring MVC để hiển thị kết quả truy vấn. Cỡ mẫu dữ liệu thử nghiệm khoảng vài trăm bệnh nhân và hàng trăm địa điểm di chuyển, được chọn lọc theo tiêu chí đại diện cho các vùng dịch trọng điểm.

Timeline nghiên cứu kéo dài từ tháng 1/2021 đến tháng 9/2021, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình RDF, phát triển ứng dụng, thử nghiệm và đánh giá hiệu quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả chuyển đổi dữ liệu sang RDF: Việc sử dụng thư viện Jena cho phép chuyển đổi dữ liệu bệnh nhân và địa điểm từ Excel sang định dạng RDF thành công với độ chính xác trên 95%. Mô hình RDF giúp liên kết các thông tin bệnh nhân với địa điểm di chuyển một cách rõ ràng và có cấu trúc.

  2. Truy vấn thông tin nhanh chóng và chính xác: Ứng dụng hỗ trợ truy vấn thông tin bệnh nhân theo nhiều tiêu chí như tên, tuổi, địa điểm di chuyển, tình trạng điều trị. Thời gian truy vấn trung bình dưới 2 giây cho tập dữ liệu khoảng 500 bệnh nhân và 300 địa điểm, cải thiện đáng kể so với phương pháp tìm kiếm truyền thống.

  3. Tích hợp dữ liệu không gian địa lý: Việc kết hợp dữ liệu từ OpenStreetMap giúp hiển thị chính xác vị trí các địa điểm liên quan đến bệnh nhân, hỗ trợ trực quan trong công tác truy vết. Khoảng 90% địa điểm di chuyển của bệnh nhân được xác định chính xác trên bản đồ.

  4. Giao diện người dùng thân thiện: Giao diện Web phát triển trên nền Spring MVC cho phép người dùng dễ dàng truy cập, tìm kiếm và xem chi tiết thông tin bệnh nhân cùng lịch trình di chuyển, góp phần nâng cao hiệu quả sử dụng hệ thống trong thực tế.

Thảo luận kết quả

Nguyên nhân của hiệu quả trên đến từ việc áp dụng công nghệ Web ngữ nghĩa giúp mô hình hóa dữ liệu có ngữ nghĩa rõ ràng, đồng thời sử dụng ngôn ngữ truy vấn SPARQL tối ưu cho các truy vấn phức tạp. So với các nghiên cứu trước đây chỉ tập trung vào lưu trữ dữ liệu dạng bảng hoặc văn bản, hệ thống này cho phép truy vấn liên kết đa chiều giữa bệnh nhân, địa điểm và sự kiện.

Việc tích hợp OpenStreetMap không chỉ cung cấp dữ liệu bản đồ miễn phí, mà còn đảm bảo tính cập nhật và chính xác cao nhờ cộng đồng đóng góp. Kết quả này phù hợp với các báo cáo ngành về hiệu quả của dữ liệu mở trong quản lý dịch bệnh.

Dữ liệu có thể được trình bày qua các biểu đồ thống kê số lượng bệnh nhân theo địa phương, biểu đồ thời gian di chuyển, và bản đồ tương tác thể hiện các điểm nóng dịch tễ. Bảng so sánh thời gian truy vấn giữa hệ thống Web ngữ nghĩa và phương pháp truyền thống cũng minh họa rõ ràng ưu điểm của nghiên cứu.

Đề xuất và khuyến nghị

  1. Mở rộng quy mô dữ liệu: Tiếp tục thu thập và cập nhật dữ liệu bệnh nhân, địa điểm di chuyển trên phạm vi toàn quốc nhằm nâng cao độ phủ và tính chính xác của hệ thống. Thực hiện trong vòng 6 tháng tới, do các cơ quan y tế phối hợp thực hiện.

  2. Phát triển tính năng cảnh báo sớm: Tích hợp các thuật toán phân tích dữ liệu để phát hiện các điểm dịch tiềm ẩn dựa trên lịch trình di chuyển và mối liên hệ giữa các bệnh nhân, nhằm hỗ trợ công tác phòng chống dịch chủ động. Thời gian triển khai dự kiến 9 tháng, do nhóm phát triển phần mềm và chuyên gia dịch tễ phối hợp.

  3. Tăng cường bảo mật và quyền riêng tư: Áp dụng các biện pháp bảo vệ dữ liệu cá nhân bệnh nhân theo quy định pháp luật, đảm bảo an toàn thông tin khi truy cập và lưu trữ dữ liệu. Chủ thể thực hiện là các đơn vị quản lý dữ liệu y tế, trong vòng 3 tháng.

  4. Đào tạo và phổ biến sử dụng hệ thống: Tổ chức các khóa đào tạo cho cán bộ y tế, quản lý địa phương và người dùng cuối để nâng cao hiệu quả khai thác hệ thống. Thời gian thực hiện liên tục trong năm, do các cơ quan y tế và trường đại học phối hợp.

Đối tượng nên tham khảo luận văn

  1. Cán bộ y tế và quản lý dịch tễ: Hỗ trợ trong công tác truy vết, phân tích dịch tễ và ra quyết định phòng chống dịch dựa trên dữ liệu chính xác và cập nhật.

  2. Nhà phát triển phần mềm và công nghệ thông tin: Tham khảo mô hình ứng dụng Web ngữ nghĩa, kỹ thuật chuyển đổi dữ liệu RDF và tích hợp bản đồ mở để phát triển các ứng dụng tương tự trong lĩnh vực y tế và quản lý dữ liệu.

  3. Nhà nghiên cứu khoa học dữ liệu và trí tuệ nhân tạo: Sử dụng dữ liệu có cấu trúc và liên kết để phát triển các mô hình dự báo, phân tích hành vi dịch tễ và hỗ trợ ra quyết định.

  4. Cơ quan quản lý nhà nước và chính quyền địa phương: Áp dụng hệ thống để nâng cao hiệu quả quản lý thông tin dịch bệnh, hỗ trợ công tác chỉ đạo và điều phối phòng chống dịch.

Câu hỏi thường gặp

  1. Web ngữ nghĩa là gì và tại sao lại quan trọng trong quản lý dữ liệu COVID-19?
    Web ngữ nghĩa là công nghệ mở rộng Web hiện tại, cho phép mô tả dữ liệu với ngữ nghĩa rõ ràng, giúp máy tính hiểu và xử lý thông tin tự động. Trong quản lý COVID-19, nó giúp liên kết dữ liệu bệnh nhân, địa điểm và sự kiện, nâng cao hiệu quả truy xuất và phân tích.

  2. OpenStreetMap có ưu điểm gì so với các bản đồ thương mại?
    OSM là bản đồ mở, miễn phí, được cập nhật liên tục bởi cộng đồng người dùng toàn cầu, có độ chính xác cao và hỗ trợ nhiều ứng dụng nhân đạo, cứu trợ khẩn cấp, phù hợp với nhu cầu quản lý dịch bệnh.

  3. Làm thế nào để dữ liệu Excel được chuyển đổi sang RDF?
    Dữ liệu Excel được đọc bằng thư viện hỗ trợ, sau đó sử dụng thư viện Jena để tạo mô hình RDF, thêm các tài nguyên và thuộc tính tương ứng, cuối cùng xuất ra file RDF/XML để sử dụng trong hệ thống Web ngữ nghĩa.

  4. SPARQL có vai trò gì trong hệ thống?
    SPARQL là ngôn ngữ truy vấn dữ liệu RDF, cho phép truy xuất thông tin theo các mẫu bộ ba, hỗ trợ truy vấn phức tạp và liên kết dữ liệu đa chiều, giúp hệ thống trả về kết quả nhanh và chính xác.

  5. Hệ thống có thể áp dụng cho các dịch bệnh khác không?
    Có, mô hình và công nghệ được xây dựng có tính mở rộng cao, có thể điều chỉnh để quản lý và truy xuất thông tin cho các dịch bệnh khác hoặc các lĩnh vực quản lý dữ liệu y tế khác.

Kết luận

  • Luận văn đã xây dựng thành công ứng dụng hỗ trợ tìm kiếm thông tin bệnh nhân COVID-19 dựa trên công nghệ Web ngữ nghĩa và bản đồ mở OpenStreetMap.
  • Hệ thống cho phép chuyển đổi dữ liệu bệnh nhân và địa điểm sang mô hình RDF, truy vấn nhanh chóng bằng SPARQL và hiển thị trực quan trên giao diện Web.
  • Kết quả thử nghiệm cho thấy hiệu quả cao trong việc truy xuất thông tin, hỗ trợ công tác truy vết và phòng chống dịch tại Việt Nam.
  • Đề xuất mở rộng quy mô dữ liệu, phát triển tính năng cảnh báo sớm, tăng cường bảo mật và đào tạo người dùng để nâng cao hiệu quả ứng dụng.
  • Các bước tiếp theo bao gồm triển khai thực tế trên phạm vi rộng hơn, tích hợp thêm dữ liệu và cải tiến giao diện người dùng; mời các cơ quan y tế và nhà phát triển công nghệ hợp tác ứng dụng rộng rãi.

Hãy cùng chung tay ứng dụng công nghệ để nâng cao hiệu quả phòng chống dịch COVID-19 và bảo vệ sức khỏe cộng đồng!