Tổng quan nghiên cứu

Trong bối cảnh đại dịch COVID-19 diễn biến phức tạp, việc truy xuất và tìm kiếm thông tin về bệnh nhân COVID-19 trở thành một nhu cầu cấp thiết nhằm hỗ trợ công tác phòng chống dịch hiệu quả. Tính đến ngày 01/09/2021, Việt Nam ghi nhận số ca nhiễm tăng nhanh, đòi hỏi các giải pháp công nghệ tiên tiến để quản lý và truy xuất dữ liệu bệnh nhân một cách chính xác và nhanh chóng. Luận văn tập trung phát triển ứng dụng hỗ trợ tìm kiếm thông tin người bệnh COVID-19 dựa trên công nghệ Web ngữ nghĩa và bản đồ mở OpenStreetMap, nhằm cung cấp một hệ thống lưu trữ, truy vấn và hiển thị dữ liệu bệnh nhân có tính liên kết và ngữ nghĩa cao.

Mục tiêu nghiên cứu là xây dựng một hệ thống ứng dụng Web ngữ nghĩa kết hợp với dữ liệu không gian địa lý từ OpenStreetMap để hỗ trợ tìm kiếm thông tin bệnh nhân COVID-19 tại Việt Nam, đặc biệt tại Hà Nội và vùng phụ cận. Phạm vi nghiên cứu bao gồm dữ liệu bệnh nhân, địa điểm di chuyển và các mối quan hệ liên quan được thu thập từ các nguồn chính thức như Bộ Y tế và Trung tâm Kiểm soát bệnh tật. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả truy xuất thông tin, hỗ trợ công tác truy vết, điều tra dịch tễ và quản lý dịch bệnh, góp phần giảm thiểu lây lan trong cộng đồng.

Hệ thống được kỳ vọng cải thiện tốc độ truy vấn thông tin với độ chính xác cao hơn so với các phương pháp tìm kiếm truyền thống dựa trên từ khóa, đồng thời cung cấp giao diện trực quan, dễ sử dụng cho người quản lý và người dân. Việc ứng dụng công nghệ Web ngữ nghĩa và OpenStreetMap cũng mở ra hướng phát triển mới cho các ứng dụng quản lý dữ liệu y tế và dịch tễ trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: công nghệ Web ngữ nghĩa (Semantic Web) và hệ thống bản đồ mở OpenStreetMap (OSM).

  • Web ngữ nghĩa: Là sự mở rộng của Web hiện tại, cho phép mô tả dữ liệu với ngữ nghĩa rõ ràng, giúp máy tính hiểu và xử lý thông tin hiệu quả hơn. Các thành phần cốt lõi bao gồm RDF (Resource Description Framework) để biểu diễn dữ liệu dưới dạng bộ ba (subject, predicate, object), RDFS (RDF Schema) để xây dựng mô hình lớp và thuộc tính, cùng ngôn ngữ truy vấn SPARQL cho phép truy xuất dữ liệu RDF một cách linh hoạt. Ngoài ra, khái niệm Linked Data được áp dụng để liên kết các tập dữ liệu khác nhau trên Web, tạo thành một mạng lưới dữ liệu có cấu trúc và có thể truy vấn.

  • OpenStreetMap (OSM): Là nền tảng bản đồ thế giới mở, dữ liệu được đóng góp bởi cộng đồng và miễn phí sử dụng. OSM cung cấp dữ liệu không gian địa lý chi tiết, được sử dụng trong nhiều ứng dụng từ định vị đến cứu trợ khẩn cấp. Kiến trúc OSM bao gồm kho dữ liệu địa lý, các công cụ chỉnh sửa, backend xử lý truy vấn và rendering để hiển thị bản đồ.

Các khái niệm chính trong nghiên cứu gồm: RDF triple, RDFS class và property, SPARQL query, Linked Data, mô hình dữ liệu không gian địa lý OSM, và framework lập trình Jena cho Web ngữ nghĩa.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp phát triển ứng dụng theo định hướng ứng dụng kỹ thuật, kết hợp thu thập và xử lý dữ liệu thực tế.

  • Nguồn dữ liệu: Dữ liệu bệnh nhân COVID-19 được thu thập từ trang thông tin chính thức của Bộ Y tế Việt Nam, bao gồm thông tin nhân khẩu học, tình trạng bệnh, lịch trình di chuyển. Dữ liệu địa điểm được trích xuất từ OpenStreetMap cho khu vực Hà Nội và vùng phụ cận.

  • Phương pháp phân tích: Dữ liệu thô được chuyển đổi sang định dạng RDF sử dụng thư viện Jena trong môi trường lập trình Java. Các mô hình RDF được xây dựng để biểu diễn thông tin bệnh nhân, địa điểm và mối quan hệ giữa chúng. Truy vấn dữ liệu thực hiện bằng ngôn ngữ SPARQL để tìm kiếm thông tin theo yêu cầu.

  • Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong năm 2021, bắt đầu từ thu thập dữ liệu, xây dựng mô hình RDF, phát triển ứng dụng Web ngữ nghĩa, tích hợp dữ liệu OSM, đến thử nghiệm và đánh giá hệ thống.

  • Cỡ mẫu và chọn mẫu: Dữ liệu thử nghiệm gồm khoảng 10 bệnh nhân với các thông tin chi tiết về lịch trình di chuyển và địa điểm liên quan, được lựa chọn đại diện cho các trường hợp điển hình tại Hà Nội.

  • Công cụ và môi trường: Sử dụng IntelliJ IDEA làm môi trường phát triển, Jena Framework để xử lý RDF, Spring MVC để xây dựng giao diện Web, JOSM để xử lý dữ liệu OSM.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả chuyển đổi dữ liệu sang RDF: Việc chuyển đổi dữ liệu bệnh nhân và địa điểm từ Excel sang RDF thành công với độ chính xác trên 95%, cho phép biểu diễn đầy đủ các thuộc tính và mối quan hệ. Mô hình RDF giúp liên kết thông tin bệnh nhân với địa điểm di chuyển một cách rõ ràng và có cấu trúc.

  2. Truy vấn thông tin nhanh chóng và chính xác: Ứng dụng cho phép truy vấn các thông tin như danh sách bệnh nhân, lịch trình di chuyển, mối quan hệ giữa các bệnh nhân và F0 với thời gian phản hồi trung bình dưới 2 giây, nhanh hơn khoảng 30% so với các hệ thống tìm kiếm truyền thống dựa trên từ khóa.

  3. Tích hợp dữ liệu không gian địa lý từ OSM: Việc kết hợp dữ liệu bản đồ mở giúp hiển thị trực quan các địa điểm liên quan đến bệnh nhân COVID-19, hỗ trợ người dùng dễ dàng theo dõi và đánh giá nguy cơ lây nhiễm tại các khu vực cụ thể. Khoảng 90% địa điểm trong dữ liệu bệnh nhân được ánh xạ chính xác trên bản đồ OSM.

  4. Giao diện người dùng thân thiện và trực quan: Giao diện Web được xây dựng trên nền tảng Spring MVC cho phép người dùng dễ dàng truy cập, tìm kiếm và xem chi tiết thông tin bệnh nhân cùng lịch trình di chuyển, góp phần nâng cao trải nghiệm người dùng.

Thảo luận kết quả

Kết quả cho thấy ứng dụng Web ngữ nghĩa kết hợp với dữ liệu OpenStreetMap là một giải pháp hiệu quả trong việc quản lý và truy xuất thông tin bệnh nhân COVID-19. Việc sử dụng RDF và SPARQL giúp mô hình hóa dữ liệu có ngữ nghĩa, tăng khả năng liên kết và truy vấn chính xác hơn so với các phương pháp truyền thống chỉ dựa trên từ khóa. So sánh với một số nghiên cứu trong ngành, hệ thống này có ưu thế về tốc độ truy vấn và khả năng tích hợp dữ liệu không gian địa lý.

Nguyên nhân thành công đến từ việc áp dụng kiến trúc Web ngữ nghĩa chuẩn, sử dụng Jena Framework để xử lý dữ liệu RDF, đồng thời khai thác nguồn dữ liệu bản đồ mở OSM phong phú và đáng tin cậy. Việc hiển thị dữ liệu trên bản đồ giúp người dùng có cái nhìn trực quan về các điểm nóng dịch tễ, hỗ trợ công tác truy vết và phòng chống dịch.

Dữ liệu có thể được trình bày qua các biểu đồ thống kê số lượng bệnh nhân theo địa phương, biểu đồ mối quan hệ giữa các F0 và F1, cũng như bản đồ phân bố địa điểm di chuyển của bệnh nhân. Các bảng dữ liệu chi tiết về thông tin bệnh nhân và lịch trình di chuyển cũng được tích hợp trong giao diện.

Tuy nhiên, hệ thống còn hạn chế về quy mô dữ liệu thử nghiệm và chưa tích hợp dữ liệu thời gian thực từ các nguồn cập nhật liên tục. Đây là điểm cần cải tiến trong các nghiên cứu tiếp theo để nâng cao tính ứng dụng thực tiễn.

Đề xuất và khuyến nghị

  1. Mở rộng quy mô dữ liệu và cập nhật thời gian thực: Động viên các cơ quan y tế tích hợp dữ liệu bệnh nhân và lịch trình di chuyển theo thời gian thực vào hệ thống để nâng cao độ chính xác và kịp thời trong truy vết dịch bệnh. Thời gian thực hiện: 6-12 tháng; Chủ thể: Sở Y tế, Trung tâm Kiểm soát bệnh tật.

  2. Phát triển giao diện người dùng đa nền tảng: Thiết kế ứng dụng hỗ trợ trên cả thiết bị di động và máy tính để người dùng dễ dàng truy cập mọi lúc, mọi nơi, tăng cường khả năng tiếp cận thông tin. Thời gian thực hiện: 3-6 tháng; Chủ thể: Đơn vị phát triển phần mềm.

  3. Tích hợp thêm các nguồn dữ liệu liên quan: Kết nối với các hệ thống y tế, cơ sở dữ liệu xét nghiệm, và các dịch vụ bản đồ khác để mở rộng phạm vi dữ liệu và nâng cao tính toàn diện của hệ thống. Thời gian thực hiện: 6 tháng; Chủ thể: Ban quản lý dự án, đối tác công nghệ.

  4. Tăng cường bảo mật và quyền riêng tư: Áp dụng các biện pháp bảo mật dữ liệu nghiêm ngặt, đảm bảo quyền riêng tư của bệnh nhân trong quá trình lưu trữ và truy xuất thông tin, tuân thủ các quy định pháp luật hiện hành. Thời gian thực hiện: song song với phát triển hệ thống; Chủ thể: Đơn vị phát triển, chuyên gia bảo mật.

  5. Đào tạo và nâng cao nhận thức người dùng: Tổ chức các khóa đào tạo cho cán bộ y tế và người dùng cuối về cách sử dụng hệ thống hiệu quả, đồng thời tuyên truyền về lợi ích của công nghệ Web ngữ nghĩa trong quản lý dịch bệnh. Thời gian thực hiện: liên tục; Chủ thể: Sở Y tế, các tổ chức đào tạo.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin: Luận văn cung cấp kiến thức sâu về Web ngữ nghĩa, RDF, SPARQL và ứng dụng thực tiễn trong lĩnh vực y tế, giúp mở rộng hiểu biết và phát triển các dự án nghiên cứu liên quan.

  2. Cán bộ quản lý y tế và phòng chống dịch: Hệ thống ứng dụng hỗ trợ truy xuất thông tin bệnh nhân COVID-19 giúp nâng cao hiệu quả công tác truy vết, điều tra dịch tễ và quản lý dịch bệnh tại các địa phương.

  3. Nhà phát triển phần mềm và kỹ sư dữ liệu: Tài liệu chi tiết về môi trường lập trình, framework Jena, cách chuyển đổi dữ liệu Excel sang RDF và tích hợp bản đồ OSM là nguồn tham khảo quý giá cho việc xây dựng các ứng dụng Web ngữ nghĩa.

  4. Các tổ chức và cơ quan chính phủ liên quan đến quản lý dữ liệu y tế và dịch tễ: Luận văn cung cấp giải pháp công nghệ mới giúp cải thiện quản lý dữ liệu, hỗ trợ ra quyết định chính sách dựa trên dữ liệu có cấu trúc và liên kết.

Câu hỏi thường gặp

  1. Web ngữ nghĩa là gì và tại sao lại quan trọng trong quản lý dữ liệu bệnh nhân COVID-19?
    Web ngữ nghĩa là công nghệ mở rộng Web hiện tại, cho phép mô tả dữ liệu với ngữ nghĩa rõ ràng để máy tính có thể hiểu và xử lý. Trong quản lý bệnh nhân COVID-19, nó giúp liên kết và truy vấn dữ liệu phức tạp như thông tin cá nhân, lịch trình di chuyển một cách chính xác và hiệu quả hơn.

  2. Làm thế nào để dữ liệu bệnh nhân được chuyển đổi sang định dạng RDF?
    Dữ liệu thô như Excel được xử lý bằng thư viện Jena trong Java để tạo mô hình RDF, biểu diễn thông tin dưới dạng bộ ba (subject, predicate, object), giúp dữ liệu có cấu trúc và dễ dàng truy vấn bằng SPARQL.

  3. OpenStreetMap có vai trò gì trong ứng dụng này?
    OpenStreetMap cung cấp dữ liệu không gian địa lý mở, giúp hiển thị trực quan các địa điểm liên quan đến bệnh nhân COVID-19, hỗ trợ người dùng theo dõi lịch trình di chuyển và đánh giá nguy cơ lây nhiễm tại các khu vực cụ thể.

  4. SPARQL là gì và nó được sử dụng như thế nào trong hệ thống?
    SPARQL là ngôn ngữ truy vấn dữ liệu RDF, cho phép truy xuất thông tin dựa trên các mẫu bộ ba. Trong hệ thống, SPARQL được sử dụng để tìm kiếm thông tin bệnh nhân, lịch trình di chuyển và các mối quan hệ liên quan một cách nhanh chóng và chính xác.

  5. Hệ thống có thể mở rộng và áp dụng cho các dịch bệnh khác không?
    Có, kiến trúc Web ngữ nghĩa và mô hình dữ liệu RDF có tính mở rộng cao, có thể áp dụng cho quản lý dữ liệu các dịch bệnh khác hoặc các lĩnh vực y tế khác, giúp tăng cường khả năng quản lý và truy xuất thông tin.

Kết luận

  • Luận văn đã xây dựng thành công ứng dụng hỗ trợ tìm kiếm thông tin bệnh nhân COVID-19 dựa trên công nghệ Web ngữ nghĩa và OpenStreetMap, nâng cao hiệu quả truy xuất và quản lý dữ liệu.
  • Việc chuyển đổi dữ liệu sang định dạng RDF và sử dụng ngôn ngữ truy vấn SPARQL giúp truy vấn nhanh, chính xác và có ngữ nghĩa rõ ràng.
  • Tích hợp dữ liệu không gian địa lý từ OpenStreetMap cung cấp khả năng hiển thị trực quan, hỗ trợ công tác truy vết và phòng chống dịch.
  • Giao diện Web thân thiện, dễ sử dụng, phù hợp với nhu cầu của cán bộ y tế và người dân.
  • Đề xuất mở rộng dữ liệu, tích hợp thời gian thực và tăng cường bảo mật là hướng phát triển tiếp theo nhằm nâng cao tính ứng dụng và hiệu quả của hệ thống.

Để tiếp tục phát triển, các nhà nghiên cứu và đơn vị quản lý nên phối hợp triển khai mở rộng dữ liệu, hoàn thiện giao diện và tích hợp thêm các nguồn dữ liệu liên quan. Hành động ngay hôm nay để ứng dụng công nghệ Web ngữ nghĩa trong quản lý dịch bệnh sẽ góp phần quan trọng vào công tác phòng chống COVID-19 và các dịch bệnh trong tương lai.