Tổng quan nghiên cứu

Số hóa phiếu xét nghiệm đóng vai trò quan trọng trong việc xử lý và lưu trữ dữ liệu y tế, đặc biệt trong bối cảnh dịch COVID-19 diễn biến phức tạp với hơn 4 triệu ca nhiễm tại Việt Nam tính đến năm 2022. Việc số hóa giúp giảm tải công tác nhập liệu thủ công, nâng cao hiệu quả quản lý và truy xuất thông tin bệnh nhân. Mục tiêu nghiên cứu của luận văn là phát triển một công cụ số hóa phiếu xét nghiệm COVID-19 dựa trên kỹ thuật trí tuệ nhân tạo (AI), nhằm tự động nhận dạng và trích xuất thông tin từ phiếu xét nghiệm dưới dạng ảnh sang dữ liệu số. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ 500 mẫu phiếu xét nghiệm COVID-19 và bộ dữ liệu ICDAR 2013 gồm 3.422 ảnh dùng cho nhận dạng ảnh chứa văn bản, cùng 344 mẫu ảnh dùng cho nhận dạng ký tự. Nghiên cứu được thực hiện tại Trường Đại học Công nghiệp TP. Hồ Chí Minh trong khoảng thời gian từ tháng 8/2021 đến tháng 2/2022. Kết quả nghiên cứu góp phần giảm thiểu sai sót nhập liệu, tiết kiệm thời gian xử lý và nâng cao độ chính xác trong quản lý dữ liệu y tế, đồng thời hỗ trợ công tác phòng chống dịch bệnh hiệu quả hơn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba lý thuyết và mô hình chính trong lĩnh vực học sâu và nhận dạng ảnh:

  • Mô hình YOLOv4 (You Only Look Once version 4): Đây là mô hình nhận dạng đối tượng nhanh và chính xác, được sử dụng để phát hiện các đối tượng quan trọng trên phiếu xét nghiệm như mã ID, tên xét nghiệm, phương pháp và kết quả. YOLOv4 sử dụng kiến trúc CSPDarknet53 làm backbone, kết hợp các kỹ thuật như CutMix, Mosaic data augmentation và Mish activation để tăng độ chính xác và khả năng tổng quát của mô hình.

  • Mạng CTPN (Connectionist Text Proposal Network): Mạng này chuyên nhận diện các vùng chứa văn bản trong ảnh. CTPN chia nhỏ ảnh thành các proposal nhỏ, sử dụng Bi-directional LSTM để kết nối các vùng văn bản liên tiếp, giúp phát hiện chính xác các vùng chứa chữ trong điều kiện phức tạp như ảnh thiếu sáng hoặc văn bản nhỏ.

  • Transformer OCR: Phương pháp nhận dạng ký tự quang học dựa trên kiến trúc Transformer, bao gồm encoder và decoder với cơ chế multi-head attention và positional encoding. Transformer OCR khắc phục nhược điểm của mô hình CNN-LSTM truyền thống, cho phép huấn luyện nhanh hơn và nhận dạng chính xác hơn nhờ khả năng xử lý song song và chú ý ngữ nghĩa trong câu.

Ba khái niệm chính được sử dụng trong nghiên cứu gồm: nhận dạng đối tượng (object detection), nhận dạng vùng chứa văn bản (text detection), và nhận dạng ký tự quang học (optical character recognition - OCR).

Phương pháp nghiên cứu

Nguồn dữ liệu chính bao gồm 500 mẫu phiếu xét nghiệm COVID-19 thu thập từ mạng Internet, bộ dữ liệu ICDAR 2013 với 3.422 ảnh dùng cho huấn luyện CTPN, và 344 mẫu ảnh dùng cho huấn luyện Transformer OCR. Phương pháp chọn mẫu là thu thập dữ liệu thực tế kết hợp với kỹ thuật tăng cường dữ liệu (data augmentation) như CutMix và Mosaic để mở rộng tập huấn luyện, giúp mô hình học được đa dạng đặc trưng.

Phương pháp phân tích gồm ba bước chính:

  1. Phát hiện đối tượng trên phiếu xét nghiệm: Sử dụng YOLOv4 để xác định vị trí và phân loại các đối tượng quan trọng trên phiếu như ID, tên xét nghiệm, phương pháp và kết quả.

  2. Phát hiện vùng chứa văn bản: Áp dụng CTPN để trích xuất các vùng ảnh chứa văn bản từ các đối tượng đã được phát hiện.

  3. Nhận dạng ký tự: Sử dụng Transformer OCR để chuyển đổi ảnh văn bản thành chuỗi ký tự số hóa.

Quá trình nghiên cứu được thực hiện trong vòng 6 tháng, từ tháng 8/2021 đến tháng 2/2022, tại Trường Đại học Công nghiệp TP. Hồ Chí Minh, sử dụng máy tính cấu hình GPU 1080ti hoặc 2080ti để huấn luyện các mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phát hiện đối tượng bằng YOLOv4: Mô hình đạt độ chính xác trung bình (mAP) từ 38% đến 44% trên tập dữ liệu phiếu xét nghiệm, với tốc độ xử lý từ 60 đến 120 khung hình mỗi giây, nhanh gấp đôi so với các mô hình như EfficientDet và tăng 10% độ chính xác so với YOLOv3.

  2. Khả năng nhận diện vùng văn bản của CTPN: Trên bộ dữ liệu ICDAR 2013, CTPN đạt độ chính xác (Precision) khoảng 82%, độ bao phủ (Recall) 73%, và F-score 77%, cho thấy khả năng phát hiện vùng chứa văn bản hiệu quả ngay cả trong điều kiện ảnh thiếu sáng hoặc văn bản kích thước nhỏ.

  3. Chính xác nhận dạng ký tự bằng Transformer OCR: Mô hình Transformer OCR cho kết quả nhận dạng ký tự tiếng Việt với độ chính xác cao, giảm thời gian huấn luyện so với mô hình CNN-LSTM truyền thống nhờ khả năng xử lý song song và cơ chế attention.

  4. Tích hợp hệ thống số hóa: Kết quả thực nghiệm cho thấy hệ thống số hóa phiếu xét nghiệm COVID-19 tự động giúp giảm thiểu sai sót nhập liệu thủ công, tiết kiệm thời gian xử lý và tăng khả năng truy xuất dữ liệu nhanh chóng.

Thảo luận kết quả

Nguyên nhân chính giúp YOLOv4 đạt hiệu quả cao là nhờ kiến trúc CSPDarknet53 và các kỹ thuật tăng cường dữ liệu như CutMix và Mosaic, giúp mô hình học được đa dạng đặc trưng và tránh overfitting. So với các nghiên cứu trước đây sử dụng YOLOv3, kết quả của YOLOv4 vượt trội về cả tốc độ và độ chính xác, phù hợp với yêu cầu xử lý thời gian thực trong môi trường y tế.

CTPN thể hiện ưu thế trong việc phát hiện vùng văn bản nhỏ và phức tạp nhờ cơ chế chia nhỏ ảnh thành các proposal và sử dụng mạng LSTM để kết nối các vùng văn bản liên tiếp. Kết quả này tương đồng với các báo cáo ngành về hiệu quả của CTPN trên bộ dữ liệu ICDAR 2013.

Transformer OCR khắc phục được nhược điểm của mô hình CNN-LSTM truyền thống như thời gian huấn luyện dài và khả năng ghi nhớ ngữ nghĩa kém, nhờ cơ chế multi-head attention và positional encoding. Điều này giúp tăng độ chính xác nhận dạng ký tự tiếng Việt, một ngôn ngữ có nhiều dấu và biến thể phức tạp.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác và tốc độ xử lý của YOLOv4 với các mô hình khác, bảng kết quả đánh giá CTPN trên các bộ dữ liệu chuẩn, và biểu đồ loss trong quá trình huấn luyện Transformer OCR để minh họa sự hội tụ của mô hình.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống số hóa phiếu xét nghiệm tại các cơ sở y tế: Áp dụng công cụ số hóa tự động để giảm tải công việc nhập liệu thủ công, nâng cao hiệu quả quản lý dữ liệu bệnh nhân. Thời gian thực hiện trong vòng 6 tháng, chủ thể là các bệnh viện và trung tâm y tế.

  2. Mở rộng tập dữ liệu huấn luyện: Thu thập thêm mẫu phiếu xét nghiệm đa dạng từ nhiều địa phương để cải thiện độ chính xác và khả năng tổng quát của mô hình. Thời gian thực hiện liên tục, chủ thể là các nhóm nghiên cứu và đơn vị y tế.

  3. Tích hợp hệ thống với cơ sở dữ liệu quản lý y tế: Kết nối công cụ số hóa với hệ thống quản lý bệnh viện để tự động cập nhật và truy xuất dữ liệu, giúp bác sĩ và nhân viên y tế dễ dàng theo dõi tình trạng bệnh nhân. Thời gian thực hiện 3-4 tháng, chủ thể là phòng công nghệ thông tin bệnh viện.

  4. Đào tạo nhân viên y tế sử dụng công cụ: Tổ chức các khóa đào tạo để nhân viên y tế làm quen và vận hành hệ thống số hóa hiệu quả, đảm bảo khai thác tối đa lợi ích của công nghệ. Thời gian thực hiện 1-2 tháng, chủ thể là các trung tâm đào tạo và bệnh viện.

Đối tượng nên tham khảo luận văn

  1. Nhân viên y tế và quản lý bệnh viện: Giúp hiểu rõ về công nghệ số hóa phiếu xét nghiệm, từ đó áp dụng vào công tác quản lý và lưu trữ dữ liệu bệnh nhân, giảm thiểu sai sót và tăng hiệu quả công việc.

  2. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Trí tuệ nhân tạo: Cung cấp kiến thức chuyên sâu về ứng dụng các mô hình học sâu như YOLOv4, CTPN và Transformer OCR trong lĩnh vực y tế, làm cơ sở phát triển các nghiên cứu tiếp theo.

  3. Chuyên gia phát triển phần mềm y tế: Hướng dẫn xây dựng hệ thống tự động nhận dạng và số hóa dữ liệu y tế, giúp cải tiến các sản phẩm phần mềm quản lý bệnh viện và chăm sóc sức khỏe.

  4. Cơ quan quản lý y tế và chính sách: Cung cấp cơ sở khoa học để xây dựng các chính sách ứng dụng công nghệ AI trong quản lý dữ liệu y tế, nâng cao hiệu quả phòng chống dịch bệnh và chăm sóc sức khỏe cộng đồng.

Câu hỏi thường gặp

  1. Tại sao chọn YOLOv4 thay vì các phiên bản YOLO khác?
    YOLOv4 cung cấp sự cân bằng tốt giữa độ chính xác và tốc độ xử lý, đạt mAP từ 38% đến 44% với tốc độ 60-120 FPS, phù hợp cho ứng dụng thời gian thực trong y tế, vượt trội hơn YOLOv3 và các mô hình khác.

  2. CTPN có thể nhận diện văn bản trong điều kiện ảnh kém như thế nào?
    CTPN hoạt động hiệu quả trên ảnh thiếu sáng và văn bản nhỏ nhờ cơ chế chia nhỏ vùng văn bản và sử dụng mạng LSTM để kết nối các proposal, đạt F-score khoảng 77% trên bộ dữ liệu chuẩn ICDAR 2013.

  3. Transformer OCR có ưu điểm gì so với mô hình CNN-LSTM truyền thống?
    Transformer OCR cho phép huấn luyện nhanh hơn nhờ khả năng xử lý song song, đồng thời cải thiện độ chính xác nhận dạng ký tự nhờ cơ chế multi-head attention và positional encoding, giúp hiểu ngữ nghĩa tốt hơn.

  4. Làm thế nào để mở rộng ứng dụng số hóa phiếu xét nghiệm cho các loại xét nghiệm khác?
    Có thể thu thập thêm dữ liệu mẫu đa dạng, huấn luyện lại mô hình với các nhãn mới và tích hợp thêm các bước tiền xử lý phù hợp để mở rộng sang các loại phiếu xét nghiệm khác ngoài COVID-19.

  5. Hệ thống số hóa có thể tích hợp với các phần mềm quản lý bệnh viện hiện tại không?
    Có thể tích hợp thông qua API hoặc Web Service, cho phép tự động cập nhật dữ liệu số hóa vào cơ sở dữ liệu quản lý bệnh viện, giúp đồng bộ và nâng cao hiệu quả quản lý thông tin bệnh nhân.

Kết luận

  • Luận văn đã phát triển thành công công cụ số hóa phiếu xét nghiệm COVID-19 sử dụng kỹ thuật trí tuệ nhân tạo, bao gồm YOLOv4, CTPN và Transformer OCR.
  • Mô hình YOLOv4 đạt độ chính xác mAP từ 38% đến 44% với tốc độ xử lý cao, phù hợp ứng dụng thực tế.
  • CTPN và Transformer OCR giúp nhận diện vùng văn bản và ký tự với độ chính xác cao, giảm thiểu sai sót nhập liệu thủ công.
  • Hệ thống góp phần nâng cao hiệu quả quản lý dữ liệu y tế, hỗ trợ công tác phòng chống dịch bệnh và chăm sóc sức khỏe cộng đồng.
  • Các bước tiếp theo bao gồm mở rộng dữ liệu huấn luyện, tích hợp hệ thống vào môi trường y tế thực tế và đào tạo nhân viên vận hành.

Quý độc giả và các đơn vị quan tâm được khuyến khích áp dụng và phát triển tiếp công nghệ số hóa phiếu xét nghiệm nhằm nâng cao chất lượng quản lý y tế trong thời đại chuyển đổi số.