Tổng quan nghiên cứu

Việc sử dụng thuốc viên trong chăm sóc sức khỏe ngày càng phổ biến, đặc biệt với nhóm người cao tuổi và bệnh nhân điều trị dài hạn. Theo ước tính, khoảng 1/5 tác dụng phụ do thuốc gây ra liên quan đến việc sử dụng sai thuốc tại nhà, với hơn 18 triệu người có thể sử dụng sai thuốc trị liệu tâm lý mỗi năm. Tại Hoa Kỳ, mỗi năm có hơn 7 triệu bệnh nhân bị ảnh hưởng và khoảng 7.000 người tử vong do lỗi sử dụng thuốc. Tình trạng này đặt ra nhu cầu cấp thiết về hệ thống phát hiện và nhận dạng hình dáng viên thuốc tự động nhằm giảm thiểu sai sót trong sử dụng thuốc, nâng cao chất lượng chăm sóc sức khỏe.

Luận văn tập trung nghiên cứu giải pháp phát hiện và nhận dạng hình dáng loại viên thuốc sử dụng công nghệ học sâu, đặc biệt là mô hình Mask R-CNN, trên bộ dữ liệu CURE gồm 8.973 hình ảnh của 196 loại viên thuốc. Mục tiêu chính là xây dựng hệ thống có khả năng nhận dạng chính xác, nhanh chóng và khách quan các viên thuốc trong điều kiện thực tế, hỗ trợ người dùng và nhân viên y tế. Phạm vi nghiên cứu bao gồm các phương pháp phân đoạn ảnh, nhận dạng đối tượng và thử nghiệm đánh giá trên bộ dữ liệu thực tế từ năm 2020 đến 2022 tại Việt Nam. Kết quả nghiên cứu góp phần nâng cao hiệu quả nhận dạng viên thuốc, giảm thiểu rủi ro do sử dụng sai thuốc, đồng thời mở ra hướng phát triển ứng dụng trí tuệ nhân tạo trong y tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học sâu trong lĩnh vực xử lý ảnh và nhận dạng đối tượng, bao gồm:

  • Mạng nơ-ron tích chập (Convolutional Neural Network - CNN): Là mô hình học sâu phổ biến trong phân tích hình ảnh, có khả năng trích xuất đặc trưng không gian hiệu quả. CNN gồm các lớp tích chập, gộp và kết nối đầy đủ, giúp nhận dạng các đặc điểm phức tạp của hình ảnh viên thuốc.

  • Mô hình Mask R-CNN: Là sự mở rộng của Faster R-CNN, thêm nhánh dự đoán mặt nạ phân đoạn từng đối tượng (instance segmentation) song song với nhánh phân loại và hồi quy hộp giới hạn. Mask R-CNN sử dụng kỹ thuật RoIAlign để căn chỉnh chính xác pixel, cải thiện độ chính xác phân đoạn từ 10% đến 50%. Mô hình này cho phép phát hiện và nhận dạng chính xác từng viên thuốc trong ảnh, kể cả khi có sự chồng lấp.

  • Các khái niệm chính:

    • Phân đoạn hình ảnh (Image Segmentation): Phân chia ảnh thành các vùng tương đồng để xác định đối tượng.
    • Phân đoạn từng đối tượng (Instance Segmentation): Phân đoạn và phân biệt từng cá thể trong ảnh.
    • Precision, Recall, F1 Score, IoU (Intersection over Union), mAP (mean Average Precision): Các chỉ số đánh giá hiệu quả mô hình phát hiện và nhận dạng.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Sử dụng bộ dữ liệu CURE với 8.973 hình ảnh viên thuốc thuộc 196 lớp, kích thước ảnh 2044×2044 pixel, có chú thích phân đoạn và nhãn dấu ấn trên viên thuốc, phù hợp với điều kiện thực tế người dùng cung cấp.

  • Phương pháp phân tích:

    • Tiền xử lý ảnh bao gồm điều chỉnh kích thước, lọc nhiễu, tăng cường dữ liệu bằng các kỹ thuật xoay, dịch chuyển, biến đổi phối cảnh để tăng độ đa dạng mẫu.
    • Áp dụng mô hình Mask R-CNN với backbone ResNet50/ResNet101 học chuyển giao từ bộ dữ liệu COCO để huấn luyện nhận dạng hình dáng viên thuốc.
    • So sánh kết quả với các phương pháp truyền thống như phân đoạn theo ngưỡng, watershed, phát hiện cạnh và đối sánh mẫu.
  • Timeline nghiên cứu:

    • Thu thập và xử lý dữ liệu: 6 tháng đầu năm 2021.
    • Xây dựng và huấn luyện mô hình: 6 tháng tiếp theo.
    • Thử nghiệm, đánh giá và hoàn thiện hệ thống: 6 tháng cuối năm 2021 đến đầu 2022.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận dạng: Mô hình Mask R-CNN đạt độ chính xác mAP khoảng 85% trên bộ dữ liệu CURE, vượt trội hơn so với các phương pháp truyền thống như watershed và phát hiện cạnh, chỉ đạt khoảng 60-70% độ chính xác.

  2. Hiệu quả phân đoạn: Mask R-CNN cải thiện đáng kể khả năng phân đoạn từng viên thuốc, đặc biệt trong các trường hợp viên thuốc chồng lấp hoặc có nền tương phản thấp, với chỉ số IoU trung bình đạt trên 0.75, cao hơn 20% so với các kỹ thuật phân đoạn truyền thống.

  3. Thời gian xử lý: Thời gian xử lý trung bình cho mỗi ảnh là khoảng 0.2 giây, nhanh hơn nhiều so với R-CNN (khoảng 47 giây) và Fast R-CNN (khoảng 2 giây), phù hợp với ứng dụng thực tế.

  4. So sánh với các nghiên cứu khác: Kết quả của luận văn tương đương hoặc vượt trội hơn các nghiên cứu gần đây sử dụng các mô hình CNN như VGG16, ResNet152, với ưu điểm là khả năng nhận dạng chính xác trong điều kiện ảnh thực tế có nhiều nhiễu và chồng lấp.

Thảo luận kết quả

Nguyên nhân chính giúp Mask R-CNN đạt hiệu quả cao là nhờ khả năng phân đoạn từng đối tượng riêng biệt, xử lý chính xác các vùng chồng lấp và sử dụng kỹ thuật RoIAlign để căn chỉnh pixel, giảm sai lệch trong quá trình trích xuất đặc trưng. Việc tăng cường dữ liệu và tiền xử lý ảnh cũng góp phần nâng cao khả năng tổng quát của mô hình khi áp dụng vào ảnh thực tế.

So với các phương pháp truyền thống như watershed hay phát hiện cạnh, Mask R-CNN không chỉ nhận dạng hình dạng mà còn phân đoạn chính xác từng viên thuốc, giảm thiểu sai sót do ảnh hưởng của nền và ánh sáng. Kết quả này phù hợp với các nghiên cứu quốc tế, đồng thời khẳng định tính khả thi của việc ứng dụng học sâu trong nhận dạng viên thuốc tại Việt Nam.

Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác (mAP) và thời gian xử lý giữa các mô hình, cũng như bảng thống kê IoU trung bình cho từng phương pháp phân đoạn, giúp minh họa rõ ràng ưu thế của Mask R-CNN.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống nhận dạng viên thuốc tự động: Áp dụng mô hình Mask R-CNN trong các ứng dụng di động và hệ thống quản lý thuốc tại bệnh viện, nhà thuốc nhằm hỗ trợ người dùng và nhân viên y tế nhận dạng nhanh chóng, chính xác. Thời gian thực hiện: 12 tháng; chủ thể: các đơn vị công nghệ y tế.

  2. Mở rộng bộ dữ liệu huấn luyện: Thu thập thêm hình ảnh viên thuốc trong nhiều điều kiện ánh sáng, nền khác nhau và các trường hợp viên thuốc bị chồng lấp để nâng cao khả năng tổng quát của mô hình. Thời gian: 6-9 tháng; chủ thể: nhóm nghiên cứu và các cơ sở y tế.

  3. Tích hợp nhận dạng đa đặc trưng: Kết hợp nhận dạng hình dạng với màu sắc, dấu ấn chữ viết trên viên thuốc để tăng độ chính xác và giảm nhầm lẫn giữa các loại thuốc có hình dạng tương tự. Thời gian: 9-12 tháng; chủ thể: nhóm phát triển phần mềm.

  4. Đào tạo và nâng cao nhận thức người dùng: Tổ chức các khóa đào tạo cho nhân viên y tế và người dùng cuối về cách sử dụng hệ thống nhận dạng tự động, đồng thời nâng cao nhận thức về tầm quan trọng của việc sử dụng thuốc đúng cách. Thời gian: liên tục; chủ thể: cơ quan y tế và tổ chức cộng đồng.

Đối tượng nên tham khảo luận văn

  1. Nhân viên y tế và dược sĩ: Hỗ trợ trong việc nhận dạng chính xác các loại viên thuốc, giảm thiểu sai sót trong kê đơn và cấp phát thuốc, nâng cao chất lượng chăm sóc bệnh nhân.

  2. Nhà phát triển phần mềm và công nghệ y tế: Cung cấp cơ sở lý thuyết và phương pháp kỹ thuật để phát triển các ứng dụng nhận dạng thuốc tự động, tích hợp trí tuệ nhân tạo trong y tế.

  3. Nhà nghiên cứu trong lĩnh vực học máy và xử lý ảnh: Tham khảo các mô hình học sâu hiện đại, kỹ thuật phân đoạn ảnh và ứng dụng thực tiễn trong lĩnh vực y tế, mở rộng nghiên cứu về nhận dạng đối tượng phức tạp.

  4. Cơ quan quản lý và chính sách y tế: Đánh giá hiệu quả công nghệ mới trong quản lý thuốc, xây dựng chính sách hỗ trợ ứng dụng trí tuệ nhân tạo nhằm nâng cao an toàn sử dụng thuốc trong cộng đồng.

Câu hỏi thường gặp

  1. Mask R-CNN là gì và tại sao được chọn cho bài toán nhận dạng viên thuốc?
    Mask R-CNN là mô hình học sâu mở rộng từ Faster R-CNN, thêm nhánh phân đoạn từng đối tượng giúp nhận dạng chính xác từng viên thuốc trong ảnh, kể cả khi chồng lấp. Mô hình này có độ chính xác cao và tốc độ xử lý nhanh, phù hợp với yêu cầu thực tế.

  2. Bộ dữ liệu CURE có điểm gì nổi bật?
    CURE chứa 8.973 hình ảnh viên thuốc thuộc 196 lớp, có chú thích phân đoạn và nhãn dấu ấn, ảnh có độ phân giải cao và đa dạng điều kiện ánh sáng, nền, sát với thực tế người dùng cung cấp, giúp huấn luyện mô hình hiệu quả hơn.

  3. Phương pháp truyền thống có thể áp dụng được không?
    Các phương pháp truyền thống như watershed, phát hiện cạnh hay đối sánh mẫu có ưu điểm đơn giản, nhưng thường không chính xác khi viên thuốc bị chồng lấp hoặc nền tương phản thấp, do đó không đáp ứng tốt yêu cầu thực tế.

  4. Làm thế nào để cải thiện độ chính xác của mô hình?
    Có thể tăng cường dữ liệu đa dạng, kết hợp nhận dạng đa đặc trưng (hình dạng, màu sắc, dấu ấn), tinh chỉnh kiến trúc mạng và tham số huấn luyện, đồng thời áp dụng các kỹ thuật tiền xử lý ảnh nâng cao.

  5. Ứng dụng thực tế của hệ thống này là gì?
    Hệ thống có thể được tích hợp vào ứng dụng di động giúp người dùng nhận dạng thuốc nhanh chóng, hỗ trợ nhân viên y tế trong quản lý thuốc, giảm thiểu sai sót và rủi ro do sử dụng sai thuốc, góp phần nâng cao an toàn và hiệu quả điều trị.

Kết luận

  • Luận văn đã phát triển thành công hệ thống phát hiện và nhận dạng hình dáng viên thuốc sử dụng mô hình Mask R-CNN trên bộ dữ liệu CURE với độ chính xác mAP đạt khoảng 85%.
  • Mô hình vượt trội hơn các phương pháp truyền thống về độ chính xác và khả năng xử lý các trường hợp viên thuốc chồng lấp, nền phức tạp.
  • Thời gian xử lý nhanh, phù hợp với ứng dụng thực tế trong y tế và hỗ trợ người dùng.
  • Đề xuất mở rộng bộ dữ liệu, tích hợp đa đặc trưng và triển khai ứng dụng thực tế để nâng cao hiệu quả.
  • Khuyến nghị các cơ quan y tế, nhà phát triển và nhà nghiên cứu tiếp tục phát triển và ứng dụng công nghệ học sâu trong quản lý và sử dụng thuốc an toàn.

Hành động tiếp theo: Triển khai thử nghiệm hệ thống trong môi trường thực tế, thu thập phản hồi người dùng để hoàn thiện và mở rộng ứng dụng. Để biết thêm chi tiết và hợp tác nghiên cứu, vui lòng liên hệ nhóm tác giả.