Luận văn xây dựng mô hình AI tối ưu hóa loại bỏ định danh báo cáo y khoa

Luận văn thạc sĩ về xây dựng mô hình trí tuệ nhân tạo để loại bỏ thông tin định danh trong báo cáo y khoa, ứng dụng Deep Learning và NER.

Người đăng

Ẩn danh

Thể loại

Bài báo cáo kết thúc khóa học Thạc sĩ Công nghệ Thông tin

2024

75
0
0

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan Tại sao cần Mô hình AI loại bỏ thông tin định danh báo cáo y khoa

Trong kỷ nguyên số hóa y tế, việc thu thập và lưu trữ hồ sơ bệnh án điện tử ngày càng phổ biến. Tuy nhiên, đi kèm với tiện ích là mối lo ngại sâu sắc về bảo mật dữ liệu y tế. Báo cáo y khoa chứa đựng những thông tin nhạy cảm và riêng tư của bệnh nhân, từ tên tuổi, địa chỉ, số điện thoại đến các chi tiết bệnh lý cá nhân. Việc để lộ những thông tin này có thể dẫn đến hậu quả nghiêm trọng về pháp lý, đạo đức và gây mất lòng tin từ phía người bệnh. Do đó, nhu cầu loại bỏ thông tin định danh báo cáo y khoa trở nên cấp thiết. Đây không chỉ là một yêu cầu tuân thủ các quy định pháp luật như HIPAA tại Hoa Kỳ mà còn là nền tảng để khai thác giá trị tiềm ẩn từ dữ liệu y tế cho nghiên cứu và phát triển y học mà không xâm phạm quyền riêng tư. Các phương pháp truyền thống thường tốn kém, không hiệu quả và dễ mắc lỗi. Vì vậy, ứng dụng AI y khoa trong việc ẩn danh hóa dữ liệu y tế đang mở ra một hướng đi mới đầy hứa hẹn. Công nghệ trí tuệ nhân tạo y tế, đặc biệt là các mô hình AI tiên tiến, có khả năng tự động hóa và tối ưu hóa quá trình này, đảm bảo tính chính xác và hiệu quả cao hơn, đồng thời giảm thiểu rủi ro con người. Việc phát triển một mô hình AI loại bỏ thông tin định danh báo cáo y khoa không chỉ giải quyết bài toán bảo mật mà còn thúc đẩy việc chia sẻ dữ liệu an toàn cho mục đích học thuật và cải tiến dịch vụ chăm sóc sức khỏe. Nghiên cứu sâu rộng về phương pháp AI ẩn danh hóa dữ liệu y tế sẽ giúp ngành y tế tiến xa hơn trong việc cân bằng giữa đổi mới và bảo vệ quyền riêng tư cá nhân.

1.1. Tầm quan trọng của bảo mật dữ liệu y tế trong kỷ nguyên số

Sự phát triển của y học số đã biến dữ liệu y tế trở thành tài sản quý giá, đồng thời cũng là mục tiêu hấp dẫn cho các cuộc tấn công mạng. Bảo mật dữ liệu y tế không chỉ là trách nhiệm pháp lý mà còn là yêu cầu đạo đức. Mỗi bản hồ sơ bệnh án điện tử chứa đựng thông tin nhận dạng cá nhân (PII - Personally Identifiable Information) có thể bị lạm dụng nếu không được bảo vệ đúng cách. Việc lộ lọt thông tin có thể dẫn đến hành vi gian lận bảo hiểm, phân biệt đối xử hoặc thậm chí là đánh cắp danh tính. Các tổ chức y tế trên toàn cầu đang phải đối mặt với áp lực ngày càng tăng từ các quy định nghiêm ngặt về quyền riêng tư, chẳng hạn như HIPAA (Health Insurance Portability and Accountability Act) tại Hoa Kỳ, GDPR (General Data Protection Regulation) ở Châu Âu, và các quy định tương tự tại Việt Nam. Tuân thủ những quy định này đòi hỏi một cơ chế mạnh mẽ để xử lý và bảo vệ dữ liệu, trong đó ẩn danh hóa dữ liệu y tế là một bước then chốt. Việc sử dụng mô hình AI loại bỏ thông tin định danh báo cáo y khoa mang lại một giải pháp hiệu quả để đáp ứng các yêu cầu này, giảm thiểu rủi ro và tăng cường niềm tin của bệnh nhân vào hệ thống y tế số hóa.

1.2. Tại sao cần loại bỏ thông tin định danh trong báo cáo y khoa

Nhu cầu loại bỏ thông tin định danh báo cáo y khoa phát sinh từ nhiều yếu tố thiết yếu. Thứ nhất, để tuân thủ các quy định pháp luật. Nếu không có quá trình ẩn danh hóa, việc chia sẻ dữ liệu cho nghiên cứu, phân tích hoặc đào tạo sẽ bị hạn chế nghiêm ngặt, gây cản trở sự tiến bộ y học. Thứ hai, dữ liệu y tế đã được ẩn danh có thể được sử dụng để phát triển các mô hình dự đoán bệnh tật, cải thiện phác đồ điều trị và tối ưu hóa quy trình chăm sóc sức khỏe mà không lo ngại về quyền riêng tư. Thứ ba, các báo cáo y khoa thô chứa đựng quá nhiều thông tin nhận dạng, gây khó khăn cho việc phân tích dữ liệu lớn. Việc ẩn danh hóa dữ liệu y tế giúp tạo ra các tập dữ liệu sạch, có cấu trúc tốt hơn, phù hợp cho việc huấn luyện mô hình AI và thực hiện các phân tích thống kê chuyên sâu. Bằng cách loại bỏ các yếu tố nhận dạng như tên, địa chỉ, ngày sinh chính xác, số an sinh xã hội, v.v., mô hình AI loại bỏ thông tin định danh báo cáo y khoa cho phép các nhà nghiên cứu và nhà phát triển khai thác kho tàng dữ liệu khổng lồ này một cách an toàn và có đạo đức, thúc đẩy ứng dụng AI y khoa rộng rãi hơn.

II. Thách thức lớn khi bảo mật dữ liệu Giải pháp AI cho vấn đề ẩn danh hóa

Việc bảo vệ thông tin cá nhân của bệnh nhân là một trong những thách thức nan giải nhất của ngành y tế hiện đại. Mặc dù có nhiều nỗ lực, rủi ro về rò rỉ dữ liệu vẫn luôn hiện hữu, kéo theo những hậu quả nghiêm trọng. Các phương pháp ẩn danh hóa dữ liệu y tế truyền thống, dù là thủ công hay bán tự động, thường gặp phải những hạn chế đáng kể về hiệu quả và khả năng mở rộng. Điều này càng làm nổi bật tầm quan trọng của việc tìm kiếm các giải pháp tiên tiến hơn. Việc áp dụng mô hình AI loại bỏ thông tin định danh báo cáo y khoa chính là lời giải cho những khó khăn này, mang lại khả năng xử lý lượng lớn dữ liệu một cách nhanh chóng và chính xác. Nghiên cứu của Nitcheu Monkam Junior (2024) tại IFI, Đại học Quốc gia Việt Nam, đã nhấn mạnh tầm quan trọng của việc xây dựng một mô hình trí tuệ nhân tạo để tối ưu hóa việc loại bỏ thông tin định danh trong các báo cáo y khoa nhằm vượt qua những thách thức hiện tại. Việc phát triển một giải pháp tự động, mạnh mẽ và đáng tin cậy không chỉ giúp các tổ chức y tế tuân thủ quy định mà còn mở ra cánh cửa cho các nghiên cứu đột phá sử dụng dữ liệu y tế đã được ẩn danh an toàn.

2.1. Những rủi ro pháp lý và đạo đức khi lộ thông tin bệnh nhân

Việc lộ thông tin bệnh nhân không chỉ đơn thuần là một sự cố kỹ thuật mà còn là vi phạm nghiêm trọng các quy định pháp lý và chuẩn mực đạo đức. Về mặt pháp lý, các tổ chức y tế có thể phải đối mặt với các khoản phạt khổng lồ theo các đạo luật như HIPAA tại Hoa Kỳ, có thể lên đến hàng triệu đô la cho mỗi vụ vi phạm [14]. Ngoài ra, còn có rủi ro về các vụ kiện tập thể từ phía bệnh nhân, gây tổn hại danh tiếng và tài chính của tổ chức. Về mặt đạo đức, việc rò rỉ thông tin cá nhân có thể gây ra những hậu quả tâm lý nặng nề cho bệnh nhân, bao gồm lo lắng, sợ hãi và mất niềm tin vào hệ thống chăm sóc sức khỏe. Nó cũng có thể dẫn đến phân biệt đối xử trong công việc hoặc bảo hiểm. Việc không thể loại bỏ thông tin định danh báo cáo y khoa một cách hiệu quả đặt ra một rào cản lớn cho việc khai thác dữ liệu y tế cho mục đích nghiên cứu và phát triển. Vì vậy, một mô hình AI loại bỏ thông tin định danh báo cáo y khoa đáng tin cậy là cần thiết để giảm thiểu những rủi ro này và bảo vệ quyền riêng tư tối đa cho bệnh nhân.

2.2. Khó khăn trong việc ẩn danh hóa dữ liệu y khoa thủ công và tự động

Quá trình ẩn danh hóa dữ liệu y tế truyền thống gặp phải nhiều khó khăn đáng kể. Phương pháp thủ công, dựa vào con người để đọc và xóa thông tin nhận dạng, cực kỳ tốn thời gian, tốn kém và dễ mắc lỗi, đặc biệt với khối lượng dữ liệu khổng lồ. Con người có thể bỏ sót các thực thể nhạy cảm hoặc vô tình xóa thông tin không cần thiết, làm giảm giá trị của dữ liệu. Các phương pháp tự động ban đầu thường dựa trên các quy tắc cứng nhắc (rule-based), thiếu linh hoạt và không thể thích ứng với sự đa dạng của ngôn ngữ tự nhiên trong báo cáo y khoa. Chúng dễ bị đánh lừa bởi các cách diễn đạt khác nhau cho cùng một loại thông tin định danh. Sự phức tạp của ngôn ngữ y khoa, với thuật ngữ chuyên ngành, từ viết tắt, và cấu trúc câu phức tạp, đặt ra một thách thức lớn cho bất kỳ hệ thống tự động nào. Việc phát triển một mô hình AI loại bỏ thông tin định danh báo cáo y khoa đòi hỏi phải vượt qua những rào cản này, bằng cách tận dụng sức mạnh của Xử lý ngôn ngữ tự nhiên (NLP)Học sâu (Deep Learning) để nhận diện và loại bỏ thông tin nhạy cảm một cách chính xác và hiệu quả.

III. Phương pháp đột phá Cách mô hình AI loại bỏ thông tin định danh hiệu quả

Để giải quyết các thách thức của việc bảo mật thông tin bệnh nhân, các nhà nghiên cứu đã chuyển hướng sang trí tuệ nhân tạo y tế, đặc biệt là các mô hình AI tiên tiến. Mô hình AI loại bỏ thông tin định danh báo cáo y khoa không chỉ giúp tự động hóa quá trình này mà còn nâng cao độ chính xác và hiệu quả, vượt trội so với các phương pháp truyền thống. Cốt lõi của những mô hình này nằm ở khả năng phân tích và hiểu ngôn ngữ tự nhiên, cho phép chúng xác định và loại bỏ các thực thể nhạy cảm như tên bệnh nhân, địa chỉ, số điện thoại, ngày sinh, v.v. Việc triển khai các kỹ thuật từ Xử lý ngôn ngữ tự nhiên (NLP)Học sâu (Deep Learning) đã tạo ra bước đột phá, giúp các hệ thống AI không chỉ nhận diện thông tin định danh một cách hiệu quả mà còn có khả năng học hỏi và cải thiện theo thời gian. Nghiên cứu cho thấy rằng các kiến trúc phức tạp hơn như mạng nơ-ron hồi quy hoặc mô hình dựa trên Transformer đã đạt được kết quả ấn tượng trong việc ẩn danh hóa dữ liệu y tế [12]. Những tiến bộ này không chỉ hỗ trợ tuân thủ các quy định như HIPAA mà còn mở ra cơ hội lớn cho việc khai thác dữ liệu y tế đã được ẩn danh để thúc đẩy nghiên cứu và đổi mới y học an toàn.

3.1. Ứng dụng Xử lý ngôn ngữ tự nhiên NLP và Học sâu Deep Learning

Trong lĩnh vực loại bỏ thông tin định danh báo cáo y khoa, Xử lý ngôn ngữ tự nhiên (NLP) đóng vai trò trung tâm. Các kỹ thuật NLP cho phép máy tính phân tích, hiểu và tạo ra ngôn ngữ con người. Đối với dữ liệu y tế dạng văn bản, NLP giúp nhận diện các thực thể có tên (Named Entity Recognition - NER), tức là các cụm từ trong văn bản đại diện cho các thông tin cụ thể như tên người, địa điểm, ngày tháng, tổ chức. Các mô hình Deep Learning đã cách mạng hóa NER, vượt xa các phương pháp dựa trên quy tắc truyền thống. Kiến trúc như mạng nơ-ron hồi quy (RNNs), mạng nơ-ron tích chập (CNNs) và đặc biệt là các mô hình Transformer (ví dụ: BERT, GPT) có khả năng học các mối quan hệ ngữ cảnh phức tạp trong văn bản, từ đó xác định thông tin định danh với độ chính xác cao hơn. Tài liệu gốc cũng đề cập đến kiến trúc Deep Learning [12] và kiến trúc mô hình NeuronER [8], minh chứng cho tầm quan trọng của các phương pháp học sâu. Sự kết hợp giữa NLPHọc sâu cho phép mô hình AI loại bỏ thông tin định danh báo cáo y khoa không chỉ tìm và xóa bỏ thông tin mà còn hiểu được ngữ cảnh để tránh xóa nhầm hoặc bỏ sót.

3.2. Kiến trúc mô hình AI tối ưu cho việc desidentification

Việc xây dựng một mô hình AI tối ưu cho việc desidentification (loại bỏ thông tin định danh) đòi hỏi một kiến trúc mạnh mẽ và linh hoạt. Nghiên cứu đã chỉ ra nhiều cách tiếp cận hiệu quả. Một trong số đó là sử dụng các mô hình dựa trên quy tắc kết hợp với các kỹ thuật học máy. Tuy nhiên, các phương pháp hiện đại hơn thường tích hợp các mô hình dựa trên Học sâu, đặc biệt là các mô hình kiến trúc Deep Learning như BERT hoặc các mô hình LLMs (Large Language Models), đã được tinh chỉnh cho nhiệm vụ NER y tế. Tài liệu tham khảo đề cập đến kiến trúc cuối cùng với Spacy [22], cho thấy sự kết hợp của các thư viện NLP mạnh mẽ. Một phương pháp khác là sử dụng cách tiếp cận lai (hybrid approach) như đã được đề cập cho NER [16], kết hợp ưu điểm của các mô hình dựa trên từ điển, quy tắc và học máy. Điều này giúp tăng cường độ chính xác và khả năng thích ứng của hệ thống với các loại báo cáo y khoa đa dạng. Việc tối ưu hóa kiến trúc không chỉ tập trung vào độ chính xác mà còn vào tốc độ xử lý, đặc biệt quan trọng khi cần ẩn danh hóa dữ liệu y tế trên quy mô lớn. Một kiến trúc hiệu quả cho phép mô hình AI loại bỏ thông tin định danh báo cáo y khoa hoạt động nhanh chóng và đáng tin cậy.

IV. Đánh giá hiệu suất Ứng dụng thực tiễn của Mô hình AI loại bỏ thông tin định danh

Việc phát triển một mô hình AI loại bỏ thông tin định danh báo cáo y khoa không chỉ dừng lại ở lý thuyết mà còn cần được đánh giá nghiêm ngặt về hiệu suất trong các ứng dụng thực tiễn. Hiệu quả của mô hình được đo lường qua khả năng chính xác trong việc nhận diện và loại bỏ các thông tin định danh, cũng như tốc độ xử lý. Các nghiên cứu gần đây đã tập trung vào việc tận dụng sức mạnh của các mô hình ngôn ngữ lớn (LLMs), như ChatGPT và Gemini, để thực hiện nhiệm vụ này. Những mô hình này, với khả năng hiểu ngữ cảnh sâu rộng, đã cho thấy tiềm năng vượt trội trong việc ẩn danh hóa dữ liệu y tế. Tuy nhiên, việc lựa chọn và tinh chỉnh mô hình phù hợp, cùng với việc thiết kế prompt (lời nhắc) tối ưu, đóng vai trò then chốt trong việc đạt được kết quả mong muốn. Khả năng AI bảo vệ thông tin bệnh nhân trong báo cáo y khoa đã được cải thiện đáng kể nhờ những tiến bộ này, mang lại hy vọng về một tương lai mà dữ liệu y tế có thể được chia sẻ và sử dụng một cách an toàn cho các mục đích nghiên cứu và phát triển y tế. Việc so sánh hiệu suất giữa các phương pháp khác nhau, ví dụ giữa một hệ thống dựa trên Spacy + từ điển + quy tắc và một hệ thống sử dụng Gemini, cung cấp cái nhìn sâu sắc về những ưu điểm và hạn chế của từng cách tiếp cận.

4.1. Các mô hình ngôn ngữ lớn LLMs trong loại bỏ thông tin định danh

Sự xuất hiện của Các mô hình ngôn ngữ lớn (LLMs) như ChatGPT đã mở ra một kỷ nguyên mới cho việc loại bỏ thông tin định danh báo cáo y khoa. Khác với các mô hình truyền thống, LLMs có khả năng hiểu ngữ cảnh phức tạp và tạo ra văn bản linh hoạt, giúp chúng nhận diện và thay thế các thông tin định danh một cách tinh tế hơn. Tài liệu gốc đã minh họa các thành phần chính của mã API ChatGPT và các bước liên quan đến việc tạo ra một ví dụ ẩn danh [14], cũng như quá trình ẩn danh các ghi chú lâm sàng bằng API ChatGPT [14]. Mô hình AI loại bỏ thông tin định danh báo cáo y khoa dựa trên LLMs có thể được huấn luyện để phân biệt giữa thông tin nhạy cảm và không nhạy cảm, ngay cả khi chúng xuất hiện trong cùng một ngữ cảnh. Tuy nhiên, việc thiết kế một 'prompt' tối ưu là cực kỳ quan trọng để hướng dẫn LLM thực hiện nhiệm vụ ẩn danh hóa một cách chính xác. Tài liệu cũng đã trình bày mô hình prompt tối ưu được thiết kế để loại bỏ thông tin định danhkết quả loại bỏ thông tin định danh của các ghi chú lâm sàng với LLMs [14], cũng như ví dụ về các prompt được thiết kế kém [27], nhấn mạnh tầm quan trọng của việc tối ưu hóa đầu vào để đạt được kết quả tốt nhất.

4.2. Hiệu suất và thời gian phản hồi của mô hình AI

Đánh giá hiệu suất của mô hình AI loại bỏ thông tin định danh báo cáo y khoa không chỉ dựa vào độ chính xác mà còn phụ thuộc vào thời gian phản hồi. Đối với các ứng dụng thực tiễn, đặc biệt là trong môi trường y tế đòi hỏi xử lý nhanh chóng, tốc độ là yếu tố then chốt. Tài liệu nghiên cứu đã so sánh thời gian phản hồi của Spacy + từ điển + quy tắc [65] với thời gian phản hồi của phương pháp sử dụng Gemini 1 [65]. Kết quả cho thấy sự khác biệt đáng kể giữa các phương pháp. Mặc dù các mô hình dựa trên quy tắc có thể nhanh hơn trong một số trường hợp, nhưng các mô hình LLMs như Gemini, dù có thể mất nhiều thời gian hơn cho mỗi yêu cầu, lại mang lại độ chính xác cao hơn và khả năng xử lý ngữ cảnh tốt hơn. Việc tối ưu hóa kiến trúc mô hình AI và sử dụng các tài nguyên điện toán hiệu quả là cần thiết để cân bằng giữa độ chính xác và tốc độ. Mục tiêu là phát triển một mô hình AI loại bỏ thông tin định danh báo cáo y khoa có thể xử lý lượng lớn dữ liệu y tế một cách nhanh chóng, đồng thời duy trì độ tin cậy cao, đảm bảo lợi ích của việc loại bỏ thông tin định danh bằng AI trong y tế được phát huy tối đa.

V. Kết luận và Hướng phát triển Tương lai của AI trong bảo mật dữ liệu y tế

Sự phát triển của mô hình AI loại bỏ thông tin định danh báo cáo y khoa đã mở ra một kỷ nguyên mới cho bảo mật dữ liệu y tế và khả năng khai thác dữ liệu an toàn. Những tiến bộ trong Xử lý ngôn ngữ tự nhiên (NLP)Học sâu (Deep Learning) đã giúp khắc phục nhiều hạn chế của các phương pháp truyền thống, mang lại giải pháp hiệu quả và đáng tin cậy hơn cho việc ẩn danh hóa dữ liệu y tế. Từ việc tuân thủ các quy định pháp lý nghiêm ngặt như HIPAA đến việc thúc đẩy nghiên cứu y học dựa trên dữ liệu, vai trò của AI ngày càng trở nên không thể thiếu. Tuy nhiên, lĩnh vực này vẫn còn nhiều tiềm năng để phát triển và cải tiến. Việc tiếp tục nghiên cứu để tối ưu hóa hiệu suất, giảm thiểu sai sót và tăng cường khả năng thích ứng của các mô hình AI là rất quan trọng. Trí tuệ nhân tạo y tế không chỉ là công cụ để giải quyết các vấn đề hiện tại mà còn là động lực định hình tương lai của ngành chăm sóc sức khỏe, nơi dữ liệu được quản lý an toàn và hiệu quả, phục vụ tốt nhất cho bệnh nhân và cộng đồng y khoa.

5.1. Tiềm năng của trí tuệ nhân tạo y tế trong bảo mật dữ liệu

Tiềm năng của trí tuệ nhân tạo y tế trong việc tăng cường bảo mật dữ liệu y tế là vô cùng lớn. Ngoài việc loại bỏ thông tin định danh báo cáo y khoa, AI có thể được ứng dụng trong nhiều lĩnh vực khác như phát hiện các mối đe dọa an ninh mạng, phân tích hành vi người dùng để ngăn chặn truy cập trái phép, và phát triển các hệ thống quản lý quyền truy cập thông minh. Khả năng học hỏi liên tục của mô hình AI cho phép chúng thích nghi với các mối đe dọa mới và phức tạp, mang lại một lớp bảo vệ động cho dữ liệu bệnh nhân. Hơn nữa, AI có thể giúp tự động hóa việc kiểm toán dữ liệu và báo cáo tuân thủ, giảm gánh nặng hành chính cho các tổ chức y tế. Việc tích hợp sâu rộng ứng dụng AI y khoa vào các hệ thống quản lý thông tin bệnh viện sẽ tạo ra một môi trường dữ liệu an toàn hơn, nơi thông tin có giá trị có thể được khai thác mà không làm tổn hại đến quyền riêng tư cá nhân.

5.2. Hướng phát triển của mô hình AI loại bỏ thông tin định danh báo cáo y khoa

Tương lai của mô hình AI loại bỏ thông tin định danh báo cáo y khoa sẽ tập trung vào một số hướng chính. Thứ nhất, cải thiện độ chính xác và khả năng thích ứng với các ngôn ngữ và định dạng báo cáo y khoa đa dạng. Điều này đòi hỏi các tập dữ liệu huấn luyện lớn hơn, chất lượng cao hơn và các kỹ thuật tinh chỉnh (fine-tuning) tiên tiến hơn cho mô hình Deep LearningLLMs. Thứ hai, nghiên cứu sẽ tập trung vào việc giảm thiểu 'rủi ro tái định danh' (re-identification risk), đảm bảo rằng thông tin đã ẩn danh không thể được liên kết ngược trở lại với cá nhân. Thứ ba, phát triển các giải pháp tích hợp AI vào quy trình làm việc hiện có của các cơ sở y tế một cách liền mạch, từ việc nhập liệu đến chia sẻ dữ liệu. Hướng đi quan trọng khác là phát triển các mô hình AI loại bỏ thông tin định danh báo cáo y khoa có khả năng giải thích được (explainable AI - XAI), giúp người dùng hiểu cách AI đưa ra quyết định, từ đó tăng cường niềm tin và khả năng kiểm soát. Việc tiếp tục nghiên cứu và hợp tác giữa các nhà khoa học máy tính, chuyên gia y tế và các nhà làm luật sẽ là chìa khóa để hiện thực hóa toàn bộ tiềm năng của AI trong việc bảo vệ thông tin y tế.

14/03/2026

Trích đoạn nội dung tài liệu

UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL NITCHEU MONKAM JUNIOR CONSTRUCTION DˆUN MODELE IA POUR OPTIMISER LA DESIDENTIFICATION DES RAPPORTS MEDICAUX XAY DUNG MOT MO HINH TRI TUE NHAN TAO DE TOI UU HOA VIỆC LOẠI BO THONG TIN ĐỊNH DANH TRONG CAC BAO CAO Y KHOA MEMOIRE DE FIN D’ETUDES EN MASTER INFORMATIQUE HANOI - 2024 UNIVERSITÉ NATIONALE DU VIETNAM, HANOÏ INSTITUT FRANCOPHONE INTERNATIONAL NITCHEU MONKAM JUNIOR CONSTRUCTION D’UN MODELE IA POUR OPTIMISER LA DESIDENTIFICATION DES RAPPORTS MEDICAUX XAY DUNG MOT MO HINH TRI TUE NHAN TAO DE TOI UU HOA VIEC LOAI BO THONG TIN DINH DANH TRONG CAC BAO CAO Y KHOA Spécialité : Systemes Intelligents et Multimédia Code : Programme Pilote MEMOIRE DE FIN D’ETUDES EN MASTER INFORMATIQUE Dr Tai Duy Nguyen, CTO a T&T, Société à responsabilité limité Software Engineering Manager a Segmed LEE HANOI - 2024 ATTESTATION SUR LˆHONNEUR Jˆatteste sur ’honneur que ce mémoire a été réalisé par moi-méme et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LOI CAM DOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết qua nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bat kỳ công trình nào khác.

Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguôn sốc. Signature de Pétudiant 49 NITCHEU MONKAM JUNIOR Auteur : Junior NITCHEU 3 Table des figures FIGURE 2-1: HISTORIQUE DE DEVELOPPEMENT DES METHODES DE DE- IDENTIFICATION CONFORMEMENT A LA HIPAA [14].--------<<<<5 10 FIGURE 2-2: ARCHITECTURE DEEP LEARNING [12] .--- <5 «=5 5+ ++++<<<s<<<s++2 13 FIGURE 2-3: ARCHITECTURE DU MODELE NEURONER [8] .------------ --- 17 FIGURE 2-4: APPROCHE HYBRIDE DE NER [16]|.----- 2-5555 <<<<‡<<<>ss<<e=s2 20 FIGURE 2-5: ARCHITECTURE FINALE AVEC SPACY.ccccccssssscesesseceeesseeecesseeseessaeees 22 FIGURE 2-6: LES PRINCIPAUX COMPOSANTS DU CODE DE L'API CHATGPT ET LES ETAPES IMPLIQUEES DANS LA GENERATION D'UN EXEMPLE ANONYMISE [14]. FIGURE 2-7:PROCESSUS D’ ANONYMISATION DES NOTES CLINIQUES A L'AIDE DE L'API CHATGPT [14]. 24 FIGURE 2-8: MODELE OPTIMAL DE PROMPT CONCU POUR LA DE-IDENTIFICATION 25 FIGURE 2-9:RESULTATS DE LA DE-IDENTIFICATION DES NOTES CLINIQUES AVEC LES LLMs (MODELES DE LANGAGE DE GRANDE TAILLE) [ 14].---- --- 25 FIGURE 2-10:PRESENTATION DE 4 EXEMPLES DE PROMPT MAL CONCUS.

27 FIGURE 3-1: STRUCTURE DU DATA-SET GENERE .ccssccessscessseeesecesecesseeesseeesaees 31 FIGURE 3-2: FLUX DE TRAITEMENT DES DONNEES .::ccessscessseeesseeesecesseeesseeessees 32 FIGURE 3-3: ARCHITECTURE SOLUTION SPACY + DICTIONNAIRE.- + 38 FIGURE 4-1 ETAPE DE CREATION D'UNE CLE API GEMINI.- 55 << <<++<5 54 FIGURE 4-2 RECUPERATION UNE CLE API DEPUIS UNE VARIABLE IĐĐN4I:(9))))9))/)506020 TT :£ŸỔỔỔ. 55 FIGURE 4-3 GESTION DES PARAMETRES DE DE-IDENTIFICATION ET DE- IDENTIFICATION AVEC GEMINI.cccccccsssscesessecesesseccessseeesesseeceesseecesssaeseessaeees 57 FIGURE 4-4 TEXTES DESIDENTIFIE AVEC FINE TUNING DE SPACY+DICTIONNAIRE+RULE BSED. 60 FIGURE 4-5 TEXTE DEDIDENTIFIE AVEC GEMINI 1.-- --«5++ +5 62 FIGURE 4-6 TEMPS DE REPONSE DE SPACY+DICTIONNAIRE+RULES BASED. 65 FIGURE 4-7 TEMPS DE REPONSE DE LA METHODE AVEC GEMINI 1.

65 Auteur : Junior NITCHEU 9 Remerciements Mes remerciements vont a lendroit d’un ensemble de personnes exceptionnelles sans qui la réalisation de ce mémoire n’aurait pas été possible. Qu’ elles trouvent ici l’expression de mes plus sincéres remerciements. Tout d’abord, je tiens à exprimer ma reconnaissance et mes remerciements envers 1’ AUF (Agence Universitaire Francophone) de m’avoir accordé une bourse d’études de Master dans un pays aussi merveilleux que le Vietnam. Je profite également de cette occasion pour remercier le personnel administratif de IFI qui nous a montré son professionnalisme dans certaines situations difficiles que nous avons traversé car notre promotion a subi de plein fouet les difficultés liées a la pandémie de la COVID19.

Je tiens également a manifester ma profonde gratitude et mon admiration a l'endroit de mes encadreurs et plus particulièrement 4 Dr Tuong Vinh HO qui a pu trouver quelques minutes de son temps précieux pour me donner quelques pistes de recherche importantes pour ce projet. En tant que responsable de notre formation, il a été un pilier important dans notre formation a travers non seulement des cours qu’il nous a transmis, mais aussi des conseils qu’il nous prodiguait a l'ensemble de notre promotion et 4 chaque étudiant individuellement. Je n’oublierai surtout pas de remercier le Docteur Simo Rodrigue Willy, médecin a l'Organisation Internationale pour les Migrations (OIM) du Vietnam a Hanoi qui m’a assisté lors de la création d’un data-set fictif pour ce projet. Enfin, je remercie grandement mes parents pour leur soutien sans faille et mes promotionnaires de cette formation a IFI, avec qui j’ai passé des moments inoubliables.

NITCHEU MONKAM JUNIOR Auteur : Junior NITCHEU 4 Résumé La dé-identification des données médicales est essentielle pour garantir la confidentialité des patients tout en permettant l'utilisation de ces données dans des recherches médicales et des applications innovantes. Ce mémoire explore diverses approches pour la dé-identification des rapports médicaux dans un contexte spécifique au Cameroun, un pays représentant une niche de données sous- exploitées. Apres avoir présenté l'état de l'art sur les méthodes existantes, nous avons développé des approches adaptées aux données camerounaises en utilisant des outils comme SpaCy comportant des modẻles tels que “en_core_web_lg” et “en_core_web_sm’’. Notre méthodologie a inclus la génération d'un data-set fictif reflétant les réalités locales et des techniques de fine-tuning appliquées sur nos données fictives au préalable annotées afin d’adapter les modéles aux entités spécifiques du contexte camerounais.

Nous avons utilisé des dictionnaires spécifiques qui ont été associé a des fine-tuning de modèles de Spacy dans le but améliorer la de-identification les valeurs complexes de certaines entités. Nous avons exploré la dé-identification avec des modèles avancés de LLM tel que Gemini 1. Les résultats montrent que les approches combinant SpaCy et des dictionnaires offrent une précision robuste et abordable. Toutefois, le modèle Gemini 1.5 Flash se distingue par ses performances exceptionnelles, atteignant un F1-Score moyen de 98,42 %.

Malgré son cott élevé, cette solution est idéale pour des taches nécessitant une précision critique. Ce mémoire met en lumiére les défis et opportunités liés a la dé-identification des données médicales dans un contexte africain, en posant les bases pour des recherches futures visant a développer des solutions adaptées a la diversité linguistique et culturelle locale. Mots clés : Dé-identification, données médicales, Cameroun, SpaCy, Gemini 1.5 Flash, intelligence artificielle, confidentialité. Auteur : Junior NITCHEU 5 Liste des Tableaux TABLEAU 2-1: RECAPITULATIF DES METHODES UTILISÉES DANS L'ETAT DE L’ ART.

TABLEAU 2-2: RESULTATS DE CHAQUE LABEL PHI PRESENT DANS LE JEU DE. 18 TABLEAU 3-1: COMPARAISON DES DIFFERENTES VERSIONS DE GOOGLE GEMINI. 45 TABLEAU 4-1: COMPARAISON ENTRE GEMINI 1.5 FLASH ET GEMINI 1. 52 TABLEAU 4-2: RESULTATS DES PERFORMANCES DE DE-IDENTIFICATION AVEC SPACY EN MODE ZERO SHOT.c:ccccsssssecseseceseseceessneeceseseesessseeeeeesseeeensaeees 59 TABLEAU 4-3: RESULTATS DES PERFORMANCES DE DE-IDENTIFICATION AVEC FINE- TUNING ET COMBINAISON AVEC UN DICTIONNAIRE.----«<+<++<+ 60 TABLEAU 4-4: RESULTATS DES PERFORMANCES DE DE-IDENTIFICATION AVEC 20000850.

61 TABLEAU 4-5: COMPARAISON DES RESULTATS DES PERFORMANCES DES IMJ33)):35)605589) 0540195507277. 63 TABLEAU 4-6 COMPARAISON DES TEMPS DE REPONSES DES DEUX PRINCIPALES \/39/995522777. 65 Auteur : Junior NITCHEU 10 2.4 INGENIERIE DES PROMPTS DANS LES METHODES BASEES SUR LES LLM.1 Rôle des prompts dans la đé-idenfifiCdfiOH.2 Conception dS POMPE .3 Avantages de l’ingénierie des PrOMPES. SG HH, 27 3 SOLUTION PROPOSEE ET CONTRIBUTION.1 GENERATION D’UN DATA-SET FICTIF RESPECTANT LE CONTEXTE CAMEROUNAIS.- 0G SH Họ TT và 29 3.1 Elément a prendre en compte pour générer le data-set.2 Constitution đụ AAta-Set .2 PRESENTATION DES TECHNIQUES UTILISEES .1 Présentation de SPAcy .2 Utilisation des dictionnaires pour les taches de dé-identification.

Combinaison de Spacy et du dictionnaire pour une meilleure dé- UAENTIPICATION.escccccessececenssceesssseeesesseeeseseeesssseeesesueeseseeecssessesseesaessseaesessagess 35 4 EXPERIMENTATION ET EVALUATION DES RÉSULTATS.1 DE-IDENTIFICATION AVEC SPACY ET UN DICTIONNAIRE.2 DE-IDENTIFICATION AVEC UN DICTIONNAIRE.2 Combinaison Spdcy et đÏCHOHHIT€.ằằàecSS cà sssseessees 50 4.- G- G1 nTH TH TH n nnrh 51 4.1 Choix de la version de Google Gemini pour la de-identification.2 De-identification avec Gemini 1.4 EVALUATION DES RESULTATS .1 Métriques d'évaluation et procède đévalÌuafiOH. Comparaison des différentes méthodes ufIÏiSéêS.3 Comparaison des temps de FẾDOHS€S. e5 55+ 64 5 CONCLUSION ET PERSPECTIVIES. G1 TH TH Tu TH TH HH ngà ó6 5.

Ăn TT HH 67 Auteur : Junior NITCHEU 8 Remerciements Mes remerciements vont a lendroit d’un ensemble de personnes exceptionnelles sans qui la réalisation de ce mémoire n’aurait pas été possible. Qu’ elles trouvent ici l’expression de mes plus sincéres remerciements. Tout d’abord, je tiens à exprimer ma reconnaissance et mes remerciements envers 1’ AUF (Agence Universitaire Francophone) de m’avoir accordé une bourse d’études de Master dans un pays aussi merveilleux que le Vietnam. Je profite également de cette occasion pour remercier le personnel administratif de IFI qui nous a montré son professionnalisme dans certaines situations difficiles que nous avons traversé car notre promotion a subi de plein fouet les difficultés liées a la pandémie de la COVID19.

Je tiens également a manifester ma profonde gratitude et mon admiration a l'endroit de mes encadreurs et plus particulièrement 4 Dr Tuong Vinh HO qui a pu trouver quelques minutes de son temps précieux pour me donner quelques pistes de recherche importantes pour ce projet. En tant que responsable de notre formation, il a été un pilier important dans notre formation a travers non seulement des cours qu’il nous a transmis, mais aussi des conseils qu’il nous prodiguait a l'ensemble de notre promotion et 4 chaque étudiant individuellement. Je n’oublierai surtout pas de remercier le Docteur Simo Rodrigue Willy, médecin a l'Organisation Internationale pour les Migrations (OIM) du Vietnam a Hanoi qui m’a assisté lors de la création d’un data-set fictif pour ce projet. Enfin, je remercie grandement mes parents pour leur soutien sans faille et mes promotionnaires de cette formation a IFI, avec qui j’ai passé des moments inoubliables.

NITCHEU MONKAM JUNIOR Auteur : Junior NITCHEU 4 Abstract The de-identification of medical data is essential to ensure patient confidentiality while allowing the use of such data for medical research and innovative applications. This thesis explores various approaches to the de- identification of medical reports in a context specific to Cameroon, a country representing an underexploited data niche. After presenting the state-of-the-art on existing methods, we developed approaches adapted to Cameroonian data using tools like SpaCy with models such as “encore web lơ” and “en_core_web_sm”. Our methodology included generating a synthetic data-set reflecting local realities and applying fine-tuning techniques to our pre-annotated fictitious data in order to adapt the models to the specific entities of the Cameroonian context.

We also utilized specific dictionaries, which were combined with the fine-tuning of SpaCy models to improve the de- identification of complex entity values. Additionally, we explored de- identification using advanced LLM models such as Gemini 1. The results show that approaches combining SpaCy and dictionaries offer robust and cost-effective accuracy. However, the Gemini 1.5 Flash model stands out for its exceptional performance, achieving an average Fl-Score of 98.

Despite its high cost, this solution is ideal for tasks requiring critical precision. This thesis highlights the challenges and opportunities related to the de- identification of medical data in an African context, laying the groundwork for future research aimed at developing solutions tailored to local linguistic and cultural diversity. Keywords: De-identification, medical data, Cameroon, SpaCy, Gemini 1.5 Flash, artificial intelligence, confidentiality. Auteur : Junior NITCHEU 6 Table des figures FIGURE 2-1: HISTORIQUE DE DEVELOPPEMENT DES METHODES DE DE- IDENTIFICATION CONFORMEMENT A LA HIPAA [14].--------<<<<5 10 FIGURE 2-2: ARCHITECTURE DEEP LEARNING [12] .--- <5 «=5 5+ ++++<<<s<<<s++2 13 FIGURE 2-3: ARCHITECTURE DU MODELE NEURONER [8] .------------ --- 17 FIGURE 2-4: APPROCHE HYBRIDE DE NER [16]|.----- 2-5555 <<<<‡<<<>ss<<e=s2 20 FIGURE 2-5: ARCHITECTURE FINALE AVEC SPACY.ccccccssssscesesseceeesseeecesseeseessaeees 22 FIGURE 2-6: LES PRINCIPAUX COMPOSANTS DU CODE DE L'API CHATGPT ET LES ETAPES IMPLIQUEES DANS LA GENERATION D'UN EXEMPLE ANONYMISE [14].

FIGURE 2-7:PROCESSUS D’ ANONYMISATION DES NOTES CLINIQUES A L'AIDE DE L'API CHATGPT [14]. 24 FIGURE 2-8: MODELE OPTIMAL DE PROMPT CONCU POUR LA DE-IDENTIFICATION 25 FIGURE 2-9:RESULTATS DE LA DE-IDENTIFICATION DES NOTES CLINIQUES AVEC LES LLMs (MODELES DE LANGAGE DE GRANDE TAILLE) [ 14].---- --- 25 FIGURE 2-10:PRESENTATION DE 4 EXEMPLES DE PROMPT MAL CONCUS.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ