Tổng quan nghiên cứu

Cơ sở dữ liệu BioSecure được thu thập từ 11 trường đại học ở châu Âu trong 3 năm (2004-2007), bao gồm 3 phần: DS1 (971 người), DS2 (667 người) và DS3 (713 người). Tuy nhiên, cơ sở dữ liệu này chứa nhiều lỗi như dữ liệu trùng lặp, tệp không đọc được, thiếu dữ liệu, và sai tên tệp, cần được làm sạch trước khi phân phối cho cộng đồng nghiên cứu. Nghiên cứu này tập trung vào việc phát triển hệ thống phân phối dữ liệu sinh trắc học từ cơ sở dữ liệu BioSecure, đảm bảo dữ liệu không lỗi, cân bằng giới tính và nguồn gốc đại học, đồng thời đánh giá chất lượng của các cơ sở dữ liệu được phân phối. Nghiên cứu được thực hiện tại TELECOM & Management SudParis từ tháng 3 đến tháng 10 năm 2009. Các cơ sở dữ liệu được phân phối có chất lượng tốt với tỷ lệ lỗi bằng 0, kết quả đánh giá cho thấy cơ sở dữ liệu Iris-DS2 có EER=6.43% cho mắt trái và 8.15% cho mắt phải, Signature-DS2 có EER=5.10%, và Empreinte-DS2 có EER trung bình=4.38% cho cảm biến quang học.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Sinh trắc học là lĩnh vực xác thực và xác minh danh tính dựa trên đặc điểm vật lý hoặc hành vi của con người như iris, vân tay, chữ ký, khuôn mặt, giọng nói. Mô hình đánh giá DET (Detection Error Trade-off) thể hiện mối quan hệ giữa FRR (False Rejection Rate) và FAR (False Acceptance Rate) trong hệ thống nhận dạng. FRR là khả năng từ chối sai người dùng hợp lệ, FAR là khả năng chấp nhận kẻ mạo danh. Giá trị EER (Equal Error Rate) là điểm mà tại đó FRR bằng FAR, thể hiện hiệu suất tổng thể của hệ thống. Độ nét ảnh là độ rõ nét của chi tiết trong ảnh, được đo bằng phương pháp Gradient, so sánh độ trung bình gradient của ảnh gốc và ảnh làm mịn. Phân phối dữ liệu là quá trình phân chia lại dữ liệu của người trong cơ sở dữ liệu BioSecure theo các tiêu chí xác định để tạo ra cơ sở dữ liệu mới không lỗi và sẵn sàng sử dụng. Đánh giá dựa trên nội dung sử dụng các hệ thống nhận dạng tham chiếu để đánh giá chất lượng cơ sở dữ liệu, dựa trên kết quả nhận dạng thực tế.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu BioSecure được thu thập từ 11 trường đại học ở châu Âu, bao gồm 3 phần: DS1 (dữ liệu internet), DS2 (dữ liệu văn phòng), và DS3 (dữ liệu di động). Cỡ mẫu cho nghiên cứu là 210-240 người cho mỗi cơ sở dữ liệu được phân phối, tùy thuộc vào loại dữ liệu. Phương pháp chọn mẫu đảm bảo cân bằng giới tính (50% nam, 50% nữ) và cân bằng số người từ mỗi trường đại học, đồng thời đảm bảo mỗi người có định danh duy nhất trên tất cả các cơ sở dữ liệu được phân phối. Đối với phân phối dữ liệu, nghiên cứu xây dựng thuật toán tự động phát hiện lỗi (dữ liệu thiếu, dữ liệu trùng lặp, tệp rỗng, sai tên tệp), sau đó lựa chọn và định dạng lại dữ liệu. Đối với đánh giá dữ liệu, nghiên cứu sử dụng hai phương pháp - đánh giá dựa trên quan sát (đo độ nét ảnh) và đánh giá dựa trên nội dung (sử dụng các hệ thống nhận dạng tham chiếu: OSIRIS cho iris, NIST cho vân tay, GET-INT cho chữ ký). Đối với đánh giá độ nét, nghiên cứu áp dụng phương pháp Gradient với bộ lọc Sobel 3x3 và bộ lọc Gauss 3x3. Nghiên cứu được thực hiện trong 8 tháng (từ tháng 3 đến tháng 10 năm 2009), bao gồm 4 tháng đầu cho việc phân phối dữ liệu và 4 tháng sau cho việc đánh giá dữ liệu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hệ thống phân phối dữ liệu sinh trắc học đã được phát triển thành công, tạo ra 6 cơ sở dữ liệu mới từ cơ sở dữ liệu BioSecure gốc, bao gồm: Main-DS2 (210 người), Iris-DS2 (210 người), Signature-DS2+DS3 (210 DS2 + 240 DS3), Empreinte-DS2+DS3 (210 DS2 + 240 DS3), Multimodale-DS2 (210 người), Multimodale-DS3 (240 người). Tất cả các cơ sở dữ liệu này đều không chứa lỗi (tỷ lệ lỗi = 0%) và đảm bảo cân bằng giới tính (50% nam, 50% nữ).

Hệ thống đánh giá độ nét ảnh đã được phát triển và kiểm chứng với tỷ lệ không chắc chắn thấp (3.87% khi so sánh ảnh chụp bằng webcam và máy ảnh Canon, 13.55% khi so sánh ảnh có kiểm soát và không kiểm soát). Kết quả đánh giá độ nét cho thấy ảnh iris trong cơ sở dữ liệu Iris-DS2 có độ nét cao hơn 65.48% so với cơ sở dữ liệu ICE tham chiếu.

Kết quả đánh giá dựa trên nội dung cho thấy cơ sở dữ liệu Iris-DS2 có hiệu suất nhận dạng tốt với EER=6.43% cho mắt trái và 8.15% cho mắt phải, tốt hơn đáng kể so với cơ sở dữ liệu ICE (EER=25% cho mắt phải). Cơ sở dữ liệu Signature-DS2 có EER=5.10%, trong khi Signature-DS3 có EER=11.00%, cho thấy chất lượng dữ liệu chữ ký thu thập từ môi trường văn phòng tốt hơn từ thiết bị di động.

Đối với dữ liệu vân tay, cảm biến quang học cho kết quả tốt hơn cảm biến nhiệt với EER trung bình lần lượt là 4.38% và 10.33%. Ngón trỏ có kết quả nhận dạng tốt nhất (EER=3.33% cho cảm biến quang học), trong khi ngón cái có kết quả kém nhất (EER=4.88% cho cảm biến quang học). So sánh chéo giữa các loại cảm biến cho kết quả kém (EER>20%).

Thảo luận kết quả

Kết quả nghiên cứu cho thấy cơ sở dữ liệu DS2 (thu thập trong môi trường văn phòng) luôn cho kết quả tốt hơn DS3 (thu thập từ thiết bị di động). Điều này có thể giải thích bởi môi trường thu thập dữ liệu được kiểm soát tốt hơn trong trường hợp DS2, với ánh sáng ổn định và thiết bị chuyên dụng.

Khi so sánh với các cơ sở dữ liệu tham chiếu, các cơ sở dữ liệu được phân phối có chất lượng tốt nhưng không vượt trội. Ví dụ, cơ sở dữ liệu Iris-DS2 có EER cao hơn ICE (6.43% so với 5.00% cho mắt trái), nhưng vẫn tốt hơn nhiều so với các cơ sở dữ liệu vân tay và chữ ký.

Đáng chú ý, kết quả đánh giá độ nét ảnh và đánh giá dựa trên nội dung có mối tương quan nhất định. Cụ thể, dù ảnh iris trong Iris-DS2 có độ nét tổng thể thấp hơn ICE, nhưng vùng iris lại có độ nét cao hơn, và kết quả nhận dạng cũng tốt hơn. Điều này cho thấy chất lượng nhận dạng không chỉ phụ thuộc vào độ nét tổng thể của ảnh mà còn phụ thuộc vào chất lượng của vùng quan tâm.

Kết quả nghiên cứu cũng chỉ ra rằng việc lựa chọn loại cảm biến và vị trí sinh trắc học quan trọng đối với chất lượng nhận dạng. Cảm biến quang học cho kết quả tốt hơn cảm biến nhiệt, và ngón trỏ là vị trí dễ nhận dạng nhất trên bàn tay.

Các kết quả này có thể được trình bày qua biểu đồ so sánh EER giữa các cơ sở dữ liệu và các loại cảm biến khác nhau, hoặc bảng tổng hợp kết quả đánh giá cho từng loại sinh trắc học.

Đề xuất và khuyến nghị

Cải thiện thuật toán phát hiện lỗi trong dữ liệu sinh trắc học bằng cách phát triển các phương pháp tự động phát hiện video không có âm thanh, hình ảnh quá tối hoặc quá sáng. Việc này sẽ giúp giảm tỷ lệ lỗi xuống dưới 0.5% trong vòng 6 tháng tới, với sự tham gia của các nhà nghiên cứu trong phòng thí nghiệm.

Nâng cấp hệ thống đánh giá độ nét ảnh bằng cách áp dụng phương pháp Fréquentielle Locale Pondérée để thay thế phương pháp Gradient hiện tại. Mục tiêu là giảm tỷ lệ không chắc chắn xuống dưới 10% khi so sánh các cơ sở dữ liệu khác nhau, dự kiến hoàn thành trong 3 tháng với sự hỗ trợ của các chuyên gia xử lý ảnh.

Mở rộng đánh giá chất lượng cơ sở dữ liệu bằng cách kết hợp nhiều đặc trưng hơn ngoài độ nét ảnh, chẳng hạn như độ tương phản, độ chi tiết và độ đồng nhất của ánh sáng. Việc này sẽ cung cấp cái nhìn toàn diện hơn về chất lượng cơ sở dữ liệu và dự kiến hoàn thành trong 4 tháng bởi nhóm nghiên cứu sinh trắc học.

Đánh giá cơ sở dữ liệu Main-DS2 (hình ảnh bàn tay) chưa được thực hiện trong nghiên cứu hiện tại. Việc đánh giá này sẽ sử dụng các hệ thống nhận dạng bàn tay tham chiếu và dự kiến hoàn thành trong 2 tháng bởi các nhà nghiên cứu mới tham gia dự án.

Phát triển giao diện người dùng trực quan để phân phối và đánh giá dữ liệu sinh trắc học, giúp các nhà nghiên cứu không chuyên về kỹ thuật cũng có thể sử dụng dễ dàng. Giao diện này sẽ được phát triển trong 6 tháng bởi đội ngũ kỹ sư phần mềm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu sinh trắc học: Luận văn cung cấp phương pháp luận toàn diện về phân phối và đánh giá dữ liệu sinh trắc học, giúp các nhà nghiên cứu cải thiện chất lượng cơ sở dữ liệu trong các dự án của họ. Họ có thể áp dụng các thuật toán phát hiện lỗi và phương pháp đánh giá độ nét để tối ưu hóa cơ sở dữ liệu trước khi sử dụng cho nghiên cứu.

Nhà phát triển hệ thống nhận dạng sinh trắc học: Các kết quả đánh giá chất lượng cơ sở dữ liệu giúp nhà phát triển lựa chọn loại sinh trắc học và cảm biến phù hợp cho ứng dụng cụ thể. Ví dụ, họ có thể quyết định sử dụng cảm biến quang học thay vì cảm biến nhiệt cho vân tay dựa trên kết quả EER thấp hơn (4.38% so với 10.33%).

Giảng viên và sinh viên trong lĩnh vực khoa học máy tính và an ninh mạng: Luận văn cung cấp kiến thức thực tế về quy trình xử lý dữ liệu sinh trắc học từ thô đến sẵn sàng sử dụng, có thể làm tài liệu tham khảo cho các khóa học về xử lý ảnh, nhận dạng mẫu và an ninh sinh trắc học.

Các tổ chức cần triển khai hệ thống xác thực sinh trắc học: Kết quả nghiên cứu giúp các tổ chức đánh giá và lựa chọn giải pháp sinh trắc học phù hợp với nhu cầu và điều kiện triển khai. Ví dụ, họ có thể quyết định sử dụng hệ thống nhận dạng iris thay vì vân tay nếu cần độ chính xác cao hơn, hoặc nhận dạng chữ ký nếu cần tính linh hoạt cao.

Câu hỏi thường gặp

Tại sao cần phân phối lại cơ sở dữ liệu BioSecure thay vì sử dụng trực tiếp? Cơ sở dữ liệu BioSecure gốc chứa nhiều lỗi như dữ liệu trùng lặp, tệp không đọc được, thiếu dữ liệu và sai tên tệp. Việc phân phối lại giúp loại bỏ các lỗi này, đảm bảo dữ liệu cân bằng về giới tính và nguồn gốc đại học, đồng thời cung cấp định dạng chuẩn hóa cho người dùng. Ví dụ, trong nghiên cứu này, tỷ lệ lỗi của các cơ sở dữ liệu được phân phối là 0% so với tỷ lệ lỗi đáng kể trong cơ sở dữ liệu gốc.

Phương pháp đánh giá độ nét ảnh được sử dụng trong luận văn là gì? Luận văn sử dụng phương pháp Gradient với bộ lọc Sobel 3x3 và bộ lọc Gauss 3x3 để tính toán độ nét ảnh. Phương pháp này so sánh độ trung bình gradient của ảnh gốc và ảnh làm mịn, cho kết quả chính xác với tỷ lệ không chắc chắn thấp (3.87% khi so sánh ảnh chụp bằng webcam và máy ảnh Canon).

Kết quả nhận dạng tốt nhất thuộc về loại sinh trắc học nào? Dựa trên kết quả EER, nhận dạng iris cho kết quả tốt nhất với EER=6.43% cho mắt trái, tiếp theo là chữ ký (EER=5.10% cho DS2) và vân tay (EER=4.38% cho cảm biến quang học). Tuy nhiên, cần lưu ý rằng các hệ thống nhận dạng khác nhau có thể cho kết quả khác nhau.

Tại sao dữ liệu thu thập từ môi trường văn phòng (DS2) cho kết quả tốt hơn từ thiết bị di động (DS3)? Dữ liệu DS2 được thu thập trong môi trường được kiểm soát với ánh sáng ổn định và thiết bị chuyên dụng, trong khi DS3 được thu thập từ thiết bị di động trong các điều kiện khác nhau (trong nhà và ngoài nhà). Ví dụ, Signature-DS2 có EER=5.10% trong khi Signature-DS3 có EER=11.00%, cho thấy chất lượng dữ liệu thu thập từ môi trường văn phòng tốt hơn.

Làm thế nào để truy cập các cơ sở dữ liệu đã được phân phối và đánh giá? Các cơ sở dữ liệu đã được phân phối và đánh giá có thể được yêu cầu từ phòng thí nghiệm InterMedia tại TELECOM & Management SudParis. Người dùng cần cung cấp thông tin về mục đích sử dụng và đồng ý tuân thủ các điều khoản sử dụng. Các cơ sở dữ liệu đi kèm với kết quả đánh giá và giao thức đánh giá để người dùng có thể kiểm tra hệ thống của mình.

Kết luận

  • Luận văn đã phát triển thành công hệ thống phân phối dữ liệu sinh trắc học từ cơ sở dữ liệu BioSecure, tạo ra 6 cơ sở dữ liệu mới không lỗi và sẵn sàng sử dụng cho cộng đồng nghiên cứu.
  • Hệ thống đánh giá độ nét ảnh đã được phát triển và kiểm chứng, cho kết quả đáng tin cậy với tỷ lệ không chắc chắn thấp.
  • Kết quả đánh giá dựa trên nội dung cho thấy chất lượng tốt của các cơ sở dữ liệu được phân phối, với EER thấp cho iris (6.43%), chữ ký (5.10%) và vân tay (4.38% cho cảm biến quang học).
  • Dữ liệu thu thập từ môi trường văn phòng (DS2) cho kết quả tốt hơn từ thiết bị di động (DS3), và cảm biến quang học tốt hơn cảm biến nhiệt cho vân tay.
  • Các bước tiếp theo bao gồm cải thiện thuật toán phát hiện lỗi, nâng cấp hệ thống đánh giá độ nét, mở rộng đánh giá cho cơ sở dữ liệu Main-DS2, và phát triển giao diện người dùng trực quan.
  • Các nhà nghiên cứu quan tâm đến dữ liệu sinh trắc học chất lượng cao nên liên hệ với phòng thí nghiệm InterMedia tại TELECOM & Management SudParis để có được các cơ sở dữ liệu đã được phân phối và đánh giá.