Tổng quan nghiên cứu

Vấn đề gian lận văn bằng trở nên cấp bách trong bối cảnh số lượng bằng cấp giả mạo ngày càng tăng, ảnh hưởng nghiêm trọng đến uy tín các trường đại học và sự tin cậy của xã hội. Tại Việt Nam và nhiều quốc gia khác, tỉ lệ bằng giả được ước tính lên tới 10-15%, gây mất niềm tin và thiệt hại kinh tế lớn. Luận văn này tập trung phát triển một prototype nhằm đánh dấu các văn bản ký tự và văn bản có kết cấu nhằm ngăn chặn gian lận văn bằng tại Đại học La Rochelle, Pháp. Mục tiêu nghiên cứu cụ thể là ứng dụng các mô hình học sâu trong học máy, đặc biệt là các mô hình tạo sinh sâu như Auto-encoder (AE) và Generative Adversarial Networks (GAN), để phát triển các kỹ thuật mã hóa thông tin ẩn trong các ký tự chữ viết tay phục vụ việc đánh dấu và bảo vệ các văn bằng.

Nghiên cứu được thực hiện trên hai bộ dữ liệu chuẩn gồm MNIST (60,000 ảnh huấn luyện và 10,000 ảnh kiểm thử) và BALI (với 19,383 mẫu hình ảnh ký tự từ 133 lớp, chọn lọc 50 lớp có mẫu lớn). Thời gian nghiên cứu tập trung năm 2018, tại Đại học La Rochelle, với sự hợp tác của phòng thí nghiệm L3i. Ý nghĩa nghiên cứu nằm ở việc thử nghiệm, đánh giá khả năng của 12 mô hình tạo sinh sâu khác nhau trong việc tái tạo và mã hóa thông tin trên ký tự, nhằm đề xuất giải pháp đánh dấu văn bằng với tính khả thi và hiệu quả bảo mật cao hơn các kỹ thuật hiện có.

Thông qua việc phân tích và so sánh hiệu suất các mô hình, luận văn mở ra hướng nghiên cứu mới trong lĩnh vực an ninh tài liệu số, đóng góp vào các giải pháp phòng ngừa gian lận văn bằng có tính ứng dụng thực tiễn cao trong ngành giáo dục và công nghệ thông tin.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai dòng mô hình tạo sinh sâu (Deep Generative Models - DGM) chủ đạo:

  1. Auto-encoder (AE): AE là mạng nơ-ron học bất giám sát, có cấu trúc gồm phần mã hóa (encoder), mã (code) và phần giải mã (decoder). Các biến thể quan trọng bao gồm:

    • Auto-encoder vanille: Mạng 2 lớp truyền thống, học nén và giải nén dữ liệu.
    • Sparse Auto-encoder (SPAE): Áp đặt điều kiện giới hạn kích hoạt, giúp trích xuất các đặc trưng có tính phân biệt.
    • Contractive Auto-encoder (CAE): Thêm điều kiện kháng nhiễu bằng cách hạn chế độ nhạy của encoder.
    • Variational Auto-encoder (VAE)Conditional VAE (CVAE): Là mô hình thống kê mô tả phân phối xác suất của dữ liệu, kết hợp tối ưu hóa KL divergence để học latent space hiệu quả.
    • Adversarial Auto-encoder (AAE): Kết hợp cơ chế adversarial giúp cải thiện phân phối latent space, gỡ bỏ nhược điểm KL divergence không giải được bài toán phân phối phức tạp.
  2. Generative Adversarial Networks (GAN): Bao gồm hai mạng đối kháng là Generator tạo ảnh giả và Discriminator phân biệt ảnh thật - giả.

    • Conditional GAN (cGAN): Thêm điều kiện (nhãn lớp) để kiểm soát quá trình tạo ảnh.
    • Deep Convolutional GAN (DCGAN): Sử dụng mạng CNN sâu với batch normalization, cải thiện chất lượng ảnh tạo ra.
    • Wasserstein GAN (WGAN): Dùng khoảng cách Wasserstein thay thế hàm mất mát truyền thống giúp ổn định quá trình huấn luyện, tránh sụp đổ mode.

Các khái niệm chủ đạo trong nghiên cứu là: mạng nơ-ron nhân tạo, mã hóa - giải mã, học sâu, phân phối xác suất, khoảng cách Wasserstein, hàm mất mát và stéganographie - nghệ thuật đánh dấu thông tin ẩn trong dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu gồm hai bộ chuẩn MNIST và BALI được lựa chọn vì tính đại diện và đặc thù ký tự mà đề tài hướng đến. Toàn bộ quá trình triển khai sử dụng Python và thư viện TensorFlow – công cụ học máy phổ biến, hỗ trợ kỹ thuật học sâu và GPU.

Phương pháp nghiên cứu gồm:

  • Tiền xử lý dữ liệu BALI: Chuyển sang ảnh xám, nâng cao tương phản bằng CLAHE, loại bỏ nhiễu với bộ lọc Gaussian 5x5, phân đoạn bằng phương pháp Otsu, áp dụng kỹ thuật làm sạch hậu xử lý (dilate + erosion) nhằm tối ưu chất lượng ảnh đầu vào.
  • Huấn luyện mô hình: 12 mô hình AE và GAN được cài đặt, tối ưu với batch size 128, learning rate 0.001. Số epoch theo từng mô hình dao động từ 50,000 đến 100,000.
  • Đánh giá chất lượng tạo ảnh: Thăm dò trực quan và phân tích độ chính xác thông qua thuật toán nhận dạng ký tự áp dụng trên ảnh tạo ra, so sánh với ảnh gốc nhằm đo lường tỷ lệ nhận dạng hợp lệ và độ tương đồng.
  • Thời gian thực hiện: Giai đoạn tiền xử lý và huấn luyện diễn ra trong năm 2018, kéo dài 5 tháng tại phòng thí nghiệm L3i, Đại học La Rochelle.

Phần phân tích dữ liệu chủ yếu dựa trên số liệu về tỷ lệ nhận dạng ký tự, sai số trung bình bình phương (MSE), độ tương đồng hình ảnh, và kết quả nhận xét trực quan. Việc chọn lựa mô hình dựa vào hiệu quả bảo mật thông tin ẩn trong các phần tử ký tự trên văn bằng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Mô hình AE hoạt động ổn định trên MNIST và BALI
    AE, CAE và SPAE tạo ra hình ảnh ký tự giữ được cấu trúc chính xác với tỷ lệ nhận dạng ký tự đạt khoảng 85-90% trên MNIST và hơn 80% trên BALI. Điều này chứng tỏ khả năng mã hóa giữ nguyên nội dung quan trọng. Ví dụ, trên 50 lớp ký tự BALI, khoảng 70% lớp có ảnh tái tạo chất lượng tốt với các sai số nhận dạng dưới 10%.

  2. Các mô hình GAN cải thiện chất lượng hình ảnh giả
    DCGAN và cGAN thể hiện vượt trội trong việc tạo hình ảnh sắc nét hơn với tỉ lệ nhận diện ấn tượng trên MNIST, đạt xấp xỉ 92-95%. WGAN giúp ổn định quá trình huấn luyện, tuy nhiên chạy lâu hơn và đôi khi tạo hình ảnh mờ hơn so với DCGAN.

  3. Phân biệt các lớp ký tự gần giống gặp khó khăn
    Một số lớp ký tự trong bộ BALI có hình dạng gần như nhau (ví dụ hai lớp “DI” và “I” hay “KA” và “KATEDONG”) gây khó khăn cho các mô hình trong phân biệt và tái tạo chính xác dẫn đến giảm tỉ lệ nhận dạng còn khoảng 65-70%. Đây là thử thách cần được quan tâm đặc biệt trong ứng dụng thực tế.

  4. Độ nhiễu và chất lượng ảnh gốc ảnh hưởng lớn tới hiệu suất mô hình
    Bộ dữ liệu BALI, do đặc thù cổ xưa và tiếng ồn, yêu cầu bước tiền xử lý phức tạp so với MNIST. Việc áp dụng các bước cải thiện ảnh như CLAHE, lọc Gaussian và phương pháp Otsu giúp tăng hiệu quả huấn luyện trên BALI khoảng 15-20% so với ảnh thô ban đầu.

Thảo luận kết quả

Các mô hình AE có ưu điểm là cấu trúc đơn giản, dễ đào tạo và cho kết quả tương đối ổn định trên bộ dữ liệu ký tự, phù hợp với các ứng dụng đòi hỏi độ chính xác cao khi mã hóa thông tin nhúng trong văn bản. Song, AE vẫn có hạn chế về khả năng mô phỏng các biến thể phức tạp trong dữ liệu người viết chữ tay.

GAN mang lại hình ảnh có chất lượng thị giác tốt hơn, điều này là do kiến trúc đối kháng thúc đẩy mạng tạo sinh học các đặc trưng chân thực. Tuy nhiên, GAN dễ bị quá trình huấn luyện mất ổn định. WGAN giúp cải thiện điều này, nhưng đổi lại thời gian và chi phí tính toán tăng lên.

Việc gặp khó khăn khi bộ dữ liệu có ký tự rất giống nhau là một phát hiện quan trọng, phù hợp với kết quả của một số nghiên cứu gần đây cho thấy sự phân biệt ký tự phức tạp đòi hỏi mô hình kết hợp các kỹ thuật rời rạc hơn.

Các kết quả phân tích có thể được trình bày dưới dạng biểu đồ so sánh hiệu suất nhận dạng và độ lỗi trên từng lớp ký tự, bảng thống kê tỷ lệ thành công đạt được trên mỗi mô hình và hình ảnh minh họa các đặc điểm tái tạo ký tự.

Phát hiện này giúp hướng tới thiết kế mô hình lai kết hợp AE và GAN hoặc thêm bước tiền xử lý và nhận dạng bổ trợ nhằm tối ưu hóa hiệu quả hệ thống đánh dấu và chống giả mạo văn bằng trong thực tiễn.

Đề xuất và khuyến nghị

  1. Xây dựng mô hình lai AE-GAN để tối ưu hóa khả năng tái tạo và sinh ảnh
    Kết hợp ưu điểm của Auto-encoder trong việc giữ đặc trưng mã hóa và khả năng tạo ảnh chân thực của GAN sẽ nâng cao chất lượng ảnh tạo ra. Mục tiêu đạt tăng 10-15% tỷ lệ nhận dạng tốt hơn so với mô hình đơn lẻ trong vòng 12 tháng. Chủ thể thực hiện là đội nghiên cứu CNTT của Đại học La Rochelle phối hợp phòng thí nghiệm L3i.

  2. Áp dụng bước tiền xử lý ảnh nâng cao trên bộ dữ liệu ký tự phức tạp
    Cải thiện kỹ thuật khử nhiễu và phân đoạn, đặc biệt với dữ liệu có kết cấu xấu và tiếng ồn cao như BALI. Khoảng 6 tháng để tích hợp các thuật toán như CLAHE, lọc Gaussian thích nghi, và thử nghiệm các phương pháp phân đoạn nâng cao. Chủ thể: nhóm chuyên gia xử lý ảnh trong phòng thí nghiệm L3i.

  3. Phát triển bộ nhận dạng ký tự tích hợp để phân biệt lớp ký tự gần giống nhau
    Tích hợp cơ chế nhận dạng nâng cao dùng thuật toán phân lớp sâu (deep classification) song song với mạng tạo sinh nhằm giảm tỷ lệ sai sót trong các ký tự gần giống dưới 5%. Thời gian 9 tháng. Chủ thể: nhóm AI và xử lý ngôn ngữ tự nhiên.

  4. Triển khai mô hình thử nghiệm trên văn bằng thật tại Đại học La Rochelle
    Áp dụng thí điểm sản phẩm prototype lên các văn bằng mới phát hành trong 6 tháng để kiểm tra thực tiễn hiệu quả đánh dấu và phát hiện gian lận. Chủ thể: Phòng công nghệ thông tin và Trung tâm phát hành văn bằng, phối hợp với bộ phận pháp lý.

Các đề xuất trên hướng tới việc thương mại hóa giải pháp, tăng tính bảo mật của văn bằng đồng thời giảm thiểu rủi ro gian lận trên thị trường giáo dục.

Đối tượng nên tham khảo luận văn

  1. Các nhà nghiên cứu và giảng viên ngành Công nghệ Thông tin, đặc biệt lĩnh vực học sâu và xử lý ảnh
    Họ sẽ được cung cấp kiến thức chuyên sâu về những mô hình tạo sinh hiện đại và ứng dụng trong bảo mật dữ liệu, từ đó phát triển các nghiên cứu tiếp nối về mã hóa dữ liệu và chống giả mạo số.

  2. Cán bộ quản lý và chuyên viên công nghệ thông tin các trường đại học, viện đào tạo
    Họ có thể áp dụng trực tiếp các giải pháp đánh dấu văn bằng được đề xuất, từ đó nâng cao hệ thống kiểm tra tính xác thực của văn bằng đào tạo và chống gian lận.

  3. Các doanh nghiệp hoạt động trong lĩnh vực chứng nhận, bảo mật tài liệu và phòng chống gian lận
    Luận văn cung cấp giải pháp công nghệ mới giúp doanh nghiệp nâng cao giá trị dịch vụ bảo vệ tài liệu nhạy cảm trong môi trường số hóa, đặc biệt trong phát hành và xác thực văn bằng.

  4. Cơ quan quản lý giáo dục và các tổ chức kiểm định chất lượng đào tạo
    Thông qua nghiên cứu, các cá nhân này có hiểu biết về áp dụng AI trong phòng chống gian lận văn bằng, phục vụ xây dựng chính sách, quy định kỹ thuật, và chuẩn hóa đảm bảo chất lượng giáo dục.

Những nhóm đối tượng này khi tích hợp và phát triển tiếp nội dung nghiên cứu sẽ góp phần thúc đẩy xu hướng hiện đại hóa quản lý văn bằng kỹ thuật số và tăng cường an ninh giáo dục.

Câu hỏi thường gặp

  1. Mô hình nào trong nghiên cứu cho kết quả tốt nhất về tái tạo ký tự?
    Auto-encoder (AE), đặc biệt là các biến thể CAE và SPAE, cho thấy hiệu suất ổn định với tỷ lệ nhận dạng ký tự đạt khoảng 85-90% trên MNIST và hơn 80% trên BALI. GAN như DCGAN cung cấp ảnh đẹp hơn nhưng đòi hỏi huấn luyện phức tạp hơn.

  2. Phương pháp nào được dùng để đánh giá chất lượng mô hình tạo sinh?
    Ngoài kiểm tra trực quan, luận văn áp dụng thuật toán nhận dạng ký tự chuẩn để so sánh tỷ lệ ký tự tái tạo được nhận dạng đúng trên ảnh giả so với ảnh gốc, giúp định lượng hiệu quả mô hình.

  3. Tại sao phải chọn cả hai bộ dữ liệu MNIST và BALI?
    MNIST là bộ dữ liệu phổ biến, chuẩn hóa với hình ảnh rõ nét, trong khi BALI có bản chất ký tự phức tạp, cổ xưa và nhiều nhiễu phù hợp thử thách mô hình trên dữ liệu thực tế khó khăn, từ đó đánh giá toàn diện độ tin cậy của mô hình.

  4. Tiền xử lý ảnh trên bộ BALI có vai trò như thế nào?
    Tiền xử lý bao gồm làm tăng độ tương phản, loại giảm nhiễu và phân đoạn chính xác ảnh giúp cải thiện lớp học sâu dễ dàng học các đặc trưng quan trọng, nâng cao hiệu quả huấn luyện và tái tạo ký tự.

  5. Giải pháp này có thể áp dụng trực tiếp cho các văn bằng của các trường khác không?
    Có thể nhưng cần điều chỉnh tùy theo đặc điểm ký tự, cấu trúc và dạng tài liệu. Cơ chế mã hóa ẩn dựa trên mạng nơ-ron có tính khả biến, hỗ trợ tùy chỉnh phù hợp từng nền tảng, giúp mở rộng áp dụng đa dạng.

Kết luận

  • Bằng cách thử nghiệm 12 mô hình tạo sinh sâu, luận văn xác định được nhóm mô hình AE (CAE, SPAE) và GAN (DCGAN, cGAN) là phù hợp nhất cho việc đánh dấu tài liệu văn bằng tại Đại học La Rochelle.
  • Tiền xử lý dữ liệu như cân bằng tương phản và lọc nhiễu giúp nâng cao hiệu quả huấn luyện trên dữ liệu cổ điển có độ nhiễu cao.
  • Khó khăn trong phân biệt các lớp ký tự gần giống được phát hiện và là điểm cần cải tiến trong các hệ thống nhận dạng ký tự tích hợp.
  • Kết quả nghiên cứu góp phần định hình giải pháp kiểm soát thị trường văn bằng giả, tăng cường an ninh tài liệu giáo dục.
  • Đề xuất phát triển mô hình lai AE-GAN và triển khai thử nghiệm thực tế trong vòng 12 tháng tới tại Đại học La Rochelle.

Khuyến nghị tiếp tục đầu tư phát triển công nghệ chống gian lận trên nền tảng học sâu để ứng dụng rộng rãi trong bảo mật văn bằng, đảm bảo niềm tin xã hội. Hành động kêu gọi cộng đồng khoa học và doanh nghiệp cùng phối hợp nghiên cứu mở rộng và ứng dụng thực tế.


Hãy bắt đầu bước đầu tiên trong hành trình bảo vệ uy tín giáo dục bằng việc áp dụng các công nghệ tạo sinh tiên tiến ngay hôm nay!