Luận văn thạc sĩ phát triển một sản phẩm thử nghiệm nhằm đánh dấu các văn bản để ngăn chặn sự gian lận các văn bằng của đh la rochelle

Luận văn thạc sĩ phân tích phát triển một sản phẩm thử nghiệm nhằm đánh dấu các văn bản để ngăn chặn sự gian lận các văn bằng, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải

Trường đại học

Université de La Rochelle

Chuyên ngành

Informatique

Người đăng

Ẩn danh

Thể loại

Mémoire

2018

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

REMERCIEMENTS

Table des figures et tableaux

Tableau des acronymes

INTRODUCTION

1. CHAPITRE 1 : PRÉSENTATION GÉNÉRALE

1.1. Présentation de l’établissement d’accueil

1.2. Présentation de l’Université de La Rochelle – organisme d’accueil

1.3. Présentation du laboratoire L3i – lieu de travail

1.4. Présentation du projet SeAD

1.5. Contexte du sujet

2. CHAPITRE 2 – DESCRIPTION DES MODÈLES GÉNÉRATIFS

2.1. Les variations de l’auto-encodeur (AE)

2.1.1. Auto-encodeur vanille et Auto-encodeur multicouches

2.1.2. L’architecture de l’auto-encodeur

2.1.3. La fonction de perte

2.1.4. Auto-encodeur sparse (SPAE)

2.1.5. Auto-encodeur contractif (CAE)

2.1.6. Auto-encodeur convolution (convolutional auto-encodeur -convAE)

2.1.7. Dé-bruitage auto-encodeur (de-noising auto-encodeur – de-noisingAE)

2.1.8. Auto-encodeur variationnel (VAE)

2.1.9. Auto-encodeur variationnel conditionnel (CVAE)

2.2. Les variations de générative réseau contradictoire (GAN)

2.2.1. Générative réseau contradictoire (Generative adversarial network - GAN)

2.2.1.1. L’architecture de GAN

2.2.1.2. Le processus d’apprentissage

2.2.1.3. La fonction de perte

2.2.2. Générative réseau contradictoire conditionnel (Conditional Generative Adversarial Networks – CGAN)

2.2.3. Profond convolutif générative réseau contradictoire (Deep Convolutional Generative Adversarial Networks – DCGAN)

2.2.4. Wasserstein générative réseau contradictoire (Wasserstein generative adversarial networks – WGAN)

2.2.5. Auto-encodeur contradictoire (Adversarial auto-encoder – AAE)

3. CHAPITRE 3 – PROTOCOLE EXPÉRIMENTAL

3.1. Les base de données

3.1.1. La base MNIST

3.1.2. La base BALI

3.2. Le protocole expérimental

3.3. Brève description de la technique de reconnaissance

3.3.1. Le système de reconnaissance pour la base MNIST

3.3.2. Le système de reconnaissance pour la base BALI

4. CHAPITRE 4 – RÉSULTATS ET DISCUSSIONS

4.1. Les résultats obtenus

4.2. Discussions sur les résultats obtenus

5. CHAPITRE 5 – CONCLUSION ET PERSPECTIVE

Tóm tắt

I. Tổng quan về gian lận văn bằng ĐH La Rochelle và cách ngăn chặn

Gian lận văn bằng đang trở thành một vấn đề nghiêm trọng trong giáo dục hiện đại, đặc biệt là tại các cơ sở giáo dục đại học như ĐH La Rochelle. Việc bảo vệ danh tiếng của trường và đảm bảo chất lượng giáo dục là rất quan trọng. Các phương pháp ngăn chặn gian lận văn bằng cần được triển khai một cách hiệu quả để bảo vệ quyền lợi của sinh viên và uy tín của trường.

1.1. Tình hình gian lận văn bằng tại ĐH La Rochelle

Gian lận văn bằng tại ĐH La Rochelle đã gia tăng trong những năm gần đây. Các hình thức gian lận bao gồm việc làm giả văn bằng, sử dụng văn bằng không hợp lệ và các hành vi gian lận khác. Điều này không chỉ ảnh hưởng đến uy tín của trường mà còn gây khó khăn cho sinh viên trong việc tìm kiếm việc làm.

1.2. Tại sao cần ngăn chặn gian lận văn bằng

Ngăn chặn gian lận văn bằng là cần thiết để bảo vệ chất lượng giáo dục và đảm bảo rằng các sinh viên tốt nghiệp thực sự có đủ năng lực. Điều này cũng giúp duy trì sự công bằng trong thị trường lao động và bảo vệ danh tiếng của các cơ sở giáo dục.

II. Các thách thức trong việc ngăn chặn gian lận văn bằng ĐH La Rochelle

Việc ngăn chặn gian lận văn bằng đối mặt với nhiều thách thức. Các phương pháp hiện tại có thể không đủ hiệu quả trong việc phát hiện và ngăn chặn các hình thức gian lận ngày càng tinh vi. Cần có những giải pháp sáng tạo và công nghệ tiên tiến để giải quyết vấn đề này.

2.1. Các hình thức gian lận phổ biến

Các hình thức gian lận văn bằng phổ biến bao gồm làm giả tài liệu, sử dụng văn bằng của người khác và các hành vi gian lận trong quá trình thi cử. Những hình thức này ngày càng trở nên tinh vi và khó phát hiện.

2.2. Khó khăn trong việc phát hiện gian lận

Việc phát hiện gian lận văn bằng gặp nhiều khó khăn do sự phát triển của công nghệ. Các công cụ làm giả ngày càng tinh vi, khiến cho việc kiểm tra và xác minh trở nên phức tạp hơn.

III. Phương pháp ngăn chặn gian lận văn bằng hiệu quả tại ĐH La Rochelle

Để ngăn chặn gian lận văn bằng, ĐH La Rochelle cần áp dụng các phương pháp hiện đại và hiệu quả. Việc sử dụng công nghệ mới và các giải pháp sáng tạo sẽ giúp bảo vệ văn bằng và nâng cao chất lượng giáo dục.

3.1. Sử dụng công nghệ mã hóa và watermarking

Công nghệ mã hóa và watermarking có thể được áp dụng để bảo vệ văn bằng. Những công nghệ này giúp ẩn thông tin trong văn bằng mà không làm thay đổi hình thức bên ngoài, từ đó ngăn chặn việc làm giả.

3.2. Kiểm tra và xác minh văn bằng

Việc thiết lập hệ thống kiểm tra và xác minh văn bằng là rất quan trọng. Các cơ sở giáo dục cần có quy trình rõ ràng để xác minh tính hợp lệ của văn bằng trước khi cấp phát cho sinh viên.

IV. Ứng dụng thực tiễn và kết quả nghiên cứu về gian lận văn bằng

Nghiên cứu về gian lận văn bằng tại ĐH La Rochelle đã chỉ ra rằng việc áp dụng các công nghệ mới có thể giúp giảm thiểu tình trạng gian lận. Các kết quả nghiên cứu cho thấy rằng việc sử dụng các phương pháp bảo mật hiện đại có thể nâng cao tính xác thực của văn bằng.

4.1. Kết quả từ các nghiên cứu thực tiễn

Các nghiên cứu thực tiễn cho thấy rằng việc áp dụng công nghệ mới đã giúp giảm thiểu tình trạng gian lận văn bằng. Các trường hợp gian lận đã giảm đáng kể nhờ vào việc sử dụng các phương pháp bảo mật hiện đại.

4.2. Ứng dụng công nghệ trong giáo dục

Công nghệ không chỉ giúp ngăn chặn gian lận mà còn nâng cao chất lượng giáo dục. Việc áp dụng công nghệ trong giáo dục giúp cải thiện quy trình giảng dạy và học tập, từ đó nâng cao chất lượng đầu ra của sinh viên.

V. Kết luận và tương lai của việc ngăn chặn gian lận văn bằng ĐH La Rochelle

Việc ngăn chặn gian lận văn bằng tại ĐH La Rochelle là một nhiệm vụ quan trọng và cần thiết. Các giải pháp hiện tại cần được cải tiến và phát triển để đáp ứng với những thách thức mới. Tương lai của việc ngăn chặn gian lận văn bằng phụ thuộc vào sự sáng tạo và ứng dụng công nghệ mới.

5.1. Tương lai của công nghệ trong giáo dục

Công nghệ sẽ tiếp tục đóng vai trò quan trọng trong việc ngăn chặn gian lận văn bằng. Các giải pháp công nghệ mới sẽ giúp cải thiện quy trình bảo mật và xác minh văn bằng.

5.2. Đề xuất các giải pháp mới

Cần có những nghiên cứu và phát triển các giải pháp mới để ngăn chặn gian lận văn bằng. Việc hợp tác giữa các cơ sở giáo dục và các chuyên gia công nghệ sẽ giúp tạo ra những giải pháp hiệu quả hơn.

19/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ phát triển một sản phẩm thử nghiệm nhằm đánh dấu các văn bản để ngăn chặn sự gian lận các văn bằng của đh la rochelle

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Vấn đề gian lận văn bằng trở nên cấp bách trong bối cảnh số lượng bằng cấp giả mạo ngày càng tăng, ảnh hưởng nghiêm trọng đến uy tín các trường đại học và sự tin cậy của xã hội. Tại Việt Nam và nhiều quốc gia khác, tỉ lệ bằng giả được ước tính lên tới 10-15%, gây mất niềm tin và thiệt hại kinh tế lớn. Luận văn này tập trung phát triển một prototype nhằm đánh dấu các văn bản ký tự và văn bản có kết cấu nhằm ngăn chặn gian lận văn bằng tại Đại học La Rochelle, Pháp. Mục tiêu nghiên cứu cụ thể là ứng dụng các mô hình học sâu trong học máy, đặc biệt là các mô hình tạo sinh sâu như Auto-encoder (AE) và Generative Adversarial Networks (GAN), để phát triển các kỹ thuật mã hóa thông tin ẩn trong các ký tự chữ viết tay phục vụ việc đánh dấu và bảo vệ các văn bằng.

Nghiên cứu được thực hiện trên hai bộ dữ liệu chuẩn gồm MNIST (60,000 ảnh huấn luyện và 10,000 ảnh kiểm thử) và BALI (với 19,383 mẫu hình ảnh ký tự từ 133 lớp, chọn lọc 50 lớp có mẫu lớn). Thời gian nghiên cứu tập trung năm 2018, tại Đại học La Rochelle, với sự hợp tác của phòng thí nghiệm L3i. Ý nghĩa nghiên cứu nằm ở việc thử nghiệm, đánh giá khả năng của 12 mô hình tạo sinh sâu khác nhau trong việc tái tạo và mã hóa thông tin trên ký tự, nhằm đề xuất giải pháp đánh dấu văn bằng với tính khả thi và hiệu quả bảo mật cao hơn các kỹ thuật hiện có.

Thông qua việc phân tích và so sánh hiệu suất các mô hình, luận văn mở ra hướng nghiên cứu mới trong lĩnh vực an ninh tài liệu số, đóng góp vào các giải pháp phòng ngừa gian lận văn bằng có tính ứng dụng thực tiễn cao trong ngành giáo dục và công nghệ thông tin.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai dòng mô hình tạo sinh sâu (Deep Generative Models - DGM) chủ đạo:

Auto-encoder (AE): AE là mạng nơ-ron học bất giám sát, có cấu trúc gồm phần mã hóa (encoder), mã (code) và phần giải mã (decoder). Các biến thể quan trọng bao gồm:
- Auto-encoder vanille: Mạng 2 lớp truyền thống, học nén và giải nén dữ liệu.
- Sparse Auto-encoder (SPAE): Áp đặt điều kiện giới hạn kích hoạt, giúp trích xuất các đặc trưng có tính phân biệt.
- Contractive Auto-encoder (CAE): Thêm điều kiện kháng nhiễu bằng cách hạn chế độ nhạy của encoder.
- Variational Auto-encoder (VAE) và Conditional VAE (CVAE): Là mô hình thống kê mô tả phân phối xác suất của dữ liệu, kết hợp tối ưu hóa KL divergence để học latent space hiệu quả.
- Adversarial Auto-encoder (AAE): Kết hợp cơ chế adversarial giúp cải thiện phân phối latent space, gỡ bỏ nhược điểm KL divergence không giải được bài toán phân phối phức tạp.
Generative Adversarial Networks (GAN): Bao gồm hai mạng đối kháng là Generator tạo ảnh giả và Discriminator phân biệt ảnh thật - giả.
- Conditional GAN (cGAN): Thêm điều kiện (nhãn lớp) để kiểm soát quá trình tạo ảnh.
- Deep Convolutional GAN (DCGAN): Sử dụng mạng CNN sâu với batch normalization, cải thiện chất lượng ảnh tạo ra.
- Wasserstein GAN (WGAN): Dùng khoảng cách Wasserstein thay thế hàm mất mát truyền thống giúp ổn định quá trình huấn luyện, tránh sụp đổ mode.

Các khái niệm chủ đạo trong nghiên cứu là: mạng nơ-ron nhân tạo, mã hóa - giải mã, học sâu, phân phối xác suất, khoảng cách Wasserstein, hàm mất mát và stéganographie - nghệ thuật đánh dấu thông tin ẩn trong dữ liệu.

Phương pháp nghiên cứu

Nguồn dữ liệu gồm hai bộ chuẩn MNIST và BALI được lựa chọn vì tính đại diện và đặc thù ký tự mà đề tài hướng đến. Toàn bộ quá trình triển khai sử dụng Python và thư viện TensorFlow – công cụ học máy phổ biến, hỗ trợ kỹ thuật học sâu và GPU.

Phương pháp nghiên cứu gồm:

Tiền xử lý dữ liệu BALI: Chuyển sang ảnh xám, nâng cao tương phản bằng CLAHE, loại bỏ nhiễu với bộ lọc Gaussian 5x5, phân đoạn bằng phương pháp Otsu, áp dụng kỹ thuật làm sạch hậu xử lý (dilate + erosion) nhằm tối ưu chất lượng ảnh đầu vào.
Huấn luyện mô hình: 12 mô hình AE và GAN được cài đặt, tối ưu với batch size 128, learning rate 0.001. Số epoch theo từng mô hình dao động từ 50,000 đến 100,000.
Đánh giá chất lượng tạo ảnh: Thăm dò trực quan và phân tích độ chính xác thông qua thuật toán nhận dạng ký tự áp dụng trên ảnh tạo ra, so sánh với ảnh gốc nhằm đo lường tỷ lệ nhận dạng hợp lệ và độ tương đồng.
Thời gian thực hiện: Giai đoạn tiền xử lý và huấn luyện diễn ra trong năm 2018, kéo dài 5 tháng tại phòng thí nghiệm L3i, Đại học La Rochelle.

Phần phân tích dữ liệu chủ yếu dựa trên số liệu về tỷ lệ nhận dạng ký tự, sai số trung bình bình phương (MSE), độ tương đồng hình ảnh, và kết quả nhận xét trực quan. Việc chọn lựa mô hình dựa vào hiệu quả bảo mật thông tin ẩn trong các phần tử ký tự trên văn bằng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Mô hình AE hoạt động ổn định trên MNIST và BALI
AE, CAE và SPAE tạo ra hình ảnh ký tự giữ được cấu trúc chính xác với tỷ lệ nhận dạng ký tự đạt khoảng 85-90% trên MNIST và hơn 80% trên BALI. Điều này chứng tỏ khả năng mã hóa giữ nguyên nội dung quan trọng. Ví dụ, trên 50 lớp ký tự BALI, khoảng 70% lớp có ảnh tái tạo chất lượng tốt với các sai số nhận dạng dưới 10%.
Các mô hình GAN cải thiện chất lượng hình ảnh giả
DCGAN và cGAN thể hiện vượt trội trong việc tạo hình ảnh sắc nét hơn với tỉ lệ nhận diện ấn tượng trên MNIST, đạt xấp xỉ 92-95%. WGAN giúp ổn định quá trình huấn luyện, tuy nhiên chạy lâu hơn và đôi khi tạo hình ảnh mờ hơn so với DCGAN.
Phân biệt các lớp ký tự gần giống gặp khó khăn
Một số lớp ký tự trong bộ BALI có hình dạng gần như nhau (ví dụ hai lớp “DI” và “I” hay “KA” và “KATEDONG”) gây khó khăn cho các mô hình trong phân biệt và tái tạo chính xác dẫn đến giảm tỉ lệ nhận dạng còn khoảng 65-70%. Đây là thử thách cần được quan tâm đặc biệt trong ứng dụng thực tế.
Độ nhiễu và chất lượng ảnh gốc ảnh hưởng lớn tới hiệu suất mô hình
Bộ dữ liệu BALI, do đặc thù cổ xưa và tiếng ồn, yêu cầu bước tiền xử lý phức tạp so với MNIST. Việc áp dụng các bước cải thiện ảnh như CLAHE, lọc Gaussian và phương pháp Otsu giúp tăng hiệu quả huấn luyện trên BALI khoảng 15-20% so với ảnh thô ban đầu.

Thảo luận kết quả

Các mô hình AE có ưu điểm là cấu trúc đơn giản, dễ đào tạo và cho kết quả tương đối ổn định trên bộ dữ liệu ký tự, phù hợp với các ứng dụng đòi hỏi độ chính xác cao khi mã hóa thông tin nhúng trong văn bản. Song, AE vẫn có hạn chế về khả năng mô phỏng các biến thể phức tạp trong dữ liệu người viết chữ tay.

GAN mang lại hình ảnh có chất lượng thị giác tốt hơn, điều này là do kiến trúc đối kháng thúc đẩy mạng tạo sinh học các đặc trưng chân thực. Tuy nhiên, GAN dễ bị quá trình huấn luyện mất ổn định. WGAN giúp cải thiện điều này, nhưng đổi lại thời gian và chi phí tính toán tăng lên.

Việc gặp khó khăn khi bộ dữ liệu có ký tự rất giống nhau là một phát hiện quan trọng, phù hợp với kết quả của một số nghiên cứu gần đây cho thấy sự phân biệt ký tự phức tạp đòi hỏi mô hình kết hợp các kỹ thuật rời rạc hơn.

Các kết quả phân tích có thể được trình bày dưới dạng biểu đồ so sánh hiệu suất nhận dạng và độ lỗi trên từng lớp ký tự, bảng thống kê tỷ lệ thành công đạt được trên mỗi mô hình và hình ảnh minh họa các đặc điểm tái tạo ký tự.

Phát hiện này giúp hướng tới thiết kế mô hình lai kết hợp AE và GAN hoặc thêm bước tiền xử lý và nhận dạng bổ trợ nhằm tối ưu hóa hiệu quả hệ thống đánh dấu và chống giả mạo văn bằng trong thực tiễn.

Đề xuất và khuyến nghị

Xây dựng mô hình lai AE-GAN để tối ưu hóa khả năng tái tạo và sinh ảnh
Kết hợp ưu điểm của Auto-encoder trong việc giữ đặc trưng mã hóa và khả năng tạo ảnh chân thực của GAN sẽ nâng cao chất lượng ảnh tạo ra. Mục tiêu đạt tăng 10-15% tỷ lệ nhận dạng tốt hơn so với mô hình đơn lẻ trong vòng 12 tháng. Chủ thể thực hiện là đội nghiên cứu CNTT của Đại học La Rochelle phối hợp phòng thí nghiệm L3i.
Áp dụng bước tiền xử lý ảnh nâng cao trên bộ dữ liệu ký tự phức tạp
Cải thiện kỹ thuật khử nhiễu và phân đoạn, đặc biệt với dữ liệu có kết cấu xấu và tiếng ồn cao như BALI. Khoảng 6 tháng để tích hợp các thuật toán như CLAHE, lọc Gaussian thích nghi, và thử nghiệm các phương pháp phân đoạn nâng cao. Chủ thể: nhóm chuyên gia xử lý ảnh trong phòng thí nghiệm L3i.
Phát triển bộ nhận dạng ký tự tích hợp để phân biệt lớp ký tự gần giống nhau
Tích hợp cơ chế nhận dạng nâng cao dùng thuật toán phân lớp sâu (deep classification) song song với mạng tạo sinh nhằm giảm tỷ lệ sai sót trong các ký tự gần giống dưới 5%. Thời gian 9 tháng. Chủ thể: nhóm AI và xử lý ngôn ngữ tự nhiên.
Triển khai mô hình thử nghiệm trên văn bằng thật tại Đại học La Rochelle
Áp dụng thí điểm sản phẩm prototype lên các văn bằng mới phát hành trong 6 tháng để kiểm tra thực tiễn hiệu quả đánh dấu và phát hiện gian lận. Chủ thể: Phòng công nghệ thông tin và Trung tâm phát hành văn bằng, phối hợp với bộ phận pháp lý.

Các đề xuất trên hướng tới việc thương mại hóa giải pháp, tăng tính bảo mật của văn bằng đồng thời giảm thiểu rủi ro gian lận trên thị trường giáo dục.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và giảng viên ngành Công nghệ Thông tin, đặc biệt lĩnh vực học sâu và xử lý ảnh
Họ sẽ được cung cấp kiến thức chuyên sâu về những mô hình tạo sinh hiện đại và ứng dụng trong bảo mật dữ liệu, từ đó phát triển các nghiên cứu tiếp nối về mã hóa dữ liệu và chống giả mạo số.
Cán bộ quản lý và chuyên viên công nghệ thông tin các trường đại học, viện đào tạo
Họ có thể áp dụng trực tiếp các giải pháp đánh dấu văn bằng được đề xuất, từ đó nâng cao hệ thống kiểm tra tính xác thực của văn bằng đào tạo và chống gian lận.
Các doanh nghiệp hoạt động trong lĩnh vực chứng nhận, bảo mật tài liệu và phòng chống gian lận
Luận văn cung cấp giải pháp công nghệ mới giúp doanh nghiệp nâng cao giá trị dịch vụ bảo vệ tài liệu nhạy cảm trong môi trường số hóa, đặc biệt trong phát hành và xác thực văn bằng.
Cơ quan quản lý giáo dục và các tổ chức kiểm định chất lượng đào tạo
Thông qua nghiên cứu, các cá nhân này có hiểu biết về áp dụng AI trong phòng chống gian lận văn bằng, phục vụ xây dựng chính sách, quy định kỹ thuật, và chuẩn hóa đảm bảo chất lượng giáo dục.

Những nhóm đối tượng này khi tích hợp và phát triển tiếp nội dung nghiên cứu sẽ góp phần thúc đẩy xu hướng hiện đại hóa quản lý văn bằng kỹ thuật số và tăng cường an ninh giáo dục.

Câu hỏi thường gặp

Mô hình nào trong nghiên cứu cho kết quả tốt nhất về tái tạo ký tự?
Auto-encoder (AE), đặc biệt là các biến thể CAE và SPAE, cho thấy hiệu suất ổn định với tỷ lệ nhận dạng ký tự đạt khoảng 85-90% trên MNIST và hơn 80% trên BALI. GAN như DCGAN cung cấp ảnh đẹp hơn nhưng đòi hỏi huấn luyện phức tạp hơn.
Phương pháp nào được dùng để đánh giá chất lượng mô hình tạo sinh?
Ngoài kiểm tra trực quan, luận văn áp dụng thuật toán nhận dạng ký tự chuẩn để so sánh tỷ lệ ký tự tái tạo được nhận dạng đúng trên ảnh giả so với ảnh gốc, giúp định lượng hiệu quả mô hình.
Tại sao phải chọn cả hai bộ dữ liệu MNIST và BALI?
MNIST là bộ dữ liệu phổ biến, chuẩn hóa với hình ảnh rõ nét, trong khi BALI có bản chất ký tự phức tạp, cổ xưa và nhiều nhiễu phù hợp thử thách mô hình trên dữ liệu thực tế khó khăn, từ đó đánh giá toàn diện độ tin cậy của mô hình.
Tiền xử lý ảnh trên bộ BALI có vai trò như thế nào?
Tiền xử lý bao gồm làm tăng độ tương phản, loại giảm nhiễu và phân đoạn chính xác ảnh giúp cải thiện lớp học sâu dễ dàng học các đặc trưng quan trọng, nâng cao hiệu quả huấn luyện và tái tạo ký tự.
Giải pháp này có thể áp dụng trực tiếp cho các văn bằng của các trường khác không?
Có thể nhưng cần điều chỉnh tùy theo đặc điểm ký tự, cấu trúc và dạng tài liệu. Cơ chế mã hóa ẩn dựa trên mạng nơ-ron có tính khả biến, hỗ trợ tùy chỉnh phù hợp từng nền tảng, giúp mở rộng áp dụng đa dạng.

Kết luận

Bằng cách thử nghiệm 12 mô hình tạo sinh sâu, luận văn xác định được nhóm mô hình AE (CAE, SPAE) và GAN (DCGAN, cGAN) là phù hợp nhất cho việc đánh dấu tài liệu văn bằng tại Đại học La Rochelle.
Tiền xử lý dữ liệu như cân bằng tương phản và lọc nhiễu giúp nâng cao hiệu quả huấn luyện trên dữ liệu cổ điển có độ nhiễu cao.
Khó khăn trong phân biệt các lớp ký tự gần giống được phát hiện và là điểm cần cải tiến trong các hệ thống nhận dạng ký tự tích hợp.
Kết quả nghiên cứu góp phần định hình giải pháp kiểm soát thị trường văn bằng giả, tăng cường an ninh tài liệu giáo dục.
Đề xuất phát triển mô hình lai AE-GAN và triển khai thử nghiệm thực tế trong vòng 12 tháng tới tại Đại học La Rochelle.

Khuyến nghị tiếp tục đầu tư phát triển công nghệ chống gian lận trên nền tảng học sâu để ứng dụng rộng rãi trong bảo mật văn bằng, đảm bảo niềm tin xã hội. Hành động kêu gọi cộng đồng khoa học và doanh nghiệp cùng phối hợp nghiên cứu mở rộng và ứng dụng thực tế.

Hãy bắt đầu bước đầu tiên trong hành trình bảo vệ uy tín giáo dục bằng việc áp dụng các công nghệ tạo sinh tiên tiến ngay hôm nay!

Trích đoạn nội dung tài liệu

UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONIE INTERNATIONAL LÊ THỊ THÙY TRANG DÉVELOPPEMENT D’UN PROTOTYPE DE LABORATOIRE SUR LE MARQUAGE DE DOCUMENTS TEXTUELS ET TEXTURÉS EN VUE D’EMPÊCHE LA FRAUDE DES DIPLÔMES DE L’UNIVERSITÉ DE LA ROCHELLE PHÁT TRIỂN MỘT SẢN PHẨM THỬ NGHIỆM NHẰM ĐÁNH DẤU CÁC VĂN BẢN ĐỂ NGĂN CHẶN SỰ GIAN LẬN CÁC VĂN BẰNG CỦA ĐH LA ROCHELLE MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2018 TIEU LUAN MOI download : skknchat@gmail.com UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONIE INTERNATIONAL LÊ THỊ THÙY TRANG DÉVELOPPEMENT D’UN PROTOTYPE DE LABORATOIRE SUR LE MARQUAGE DE DOCUMENTS TEXTUELS ET TEXTURÉS EN VUE D’EMPÊCHE LA FRAUDE DES DIPLÔMES DE L’UNIVERSITÉ DE LA ROCHELLE PHÁT TRIỂN MỘT SẢN PHẨM THỬ NGHIỆM NHẰM ĐÁNH DẤU CÁC VĂN BẢN ĐỂ NGĂN CHẶN SỰ GIAN LẬN CÁC VĂN BẰNG CỦA ĐH LA ROCHELLE Spécialité: Systèmes intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Dr. Mickaël COUSTATY HANOI – 2018 TIEU LUAN MOI download : skknchat@gmail.com ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.

Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. Signature de l’étudiant Lê Thị Thùy Trang TIEU LUAN MOI download : skknchat@gmail.com 1 Table de matière REMERCIEMENTS. 3 Table des figures et tableaux.

4 Tableau des acronymes. 6 Chapitre 1 : PRÉSENTATION GENÉRALE .1 Présentation de l’établissement d’accueil .1 Présentation de l’Université de La Rochelle – organisme d’accueil .2 Présentation du laboratoire L3i – lieu de travail .3 Présentation du projet SeAD .2 Contexte du sujet. 10 Chapitre 2 – DESCRIPTION DES MODELES GENERATIFS.1 Les variations de l’auto-encodeur (AE) .1 Auto-encodeur vanille et Auto-encodeur multicouches .1 L’architecture de l’auto-encodeur .2 La fonction de perte .2 Auto-encodeur sparse (SPAE) .3 Auto-encodeur contractif (CAE) .4 Auto-encodeur convolution (convolutional auto-encodeur -convAE) 19 2.5 Dé-bruitage auto-encodeur (de-noising auto-encodeur – de- noisingAE) .6 Auto-encodeur variationnel (VAE) .7 Auto-encodeur variationnel conditionnel (CVAE) .2 Les variations de générative réseau contradictoire (GAN) .1 Générative réseau contradictoire (Generative adversarial network - GAN) .1 L’architecture de GAN.2 Le processus d’apprentissage .3 La fonction de perte .2 Générative réseau contradictoire conditionnel (Conditional Generative Adversarial Networks – CGAN) .3 Profond convolutif générative réseau contradictoire (Deep Convolutional Generative Adversarial Networks – DCGAN). 27 TIEU LUAN MOI download : skknchat@gmail.4 Wasserstein générative réseau contradictoire (Wasserstein generative adversarial networks – WGAN) .5 Auto-encodeur contradictoire (Adversarial auto-encoder – AAE).

29 Chapitre 3 – PROTOCOLE EXPRÉRIMENTAL.1 Les base de données .1 La base MNIST .2 La base BALI .2 Le protocole expérimental .3 Brève description de la technique de reconnaissance .1 Le système de reconnaissance pour la base MNIST .2 Le système de reconnaissance pour la base BALI. 49 Chapitre 4 – RÉSULTATS ET DISCUSSIONS .1 Les résultats obtenus .2 Discussions sur les résultats obtenus. 50 Chapitre 5 – CONCLUSION ET PERSPECTIVE. 59 TIEU LUAN MOI download : skknchat@gmail.com 3 REMERCIEMENTS Je tiens tout d’abord à remercier tous les professeurs de l’Institut Francophone International (IFI).

Je souhaite exprimer ma sincère gratitude à vous qui avez pris le temps de m’aider au cours de ces trois années et de m’avoir accompagné dans la maîtrise de mes connaissances. Je tiens à exprimer toute ma reconnaissance à mon responsable du stage Mickaël COUSTATY. Je voudrais le remercier pour son encadrement scientifique, mais également pour sa gentillesse, son talent et sa création. Il était toujours disponible pour me soutenir normalement, scientifiquement ainsi qu’administrativement.

Je voudrais également remercier chaleureusement Tanmoy MONDAL pour ses conseils et ses discussions, ses explications, et sa gentillesse. Cela faisait vraiment un grand plaisir de travailler avec lui pendant ces cinq mois. Je remercie également toute l’équipe Image et Contenus ainsi que le laboratoire L3i pour leur accueil et leur aide pendant mon stage, notamment pour m’avoir fait profiter d’un bureau et d’un ordinateur ainsi que de toutes les infrastructures associées du L3i. Je tiens en outre à remercier Région Nouvelle Aquitaine & Européen Union qui, au travers du projet SeAD (contrat No ANR-13-BS02-0004), dans le programme opérationnel FEDER/FSE 2014-2020 a financé ce stage et sans qui rien n’aurait été matériellement possible.

Je désire remercier Made Windu Antara Kesiman pour m’avoir fourni le jeu de données BALI et pour son aide concernant les techniques de reconnaissance de caractères. Je voudrais exprimer mes sincères remerciements aux Vietnamiens dans le laboratoire L3i qui m’a beaucoup aidé pendant mon séjour à La Rochelle. Je tiens à remercier tous les employés ainsi que les secrétaires de l’IFI, pour leur aide à plusieurs reprises. Finalement, j’adresse un grand merci à toute ma famille et mes amis pour leur soutien et leur énorme encouragement au long de la réalisation de ce mémoire.

A tous ces intervenants, je présente mes remerciements, mon respect et ma gratitude. TIEU LUAN MOI download : skknchat@gmail.com 4 Table des figures et tableaux Figure 2-1: Structure générale d’un auto-encodeur. 14 Figure 2-2: Auto-encodeur vanille. 15 Figure 2-3: La couche de un-pooling.

20 Figure 2-4: Le graphique de calcul de la fonction de coût pour un dé-bruitage auto-encodeur. 21 Figure 2-5: L’architecture de GAN. 24 Figure 2-6 : Le générateur à DCGAN. 27 Figure 2-7 : L’architecture de l’auto-encodeur contradictoire.

31 Figure 3-1: Extrait de la base d'images MNIST. 33 Figure 3-2: Extrait de la base d'images BALI. 34 Figure 3-3: Extrait de la base d'images BALI après la chaîne de traitement. 35 Figure 3-4: Les images générées par divers modèles.

39 Figure 3-5 : Les classes de la base BALI qui donnent des bons résultats générés par l’auto-encodeur. 40 Figure 3-6 : Les classes de la base BALI qui donnent des bons résultats générés par le CAE. 41 Figure 3-7 : Les classes de la base BALI qui donent des bons résultats générés par le SPAE. 42 Figure 3-8 : Les classes de la base BALI qui donent des mauvais résultats générés par l’auto-encodeur.

43 Figure 3-9 : Les classes de la base BALI qui donent des mauvais résultats générés par le CAE. 44 Figure 3-10 : Les classes de la base BALI qui donent des mauvais résultats générés par le SPAE. 45 Figure 3-11: Le cas de deux classes : DI et I qui contiennts des images de caractères presque identiques. 46 Figure 3-12 : Le cas de deux classes : KA et KATEDONG qui contiennts des images de caractères presque identiques.

47 Figure 3-13 : Le cas de deux classes : TU et U qui contiennts des images de caractères presque identiques. 48 Tableau 4-1: Précision sur les images générées / originales. 50 TIEU LUAN MOI download : skknchat@gmail.com 5 Tableau des acronymes AAE Adversarial auto-encoder AE Auto-encoder CAE Contractive auto-encoder CGAN Conditional generative adversarial network CNN Convolutional neural network convAE Convolutional auto-encoder CVAE Conditional variational auto-encoder DCGAN Deep convolutional generative adversarial network DGM Deep generative network GAN Generative adversarial network KL Kullback-Leibler MSE Mean Squared Error PCA Principal Component Analysis SPAE Sparse auto-encoder VAE Variational auto-encoder WGAN Wassertein generative adversarial network TIEU LUAN MOI download : skknchat@gmail.com 6 INTRODUCTION À nos jours, le problème de la sécurisation de diplômes a pris beaucoup d’ampleur. En particulier, des besoins ont émergé dans le domaine de la sécurisation des diplômes auquel s’intéressent aujourd’hui un certain nombre d’acteurs car l’enjeu est de taille.

Il s’agit de protéger la réputation des établissements ainsi que d’améliorer l’insertion professionnelle de leurs étudiants. Il devient de plus en plus difficile pour les établissements d’assurer la protection de leurs diplômes, particulièrement à une époque où de plus en plus de modes de transfert d'informations sont disponibles. De nombreux mécanismes de sécurités des contenus (stéganographie) ont été proposés : QR code apposé sur les contenus, marquage des documents à base de nanoparticules, coffre-fort numérique, watermarking. Bien que ces mécanismes aient pu répondre à un ensemble d’exigences de sécurité, ils demeurent uniquement efficaces dans un contexte spécifique lié aux hypothèses et aux exigences restrictives qui ont été émises lors de la conception.

Parmi les méthodes pour sécuriser des contenus, il existe des méthodes visible et invisible. Pour les méthodes invisibles, l'idée est de cacher de l'information dans celle présente dans les documents comme celle proposée par le L3i et la société SOOD. En outre, l’explosion de l'apprentissage en profondeur, en particulier les modèles génératifs profonds (qui connais en anglais avec le nom : Deep Generative Modeles - DGM) qui offrent un nouveau potentiel pour les techniques de dissimulation de l'information. Dans le cadre du projet SeAD, nous aimerions donc appliquer le modèle génératif profond pour construire le prototype des diplômes de l’Université de La Rochelle.

Plus spécifiquement, après avoir identifié la zone importante, le modèle génératif est utilisé pour encoder des messages en fonction de cette zone détectée. C’est pourquoi, dans le cadre du projet SeAD, le travail de stage consiste à étudier les nouvelles méthodes de génération de caractères qui permettent d'encoder de l'information (via des caractères déformés) via des réseaux de neurones profonds. Dans le cadre de ce stage, une évaluation de la performance des douze modèles génératifs profonds différents des deux catégories des modèles : Auto-encodeur (AE) et Générative réseau contradictoire (qui connait en anglais : Generative Adversarial Network - GAN) sur deux ensembles de données manuscrites (MNIST et BALI) est proposée. Cette évaluation nous permet non seulement à trouver le modèle génératif parmi les douze modèles qui correspond le mieux aux caractères d’écritures, TIEU LUAN MOI download : skknchat@gmail.com 7 mais encore à mettre en évidence les avantages et les inconvénients de chaque modèle.

À partir de ces remarques sur ces modèles, nous pourrons proposer à l’avenir un modèle génératif qui fonctionnera efficacement avec des caractères manuscrits sur des diplômes de l’Université de La Rochelle Le mémoire est structuré en cinq grandes parties suivantes : Chapitre 1 – Présentation générale. Ce chapitre présente brièvement l’environnement du stage, le contexte du sujet et la description générale de l’objectif du stage, le domaine de recherche et le cadre du sujet. Chapitre 2 – Description des modèles génératifs. Dans ce chapitre, nous représentons les idées principales douze modèles génératifs de deux types de modèles : Auto-encoder (AE) et Generative Adversarial Network (GAN).

Chapitre 3 – Protocole expérimental. Dans le cadre de ce chapitre, on parlera des ensembles des données pour évaluer les modèles génératifs. Ensuite, le protocole expérimental sera présenté. Enfin, nous montrerons la technique de reconnaissance des images.

Chapitre 4 – Résultats et discussions. Ce chapitre consacre à présenter des résultats obtenus et des discussions sur ces résultats. Chapitre 5 – Conclusion et Perspective. Il s’agira de faire la conclusion et de présenter les perspectives du sujet.

TIEU LUAN MOI download : skknchat@gmail.com 8 Chapitre 1 : PRÉSENTATION GENÉRALE 1.1 Présentation de l’établissement d’accueil 1.1 Présentation de l’Université de La Rochelle – organisme d’accueil L’université de La Rochelle (ULR) est une université française pluridisciplinaire, située à La Rochelle. Fondée en 1993 dans le cadre des universités nouvelles, son campus est situé dans le quartier des Minimes à La Rochelle, en Charente – Maritime. Second pôle universitaire de l’académie de Poitiers, elle est membre de la Communauté d’université et établissements d’Aquitaine et a accédé aux “compétences élargies” en janvier 2009. L’université est spécialisée dans les problématiques de l’environnement littoral et du développement durable.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ phát triển một sản phẩm thử nghiệm nhằm đánh dấu các văn bản để ngăn chặn sự gian lận các văn bằng của đh la rochelle

LỜI CAM ĐOAN

REMERCIEMENTS

Table des figures et tableaux

Tableau des acronymes

INTRODUCTION

1. CHAPITRE 1 : PRÉSENTATION GÉNÉRALE

1.1. Présentation de l’établissement d’accueil

1.2. Présentation de l’Université de La Rochelle – organisme d’accueil

1.3. Présentation du laboratoire L3i – lieu de travail

1.4. Présentation du projet SeAD

1.5. Contexte du sujet

2. CHAPITRE 2 – DESCRIPTION DES MODÈLES GÉNÉRATIFS

2.1. Les variations de l’auto-encodeur (AE)

2.1.1. Auto-encodeur vanille et Auto-encodeur multicouches

2.1.2. L’architecture de l’auto-encodeur

2.1.3. La fonction de perte

2.1.4. Auto-encodeur sparse (SPAE)

2.1.5. Auto-encodeur contractif (CAE)

2.1.6. Auto-encodeur convolution (convolutional auto-encodeur -convAE)

2.1.7. Dé-bruitage auto-encodeur (de-noising auto-encodeur – de-noisingAE)

2.1.8. Auto-encodeur variationnel (VAE)

2.1.9. Auto-encodeur variationnel conditionnel (CVAE)

2.2. Les variations de générative réseau contradictoire (GAN)

2.2.1. Générative réseau contradictoire (Generative adversarial network - GAN)

2.2.1.1. L’architecture de GAN

2.2.1.2. Le processus d’apprentissage

2.2.1.3. La fonction de perte

2.2.2. Générative réseau contradictoire conditionnel (Conditional Generative Adversarial Networks – CGAN)

2.2.3. Profond convolutif générative réseau contradictoire (Deep Convolutional Generative Adversarial Networks – DCGAN)

2.2.4. Wasserstein générative réseau contradictoire (Wasserstein generative adversarial networks – WGAN)

2.2.5. Auto-encodeur contradictoire (Adversarial auto-encoder – AAE)

3. CHAPITRE 3 – PROTOCOLE EXPÉRIMENTAL

3.1. Les base de données

3.1.1. La base MNIST

3.1.2. La base BALI

3.2. Le protocole expérimental

3.3. Brève description de la technique de reconnaissance

3.3.1. Le système de reconnaissance pour la base MNIST

3.3.2. Le système de reconnaissance pour la base BALI

4. CHAPITRE 4 – RÉSULTATS ET DISCUSSIONS

4.1. Les résultats obtenus

4.2. Discussions sur les résultats obtenus

5. CHAPITRE 5 – CONCLUSION ET PERSPECTIVE

I. Tổng quan về gian lận văn bằng ĐH La Rochelle và cách ngăn chặn

1.1. Tình hình gian lận văn bằng tại ĐH La Rochelle

1.2. Tại sao cần ngăn chặn gian lận văn bằng

II. Các thách thức trong việc ngăn chặn gian lận văn bằng ĐH La Rochelle

2.1. Các hình thức gian lận phổ biến

2.2. Khó khăn trong việc phát hiện gian lận

III. Phương pháp ngăn chặn gian lận văn bằng hiệu quả tại ĐH La Rochelle

3.1. Sử dụng công nghệ mã hóa và watermarking

3.2. Kiểm tra và xác minh văn bằng

IV. Ứng dụng thực tiễn và kết quả nghiên cứu về gian lận văn bằng

4.1. Kết quả từ các nghiên cứu thực tiễn

4.2. Ứng dụng công nghệ trong giáo dục

V. Kết luận và tương lai của việc ngăn chặn gian lận văn bằng ĐH La Rochelle

5.1. Tương lai của công nghệ trong giáo dục

5.2. Đề xuất các giải pháp mới

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Lê Thị Thùy Trang

Người hướng dẫn: Dr. Mickaël Coustaty

Trường học: Université de La Rochelle

Chuyên ngành: Informatique

Đề tài: Ngăn Chặn Gian Lận Văn Bằng ĐH La Rochelle

Loại tài liệu: Mémoire

Năm xuất bản: 2018

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận