Tổng quan nghiên cứu
Mộc bản triều Nguyễn, được UNESCO công nhận là di sản tư liệu thế giới từ năm 2009, hiện còn lưu trữ khoảng 34.619 tấm trong tổng số hơn 50.000 tấm ban đầu. Tuy nhiên, nhiều tấm mộc bản đã bị hư hại hoặc thất lạc, gây khó khăn cho việc bảo tồn và nghiên cứu. Việc khôi phục các tấm mộc bản không nguyên vẹn hoặc mất mát trở thành một thách thức lớn trong lĩnh vực bảo tồn di sản văn hóa. Nghiên cứu này tập trung vào việc khôi phục ảnh độ sâu (depthmap) từ bản in 2D của mộc bản, nhằm tạo ra biểu diễn trung gian giúp tái tạo mô hình 3D của các tấm mộc bản bị thất lạc hoặc hư hỏng.
Mục tiêu cụ thể của luận văn là xây dựng quy trình xử lý dữ liệu, đề xuất mô hình học máy phù hợp và đánh giá kết quả khôi phục depthmap từ bản in 2D mộc bản. Phạm vi nghiên cứu giới hạn trong việc khôi phục depthmap ở mức ký tự chữ Hán-Nôm, dựa trên dữ liệu số hóa 3D và ảnh scan bản in 2D của mộc bản lưu trữ tại Trung tâm Lưu trữ quốc gia IV. Nghiên cứu có ý nghĩa quan trọng trong việc bảo tồn, phục hồi và số hóa di sản mộc bản, đồng thời mở ra hướng tiếp cận mới ứng dụng trí tuệ nhân tạo trong lĩnh vực bảo tồn văn hóa.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
-
Depthmap: Là ảnh 2D chứa thông tin chiều sâu của đối tượng từ một điểm nhìn, giúp biểu diễn đặc trưng 3D một cách gián tiếp. Depthmap được sử dụng làm đối tượng trung gian để khôi phục mô hình 3D từ ảnh 2D bản in mộc bản.
-
Mạng đối lập tạo sinh có điều kiện (Conditional GAN - cGAN): Mô hình pix2pix được lựa chọn để thực hiện dịch ảnh 2D sang depthmap. Pix2pix sử dụng kiến trúc U-Net với các kết nối bỏ qua (skip connections) giúp giữ lại thông tin chi tiết trong quá trình chuyển đổi ảnh.
-
Học mâu thuẫn (Contrastive Learning): Mô hình CLUT (Contrastive Learning for Unpaired Image-to-Image Translation) được áp dụng để xử lý dữ liệu không ghép cặp, tối đa hóa thông tin lẫn nhau giữa ảnh đầu vào và ảnh đầu ra, nâng cao chất lượng ảnh depthmap sinh ra.
-
Độ đo Fréchet Inception Distance (FID): Được sử dụng để đánh giá chất lượng ảnh depthmap sinh ra, đo khoảng cách giữa phân phối đặc trưng của ảnh gốc và ảnh sinh ra, với giá trị FID càng thấp chứng tỏ ảnh sinh ra càng giống ảnh thật.
Các khái niệm chính bao gồm: depthmap, mạng GAN có điều kiện, học mâu thuẫn, mô hình pix2pix, mô hình CLUT, và độ đo FID.
Phương pháp nghiên cứu
Nguồn dữ liệu chính gồm:
- Mô hình 3D số hóa từ tấm mộc bản gốc, lưu dưới định dạng STL.
- Ảnh scan bản in 2D chất lượng cao của mộc bản.
Phương pháp nghiên cứu bao gồm:
-
Xử lý dữ liệu: Trích xuất ký tự chữ từ mô hình 3D và ảnh 2D bản in, thực hiện ghép cặp dữ liệu một-một giữa ký tự depthmap và ký tự bản in. Hai phương pháp trích xuất được áp dụng là thủ công và bán tự động sử dụng công cụ xử lý ảnh OpenCV.
-
Tăng cường dữ liệu (Data augmentation): Sinh thêm dữ liệu huấn luyện bằng cách áp dụng nhiều mức threshold (35%-55%) và xoay ảnh (0°, 90°, 180°, 270°), tạo ra tổng cộng 20 ảnh từ mỗi ảnh gốc nhằm đa dạng hóa tập huấn luyện.
-
Huấn luyện mô hình học máy: Sử dụng mô hình pix2pix và thử nghiệm các mô hình CUT, Fast-CUT để tìm ra mô hình phù hợp nhất cho bài toán khôi phục depthmap.
-
Đánh giá mô hình: Sử dụng độ đo FID để đánh giá chất lượng ảnh depthmap sinh ra, so sánh kết quả giữa các mô hình.
Quy trình nghiên cứu được thực hiện trong khoảng thời gian từ 2020 đến 2022 tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, với cỡ mẫu dữ liệu huấn luyện gồm hàng nghìn ký tự trích xuất từ mộc bản.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
-
Xây dựng thành công bộ dữ liệu huấn luyện: Tác giả đã thiết lập quy trình trích xuất và ghép cặp ký tự depthmap và bản in 2D, tạo ra bộ dữ liệu huấn luyện với hàng nghìn cặp ảnh ký tự. Việc áp dụng tăng cường dữ liệu đã giúp mở rộng tập huấn luyện lên khoảng 20 lần so với dữ liệu gốc.
-
Hiệu quả mô hình pix2pix vượt trội: Qua thử nghiệm trên tập dữ liệu con, pix2pix đạt giá trị FID thấp hơn 15% so với các mô hình CUT và Fast-CUT, cho thấy khả năng sinh ảnh depthmap chính xác và chi tiết hơn.
-
Khả năng khôi phục depthmap từ bản in 2D: Mô hình học máy đã khôi phục thành công ảnh depthmap thể hiện rõ chiều sâu và hình dạng ký tự, với độ chính xác đạt khoảng 85% so với ảnh depthmap gốc. Kết quả này được minh họa qua các biểu đồ so sánh FID và các ảnh depthmap mẫu.
-
Giới hạn và thách thức: Một số ký tự phức tạp hoặc bị chồng lấn trong bản in 2D gây khó khăn cho việc trích xuất và khôi phục chính xác. Công cụ trích xuất ký tự bán tự động còn gặp hạn chế trong việc phân biệt vùng chữ và nền mực.
Thảo luận kết quả
Nguyên nhân thành công của mô hình pix2pix là do kiến trúc U-Net với các kết nối bỏ qua giúp giữ lại thông tin chi tiết của ký tự trong quá trình chuyển đổi ảnh. So với các mô hình không ghép cặp như CUT và Fast-CUT, pix2pix tận dụng được dữ liệu ghép cặp chính xác, từ đó nâng cao chất lượng ảnh depthmap sinh ra.
Kết quả phù hợp với các nghiên cứu trước đây về ứng dụng pix2pix trong dịch ảnh sang ảnh có ghép cặp, đồng thời mở rộng ứng dụng vào lĩnh vực bảo tồn di sản văn hóa. Việc sử dụng độ đo FID làm tiêu chí đánh giá giúp định lượng chất lượng ảnh sinh ra một cách khách quan, giảm thiểu sự phụ thuộc vào cảm quan con người.
Tuy nhiên, việc trích xuất ký tự chính xác vẫn là thách thức lớn, đặc biệt với các ký tự bị hư hại hoặc chồng lấn. Việc cải tiến công cụ trích xuất ký tự, kết hợp thêm dữ liệu chữ Hán-Nôm và áp dụng các kỹ thuật nhận dạng ký tự quang học (OCR) có thể nâng cao hiệu quả trong tương lai.
Đề xuất và khuyến nghị
-
Phát triển công cụ trích xuất ký tự tự động: Áp dụng các kỹ thuật học sâu nhận dạng ký tự Hán-Nôm để tự động phân tách và nhận diện ký tự trong bản in 2D, giảm thiểu sai sót và tăng tốc độ xử lý. Mục tiêu nâng cao độ chính xác trích xuất ký tự lên trên 90% trong vòng 12 tháng, do nhóm nghiên cứu CNTT thực hiện.
-
Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu ký tự từ các tấm mộc bản khác nhau, đa dạng hóa các kiểu chữ và tình trạng hư hại để tăng khả năng tổng quát của mô hình. Kế hoạch thực hiện trong 18 tháng, phối hợp với Trung tâm Lưu trữ quốc gia IV.
-
Nâng cao mô hình học máy: Thử nghiệm các kiến trúc GAN mới như StyleGAN hoặc mô hình Transformer để cải thiện chất lượng ảnh depthmap, đồng thời kết hợp học mâu thuẫn để tận dụng dữ liệu không ghép cặp. Mục tiêu giảm giá trị FID thêm 10% trong 24 tháng tới.
-
Ứng dụng kết quả vào bảo tồn di sản: Phối hợp với các cơ quan bảo tồn để áp dụng mô hình khôi phục depthmap trong việc phục hồi các tấm mộc bản bị hư hại, hỗ trợ số hóa và trưng bày di sản. Thời gian triển khai thử nghiệm trong 6 tháng, mở rộng sau khi đánh giá hiệu quả.
Đối tượng nên tham khảo luận văn
-
Nhà nghiên cứu bảo tồn di sản văn hóa: Luận văn cung cấp phương pháp số hóa và khôi phục mộc bản bằng công nghệ học máy, hỗ trợ bảo tồn các tài liệu quý hiếm.
-
Chuyên gia khoa học máy tính và trí tuệ nhân tạo: Tài liệu trình bày chi tiết ứng dụng mạng GAN và học mâu thuẫn trong xử lý ảnh, là nguồn tham khảo cho các nghiên cứu về dịch ảnh sang ảnh.
-
Cơ quan lưu trữ và thư viện số: Giúp xây dựng quy trình số hóa và phục hồi tài liệu lịch sử, nâng cao chất lượng lưu trữ và truy cập dữ liệu.
-
Sinh viên và học viên cao học ngành Khoa học máy tính, Công nghệ thông tin: Cung cấp kiến thức nền tảng và phương pháp thực nghiệm về xử lý ảnh, học sâu và ứng dụng trong lĩnh vực văn hóa.
Câu hỏi thường gặp
1. Depthmap là gì và tại sao lại dùng để khôi phục mô hình 3D?
Depthmap là ảnh 2D chứa thông tin chiều sâu của đối tượng từ một điểm nhìn, giúp biểu diễn đặc trưng 3D một cách gián tiếp. Sử dụng depthmap làm đối tượng trung gian giúp giảm độ phức tạp so với khôi phục trực tiếp mô hình 3D từ ảnh 2D, đồng thời giữ lại các đặc trưng không gian quan trọng.
2. Tại sao chọn mô hình pix2pix thay vì các mô hình GAN khác?
Pix2pix là mô hình GAN có điều kiện, phù hợp với bài toán dịch ảnh ghép cặp, tận dụng được dữ liệu đầu vào và đầu ra tương ứng. Kiến trúc U-Net với các kết nối bỏ qua giúp giữ lại chi tiết ảnh, nâng cao chất lượng ảnh depthmap sinh ra so với các mô hình không ghép cặp như CUT hay Fast-CUT.
3. Công cụ trích xuất ký tự bán tự động hoạt động như thế nào?
Công cụ sử dụng kỹ thuật xử lý ảnh để xác định lưới cắt các vùng chứa ký tự dựa trên đường mức một và các đường dọc ngang, sau đó cắt ảnh thành các khối nhỏ tương ứng với từng ký tự. Công cụ giúp giảm thời gian và công sức so với trích xuất thủ công, tuy nhiên vẫn cần cải tiến để xử lý các trường hợp phức tạp.
4. Độ đo Fréchet Inception Distance (FID) có ý nghĩa gì trong đánh giá mô hình?
FID đo khoảng cách giữa phân phối đặc trưng của ảnh gốc và ảnh sinh ra bởi mô hình GAN. Giá trị FID thấp cho thấy ảnh sinh ra có chất lượng cao, gần giống ảnh thật. Đây là tiêu chí khách quan để so sánh hiệu quả các mô hình học máy trong bài toán dịch ảnh sang ảnh.
5. Nghiên cứu này có thể áp dụng cho các loại tài liệu số hóa khác không?
Phương pháp và mô hình được đề xuất có thể mở rộng áp dụng cho các tài liệu số hóa khác có cấu trúc tương tự, như bản đồ, tranh cổ, hoặc các tài liệu in ấn có đặc trưng 3D tiềm ẩn trong ảnh 2D. Tuy nhiên cần điều chỉnh và huấn luyện lại mô hình phù hợp với từng loại dữ liệu cụ thể.
Kết luận
- Đã xây dựng thành công quy trình chuẩn bị dữ liệu và huấn luyện mô hình học máy để khôi phục depthmap từ bản in 2D mộc bản.
- Mô hình pix2pix được đề xuất và thử nghiệm cho kết quả tốt nhất với giá trị FID thấp hơn 15% so với các mô hình khác.
- Công cụ trích xuất ký tự bán tự động giúp giảm thiểu thời gian và công sức chuẩn bị dữ liệu, mặc dù còn một số hạn chế cần cải tiến.
- Nghiên cứu góp phần quan trọng vào việc bảo tồn và phục hồi di sản mộc bản triều Nguyễn, mở ra hướng ứng dụng trí tuệ nhân tạo trong lĩnh vực văn hóa.
- Định hướng phát triển tiếp theo bao gồm nâng cao công cụ trích xuất ký tự, mở rộng tập dữ liệu và áp dụng các mô hình học sâu tiên tiến hơn.
Để tiếp tục phát triển nghiên cứu, các nhà khoa học và chuyên gia bảo tồn được khuyến khích áp dụng và cải tiến phương pháp này, đồng thời phối hợp triển khai thực tế nhằm bảo vệ và phát huy giá trị di sản văn hóa quý báu của Việt Nam.