Khôi phục depthmap từ bản in 2D mộc bản luận văn thạc sĩ Khoa học Máy tính - Trường Đại học Công ...

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. MỞ ĐẦU

2. CHƯƠNG 1: KIẾN THỨC NỀN TẢNG

1.1. Tổng quan mộc bản triều Nguyễn

1.1.1. Giới thiệu mộc bản triều Nguyễn

1.1.2. Hiện trạng của mộc bản triều Nguyễn

1.1.3. Khôi phục mộc bản từ bản in

1.2. Công nghệ số hóa 3D mộc bản

1.3. Tổng quan depthmap

1.4. Mô hình sinh depthmap từ ảnh 2D

1.4.1. Mô hình pix2pix

1.4.2. Mô hình CLUT

1.5. Độ đo Fréchet Inception Distance

1.6. Tổng kết chương

3. CHƯƠNG 2: KHÔI PHỤC DEPTHMAP TỪ BẢN IN 2D MỘC BẢN

2.1. Quy trình chuẩn bị tập dữ liệu huấn luyện

2.1.1. Xử lý dữ liệu thủ công

2.1.2. Xử lý dữ liệu bán tự động

2.1.3. Sinh ảnh depthmap từ mô hình 3D

2.1.4. Sinh thêm dữ liệu huấn luyện

2.2. Sinh depthmap từ bản in 2D mộc bản

2.3. Tổng kết chương

4. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

3.1. Bộ dữ liệu

3.2. Thử nghiệm CUT, Fast-Cut và pix2pix

3.3. Thử nghiệm pix2pix cho toàn bộ tập dữ liệu

3.4. Tổng kết chương

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về khôi phục depthmap từ bản in 2D mộc bản

Khôi phục depthmap từ bản in 2D mộc bản là một lĩnh vực nghiên cứu quan trọng trong khoa học máy tính. Mộc bản triều Nguyễn, được UNESCO công nhận là di sản tư liệu thế giới, đang đối mặt với nhiều thách thức trong việc bảo tồn. Việc khôi phục này không chỉ giúp bảo tồn văn hóa mà còn tạo ra các mô hình 3D từ các bản in 2D đã lưu trữ.

1.1. Giới thiệu về mộc bản triều Nguyễn

Mộc bản triều Nguyễn là những tấm gỗ khắc chữ Hán hoặc chữ Nôm, được sử dụng để in sách trong thời kỳ phong kiến. Chúng đóng vai trò quan trọng trong việc lưu giữ lịch sử và văn hóa Việt Nam.

1.2. Tình trạng hiện tại của mộc bản

Hiện nay, nhiều tấm mộc bản đã bị hư hại hoặc thất lạc. Việc bảo tồn và khôi phục chúng là cần thiết để giữ gìn di sản văn hóa quý giá này.

II. Vấn đề và thách thức trong khôi phục depthmap

Khôi phục depthmap từ bản in 2D mộc bản gặp nhiều thách thức. Các tấm mộc bản không còn nguyên vẹn, và việc chuyển đổi từ 2D sang 3D là một bài toán phức tạp. Cần có các phương pháp hiệu quả để giải quyết vấn đề này.

2.1. Những khó khăn trong việc khôi phục

Việc khôi phục depthmap từ bản in 2D gặp khó khăn do chất lượng hình ảnh không đồng đều và sự thiếu hụt thông tin từ các tấm mộc bản bị hư hại.

2.2. Giải pháp cho các thách thức

Cần áp dụng các công nghệ hiện đại như học máy và xử lý hình ảnh để cải thiện độ chính xác trong việc khôi phục depthmap từ bản in 2D.

III. Phương pháp khôi phục depthmap hiệu quả

Nghiên cứu này đề xuất các phương pháp khôi phục depthmap từ bản in 2D mộc bản. Các phương pháp này bao gồm việc sử dụng mô hình học máy và quy trình xử lý dữ liệu để tạo ra các mô hình 3D chính xác.

3.1. Quy trình chuẩn bị dữ liệu

Quy trình chuẩn bị dữ liệu bao gồm việc thu thập và xử lý các bản in 2D để tạo ra tập dữ liệu huấn luyện cho mô hình khôi phục depthmap.

3.2. Mô hình học máy áp dụng

Mô hình học máy như pix2pix và CLUT được áp dụng để sinh ra depthmap từ các bản in 2D, giúp cải thiện độ chính xác và hiệu quả của quá trình khôi phục.

IV. Ứng dụng thực tiễn của khôi phục depthmap

Khôi phục depthmap từ bản in 2D mộc bản không chỉ có giá trị trong việc bảo tồn văn hóa mà còn có ứng dụng trong nhiều lĩnh vực khác nhau như giáo dục, nghiên cứu và trưng bày nghệ thuật.

4.1. Giá trị trong bảo tồn văn hóa

Việc khôi phục depthmap giúp bảo tồn các giá trị văn hóa và lịch sử, tạo điều kiện cho thế hệ sau hiểu rõ hơn về di sản văn hóa của dân tộc.

4.2. Ứng dụng trong giáo dục và nghiên cứu

Các mô hình 3D được khôi phục có thể được sử dụng trong giáo dục và nghiên cứu, giúp sinh viên và nhà nghiên cứu tiếp cận với di sản văn hóa một cách trực quan hơn.

V. Kết luận và tương lai của khôi phục depthmap

Khôi phục depthmap từ bản in 2D mộc bản là một lĩnh vực đầy tiềm năng. Nghiên cứu này mở ra hướng đi mới cho việc bảo tồn di sản văn hóa và ứng dụng công nghệ trong lĩnh vực này.

5.1. Tóm tắt kết quả nghiên cứu

Nghiên cứu đã chỉ ra rằng việc khôi phục depthmap từ bản in 2D có thể thực hiện được thông qua các phương pháp học máy và quy trình xử lý dữ liệu hiệu quả.

5.2. Định hướng tương lai

Trong tương lai, cần tiếp tục nghiên cứu và phát triển các công nghệ mới để cải thiện độ chính xác và hiệu quả trong việc khôi phục depthmap từ bản in 2D mộc bản.

27/07/2025

Bạn đang xem trước tài liệu:

Khôi phục depthmap từ bản in 2d mộc bản luận văn thạc sĩ khoa học máy tính

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Mộc bản triều Nguyễn, được UNESCO công nhận là di sản tư liệu thế giới từ năm 2009, hiện còn lưu trữ khoảng 34.619 tấm trong tổng số hơn 50.000 tấm ban đầu. Tuy nhiên, nhiều tấm mộc bản đã bị hư hại hoặc thất lạc, gây khó khăn cho việc bảo tồn và nghiên cứu. Việc khôi phục các tấm mộc bản không nguyên vẹn hoặc mất mát trở thành một thách thức lớn trong lĩnh vực bảo tồn di sản văn hóa. Nghiên cứu này tập trung vào việc khôi phục ảnh độ sâu (depthmap) từ bản in 2D của mộc bản, nhằm tạo ra biểu diễn trung gian giúp tái tạo mô hình 3D của các tấm mộc bản bị thất lạc hoặc hư hỏng.

Mục tiêu cụ thể của luận văn là xây dựng quy trình xử lý dữ liệu, đề xuất mô hình học máy phù hợp và đánh giá kết quả khôi phục depthmap từ bản in 2D mộc bản. Phạm vi nghiên cứu giới hạn trong việc khôi phục depthmap ở mức ký tự chữ Hán-Nôm, dựa trên dữ liệu số hóa 3D và ảnh scan bản in 2D của mộc bản lưu trữ tại Trung tâm Lưu trữ quốc gia IV. Nghiên cứu có ý nghĩa quan trọng trong việc bảo tồn, phục hồi và số hóa di sản mộc bản, đồng thời mở ra hướng tiếp cận mới ứng dụng trí tuệ nhân tạo trong lĩnh vực bảo tồn văn hóa.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Depthmap: Là ảnh 2D chứa thông tin chiều sâu của đối tượng từ một điểm nhìn, giúp biểu diễn đặc trưng 3D một cách gián tiếp. Depthmap được sử dụng làm đối tượng trung gian để khôi phục mô hình 3D từ ảnh 2D bản in mộc bản.
Mạng đối lập tạo sinh có điều kiện (Conditional GAN - cGAN): Mô hình pix2pix được lựa chọn để thực hiện dịch ảnh 2D sang depthmap. Pix2pix sử dụng kiến trúc U-Net với các kết nối bỏ qua (skip connections) giúp giữ lại thông tin chi tiết trong quá trình chuyển đổi ảnh.
Học mâu thuẫn (Contrastive Learning): Mô hình CLUT (Contrastive Learning for Unpaired Image-to-Image Translation) được áp dụng để xử lý dữ liệu không ghép cặp, tối đa hóa thông tin lẫn nhau giữa ảnh đầu vào và ảnh đầu ra, nâng cao chất lượng ảnh depthmap sinh ra.
Độ đo Fréchet Inception Distance (FID): Được sử dụng để đánh giá chất lượng ảnh depthmap sinh ra, đo khoảng cách giữa phân phối đặc trưng của ảnh gốc và ảnh sinh ra, với giá trị FID càng thấp chứng tỏ ảnh sinh ra càng giống ảnh thật.

Các khái niệm chính bao gồm: depthmap, mạng GAN có điều kiện, học mâu thuẫn, mô hình pix2pix, mô hình CLUT, và độ đo FID.

Phương pháp nghiên cứu

Nguồn dữ liệu chính gồm:

Mô hình 3D số hóa từ tấm mộc bản gốc, lưu dưới định dạng STL.
Ảnh scan bản in 2D chất lượng cao của mộc bản.

Phương pháp nghiên cứu bao gồm:

Xử lý dữ liệu: Trích xuất ký tự chữ từ mô hình 3D và ảnh 2D bản in, thực hiện ghép cặp dữ liệu một-một giữa ký tự depthmap và ký tự bản in. Hai phương pháp trích xuất được áp dụng là thủ công và bán tự động sử dụng công cụ xử lý ảnh OpenCV.
Tăng cường dữ liệu (Data augmentation): Sinh thêm dữ liệu huấn luyện bằng cách áp dụng nhiều mức threshold (35%-55%) và xoay ảnh (0°, 90°, 180°, 270°), tạo ra tổng cộng 20 ảnh từ mỗi ảnh gốc nhằm đa dạng hóa tập huấn luyện.
Huấn luyện mô hình học máy: Sử dụng mô hình pix2pix và thử nghiệm các mô hình CUT, Fast-CUT để tìm ra mô hình phù hợp nhất cho bài toán khôi phục depthmap.
Đánh giá mô hình: Sử dụng độ đo FID để đánh giá chất lượng ảnh depthmap sinh ra, so sánh kết quả giữa các mô hình.

Quy trình nghiên cứu được thực hiện trong khoảng thời gian từ 2020 đến 2022 tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, với cỡ mẫu dữ liệu huấn luyện gồm hàng nghìn ký tự trích xuất từ mộc bản.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Xây dựng thành công bộ dữ liệu huấn luyện: Tác giả đã thiết lập quy trình trích xuất và ghép cặp ký tự depthmap và bản in 2D, tạo ra bộ dữ liệu huấn luyện với hàng nghìn cặp ảnh ký tự. Việc áp dụng tăng cường dữ liệu đã giúp mở rộng tập huấn luyện lên khoảng 20 lần so với dữ liệu gốc.
Hiệu quả mô hình pix2pix vượt trội: Qua thử nghiệm trên tập dữ liệu con, pix2pix đạt giá trị FID thấp hơn 15% so với các mô hình CUT và Fast-CUT, cho thấy khả năng sinh ảnh depthmap chính xác và chi tiết hơn.
Khả năng khôi phục depthmap từ bản in 2D: Mô hình học máy đã khôi phục thành công ảnh depthmap thể hiện rõ chiều sâu và hình dạng ký tự, với độ chính xác đạt khoảng 85% so với ảnh depthmap gốc. Kết quả này được minh họa qua các biểu đồ so sánh FID và các ảnh depthmap mẫu.
Giới hạn và thách thức: Một số ký tự phức tạp hoặc bị chồng lấn trong bản in 2D gây khó khăn cho việc trích xuất và khôi phục chính xác. Công cụ trích xuất ký tự bán tự động còn gặp hạn chế trong việc phân biệt vùng chữ và nền mực.

Thảo luận kết quả

Nguyên nhân thành công của mô hình pix2pix là do kiến trúc U-Net với các kết nối bỏ qua giúp giữ lại thông tin chi tiết của ký tự trong quá trình chuyển đổi ảnh. So với các mô hình không ghép cặp như CUT và Fast-CUT, pix2pix tận dụng được dữ liệu ghép cặp chính xác, từ đó nâng cao chất lượng ảnh depthmap sinh ra.

Kết quả phù hợp với các nghiên cứu trước đây về ứng dụng pix2pix trong dịch ảnh sang ảnh có ghép cặp, đồng thời mở rộng ứng dụng vào lĩnh vực bảo tồn di sản văn hóa. Việc sử dụng độ đo FID làm tiêu chí đánh giá giúp định lượng chất lượng ảnh sinh ra một cách khách quan, giảm thiểu sự phụ thuộc vào cảm quan con người.

Tuy nhiên, việc trích xuất ký tự chính xác vẫn là thách thức lớn, đặc biệt với các ký tự bị hư hại hoặc chồng lấn. Việc cải tiến công cụ trích xuất ký tự, kết hợp thêm dữ liệu chữ Hán-Nôm và áp dụng các kỹ thuật nhận dạng ký tự quang học (OCR) có thể nâng cao hiệu quả trong tương lai.

Đề xuất và khuyến nghị

Phát triển công cụ trích xuất ký tự tự động: Áp dụng các kỹ thuật học sâu nhận dạng ký tự Hán-Nôm để tự động phân tách và nhận diện ký tự trong bản in 2D, giảm thiểu sai sót và tăng tốc độ xử lý. Mục tiêu nâng cao độ chính xác trích xuất ký tự lên trên 90% trong vòng 12 tháng, do nhóm nghiên cứu CNTT thực hiện.
Mở rộng tập dữ liệu huấn luyện: Thu thập thêm dữ liệu ký tự từ các tấm mộc bản khác nhau, đa dạng hóa các kiểu chữ và tình trạng hư hại để tăng khả năng tổng quát của mô hình. Kế hoạch thực hiện trong 18 tháng, phối hợp với Trung tâm Lưu trữ quốc gia IV.
Nâng cao mô hình học máy: Thử nghiệm các kiến trúc GAN mới như StyleGAN hoặc mô hình Transformer để cải thiện chất lượng ảnh depthmap, đồng thời kết hợp học mâu thuẫn để tận dụng dữ liệu không ghép cặp. Mục tiêu giảm giá trị FID thêm 10% trong 24 tháng tới.
Ứng dụng kết quả vào bảo tồn di sản: Phối hợp với các cơ quan bảo tồn để áp dụng mô hình khôi phục depthmap trong việc phục hồi các tấm mộc bản bị hư hại, hỗ trợ số hóa và trưng bày di sản. Thời gian triển khai thử nghiệm trong 6 tháng, mở rộng sau khi đánh giá hiệu quả.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu bảo tồn di sản văn hóa: Luận văn cung cấp phương pháp số hóa và khôi phục mộc bản bằng công nghệ học máy, hỗ trợ bảo tồn các tài liệu quý hiếm.
Chuyên gia khoa học máy tính và trí tuệ nhân tạo: Tài liệu trình bày chi tiết ứng dụng mạng GAN và học mâu thuẫn trong xử lý ảnh, là nguồn tham khảo cho các nghiên cứu về dịch ảnh sang ảnh.
Cơ quan lưu trữ và thư viện số: Giúp xây dựng quy trình số hóa và phục hồi tài liệu lịch sử, nâng cao chất lượng lưu trữ và truy cập dữ liệu.
Sinh viên và học viên cao học ngành Khoa học máy tính, Công nghệ thông tin: Cung cấp kiến thức nền tảng và phương pháp thực nghiệm về xử lý ảnh, học sâu và ứng dụng trong lĩnh vực văn hóa.

Câu hỏi thường gặp

1. Depthmap là gì và tại sao lại dùng để khôi phục mô hình 3D?
Depthmap là ảnh 2D chứa thông tin chiều sâu của đối tượng từ một điểm nhìn, giúp biểu diễn đặc trưng 3D một cách gián tiếp. Sử dụng depthmap làm đối tượng trung gian giúp giảm độ phức tạp so với khôi phục trực tiếp mô hình 3D từ ảnh 2D, đồng thời giữ lại các đặc trưng không gian quan trọng.

2. Tại sao chọn mô hình pix2pix thay vì các mô hình GAN khác?
Pix2pix là mô hình GAN có điều kiện, phù hợp với bài toán dịch ảnh ghép cặp, tận dụng được dữ liệu đầu vào và đầu ra tương ứng. Kiến trúc U-Net với các kết nối bỏ qua giúp giữ lại chi tiết ảnh, nâng cao chất lượng ảnh depthmap sinh ra so với các mô hình không ghép cặp như CUT hay Fast-CUT.

3. Công cụ trích xuất ký tự bán tự động hoạt động như thế nào?
Công cụ sử dụng kỹ thuật xử lý ảnh để xác định lưới cắt các vùng chứa ký tự dựa trên đường mức một và các đường dọc ngang, sau đó cắt ảnh thành các khối nhỏ tương ứng với từng ký tự. Công cụ giúp giảm thời gian và công sức so với trích xuất thủ công, tuy nhiên vẫn cần cải tiến để xử lý các trường hợp phức tạp.

4. Độ đo Fréchet Inception Distance (FID) có ý nghĩa gì trong đánh giá mô hình?
FID đo khoảng cách giữa phân phối đặc trưng của ảnh gốc và ảnh sinh ra bởi mô hình GAN. Giá trị FID thấp cho thấy ảnh sinh ra có chất lượng cao, gần giống ảnh thật. Đây là tiêu chí khách quan để so sánh hiệu quả các mô hình học máy trong bài toán dịch ảnh sang ảnh.

5. Nghiên cứu này có thể áp dụng cho các loại tài liệu số hóa khác không?
Phương pháp và mô hình được đề xuất có thể mở rộng áp dụng cho các tài liệu số hóa khác có cấu trúc tương tự, như bản đồ, tranh cổ, hoặc các tài liệu in ấn có đặc trưng 3D tiềm ẩn trong ảnh 2D. Tuy nhiên cần điều chỉnh và huấn luyện lại mô hình phù hợp với từng loại dữ liệu cụ thể.

Kết luận

Đã xây dựng thành công quy trình chuẩn bị dữ liệu và huấn luyện mô hình học máy để khôi phục depthmap từ bản in 2D mộc bản.
Mô hình pix2pix được đề xuất và thử nghiệm cho kết quả tốt nhất với giá trị FID thấp hơn 15% so với các mô hình khác.
Công cụ trích xuất ký tự bán tự động giúp giảm thiểu thời gian và công sức chuẩn bị dữ liệu, mặc dù còn một số hạn chế cần cải tiến.
Nghiên cứu góp phần quan trọng vào việc bảo tồn và phục hồi di sản mộc bản triều Nguyễn, mở ra hướng ứng dụng trí tuệ nhân tạo trong lĩnh vực văn hóa.
Định hướng phát triển tiếp theo bao gồm nâng cao công cụ trích xuất ký tự, mở rộng tập dữ liệu và áp dụng các mô hình học sâu tiên tiến hơn.

Để tiếp tục phát triển nghiên cứu, các nhà khoa học và chuyên gia bảo tồn được khuyến khích áp dụng và cải tiến phương pháp này, đồng thời phối hợp triển khai thực tế nhằm bảo vệ và phát huy giá trị di sản văn hóa quý báu của Việt Nam.

Chủ đề

Thị giác máy tính và xử lý ảnh

bảo tồn di sản văn hóa số

khôi phục thông tin 3D từ ảnh 2D