Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng việt

Khám phá phương pháp học sâu hiệu quả cho bài toán hỏi đáp trên ảnh infographics tiếng Việt, nâng cao khả năng xử lý ngôn ngữ tự nhiên.

Trường đại học

Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2021

115

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Phạm vi và mục tiêu

1.3. Đóng góp của khóa luận

1.4. Cấu trúc khóa luận

2. CHƯƠNG 2: KIẾN THỨC CƠ SỞ

2.1. Mở đầu

2.2. Tổng quan về bài toán hỏi đáp trên hình ảnh infographic

2.2.1. Ảnh infographic là gì?

2.2.2. Định nghĩa bài toán

2.2.3. Nhu cầu của bài toán

2.2.4. Vai trò của ảnh infographic trong cuộc sống

2.2.5. Thách thức của bài toán

2.3. Các nghiên cứu liên quan

2.3.1. Hướng tiếp cận modular method

2.3.2. Hướng tiếp cận monolithic method

2.4. Kiến trúc tổng quan cho bài toán hỏi đáp trên ảnh

2.4.1. Rút trích đặc trưng thị giác

2.4.1.1. Một số kiến trúc dùng để rút trích đặc trưng thị giác

2.4.2. Rút trích đặc trưng văn bản

2.4.2.1. Một số kiến trúc dùng để rút trích đặc trưng trong văn bản

2.4.3. Kết hợp thông tin thị giác và văn bản

3. CHƯƠNG 3: ĐÁNH GIÁ MỘT SỐ PHƯƠNG PHÁP HỌC SÂU CHO BÀI TOÁN HỎI ĐÁP DỰA TRÊN ẢNH INFOGRAPHIC

3.1. Kiến trúc Transformer

3.1.1. Các thành phần cơ bản trong Transformer

3.2. Phương pháp BERT

3.2.1. Các giai đoạn trong mô hình BERT

3.2.2. Các kiến trúc mô hình BERT

3.2.3. Áp dụng BERT cho bài toán hỏi đáp

3.3. Phương pháp LayoutLMv2

3.3.1. Kiến trúc mô hình

3.3.2. Multi-modal Encoder with Spatial-Aware Self-Attention Mechanism

3.3.3. Huấn luyện mô hình LayoutLMv2

3.3.3.1. Giai đoạn fine-tuning

4. CHƯƠNG 4: XÂY DỰNG BỘ DỮ LIỆU HỎI ĐÁP INFOGRAPHIC CHO TIẾNG VIỆT

4.1. Mô tả dữ liệu

4.2. Xây dựng tập dữ liệu VilnfographicVQA

4.2.1. Thu thập ảnh infographic

4.2.2. Quá trình thu thập dữ liệu

4.2.3. Quá trình tiền xử lý dữ liệu

4.2.4. Thống kê số liệu tập dữ liệu

4.2.5. Xây dựng dữ liệu OCR (OCR token annotations)

4.2.5.1. Tạo OCR token bằng Tesseract

4.2.6. Xây dựng dữ câu hỏi câu trả lời (Question-Answer annotation)

4.2.6.1. Xây dựng tập câu hỏi-câu trả lời

4.2.6.2. Phân loại câu hỏi-câu trả lời

4.2.6.3. Thông tin thống kê bộ dữ liệu VilnfographicVQA

5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Tập dữ liệu InfographicVQA

5.2. Tập dữ liệu VilnfographicVQA

5.3. Average Normalized Levenshtein Similarity (ANLS)

5.4. Kết quả đánh giá trên InfographicVQA

5.5. Kết quả đánh giá trên VilnfographicVQA

5.6. Một số nhận xét

5.6.1. Phương pháp cho bài toán

5.6.2. Tập dữ liệu VilnfographicVQA

5.6.3. Xây dựng ứng dụng minh họa

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC TỪ VIẾT TẮT

Tóm tắt

I. Tổng quan về phương pháp học sâu và bài toán hỏi đáp trên ảnh infographic

Học sâu đã trở thành một công cụ mạnh mẽ trong việc giải quyết các bài toán phức tạp, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên và phân tích ảnh. Bài toán hỏi đáp trên ảnh infographic yêu cầu hệ thống phải hiểu được cả thông tin hình ảnh và văn bản để đưa ra câu trả lời chính xác. Ảnh infographic là một dạng hình ảnh trực quan, chứa nhiều thông tin được trình bày dưới dạng biểu đồ, đồ thị và văn bản ngắn gọn. Việc áp dụng học sâu vào bài toán này đòi hỏi sự kết hợp giữa trí tuệ nhân tạo và xử lý ngôn ngữ tự nhiên để tối ưu hóa mô hình.

1.1. Định nghĩa và thách thức của bài toán

Bài toán hỏi đáp trên ảnh infographic yêu cầu hệ thống phải hiểu được cả thông tin hình ảnh và văn bản để đưa ra câu trả lời chính xác. Ảnh infographic thường chứa nhiều yếu tố phức tạp như biểu đồ, đồ thị và văn bản ngắn gọn, điều này đặt ra thách thức lớn cho việc phân tích ảnh và xử lý ngôn ngữ tự nhiên. Các mô hình học sâu cần phải được tối ưu hóa để có thể xử lý hiệu quả các thông tin đa phương thức này.

1.2. Ứng dụng của bài toán trong thực tế

Bài toán hỏi đáp trên ảnh infographic có nhiều ứng dụng thực tế, đặc biệt trong các lĩnh vực như giáo dục, y tế và truyền thông. Ví dụ, trong giáo dục, hệ thống có thể giúp học sinh hiểu nhanh các thông tin từ ảnh infographic mà không cần đọc nhiều văn bản. Trong y tế, hệ thống có thể hỗ trợ bác sĩ trong việc đọc và phân tích các biểu đồ y khoa. Điều này cho thấy tiềm năng lớn của bài toán trong việc cải thiện hiệu quả làm việc và học tập.

II. Phương pháp học sâu và đánh giá hiệu quả

Các phương pháp học sâu như BERT, M4C và LayoutLMv2 đã được áp dụng để giải quyết bài toán hỏi đáp trên ảnh infographic. Các mô hình này sử dụng kiến trúc Transformer để kết hợp thông tin từ cả hình ảnh và văn bản. BERT là một mô hình tiên tiến trong xử lý ngôn ngữ tự nhiên, trong khi LayoutLMv2 được thiết kế đặc biệt để xử lý các tài liệu có cấu trúc phức tạp. Việc đánh giá phương pháp này trên tập dữ liệu tiếng Việt cho thấy hiệu quả vượt trội của LayoutLMv2 trong việc xử lý các ảnh infographic.

2.1. Kiến trúc Transformer và ứng dụng

Kiến trúc Transformer đã trở thành nền tảng cho nhiều mô hình học sâu hiện đại. Nó cho phép mô hình xử lý thông tin từ cả hình ảnh và văn bản một cách hiệu quả. Transformer sử dụng cơ chế tự tập trung để xác định mối quan hệ giữa các phần tử trong dữ liệu đầu vào. Điều này đặc biệt hữu ích trong bài toán hỏi đáp trên ảnh infographic, nơi thông tin hình ảnh và văn bản cần được kết hợp chặt chẽ.

2.2. Đánh giá hiệu quả của các mô hình

Việc đánh giá phương pháp học sâu trên tập dữ liệu tiếng Việt cho thấy LayoutLMv2 đạt hiệu quả cao nhất với điểm ANLS (Average Normalized Levenshtein Similarity) tốt nhất. BERT và M4C cũng cho kết quả khả quan, nhưng LayoutLMv2 vượt trội nhờ khả năng xử lý các tài liệu có cấu trúc phức tạp. Điều này khẳng định tiềm năng của LayoutLMv2 trong việc giải quyết bài toán hỏi đáp trên ảnh infographic.

III. Xây dựng và ứng dụng tập dữ liệu tiếng Việt

Việc xây dựng tập dữ liệu VilnfographicVQA cho bài toán hỏi đáp trên ảnh infographic tiếng Việt là một bước quan trọng trong nghiên cứu. Tập dữ liệu này bao gồm các ảnh infographic được thu thập từ nhiều nguồn khác nhau, cùng với các câu hỏi và câu trả lời tương ứng. Quá trình xây dựng tập dữ liệu bao gồm việc thu thập ảnh, tiền xử lý dữ liệu và tạo các OCR token để hỗ trợ việc phân tích văn bản. Tập dữ liệu này đã được sử dụng để đánh giá phương pháp học sâu và cho thấy hiệu quả trong việc xử lý ảnh infographic tiếng Việt.

3.1. Quá trình thu thập và tiền xử lý dữ liệu

Tập dữ liệu VilnfographicVQA được xây dựng bằng cách thu thập các ảnh infographic từ nhiều nguồn khác nhau, bao gồm các trang web và tài liệu công khai. Sau đó, dữ liệu được tiền xử lý để loại bỏ các yếu tố không cần thiết và chuẩn hóa định dạng. Các OCR token được tạo ra để hỗ trợ việc phân tích văn bản trong ảnh. Quá trình này đảm bảo rằng tập dữ liệu có chất lượng cao và phù hợp với mục đích nghiên cứu.

3.2. Ứng dụng của tập dữ liệu trong nghiên cứu

Tập dữ liệu VilnfographicVQA đã được sử dụng để đánh giá phương pháp học sâu như BERT, M4C và LayoutLMv2. Kết quả cho thấy các mô hình này đạt hiệu quả cao trong việc xử lý ảnh infographic tiếng Việt. Điều này khẳng định giá trị của tập dữ liệu trong việc hỗ trợ nghiên cứu và phát triển các hệ thống hỏi đáp trên ảnh infographic.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

Mở đầu Để hiểu rõ bài hỏi đáp dựa trên thông tin hình ảnh infographic, ta cần làm rõ các khái niệm liên quan, đồng thời tìm hiểu một số phương pháp tiếp cận hiện nay. Vì vậy, trong chương này, nhóm sinh viên giới thiệu một số khái niệm cơ bản về bài toán, đồng thời trình bày một số phương pháp nghiên cứu đã từng được áp dụng từ trước đến nay, đồng thời nêu ra những ưu điểm và hạn chế trong từng phương pháp.2 Tổng quan về bài toán hỏi đáp trên hình ảnh info- graphic 2.1 Ảnh inforgraphic là gì? Theo định nghĩa của từ điển Oxford ' infographic là các thông tin hay dữ liệu được thể hiện bằng biểu đồ, đồ thị,. nhằm mục đích đem tới sự dễ hiểu cho người xem. Con theo trang web venngage ˆ infographic là tập hợp của nhiều 'https://www.com/definition/english/infographic?q=infographic ”https://venngage.com/blog/what-is-an-infographic/ 2.

Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan hình ảnh, thông tin trực quan được thể hiện qua các biểu đồ, sơ đồ và các văn bản xúc tích nhằm giúp người dùng dễ dàng hiểu được các thông tin đang được trình bày. Nhu vậy infographic là các thông tin hay dữ liệu được trình bày một cách trực quan, ngắn gọn, xúc tích và bắt mắt cho người xem. Tùy phong cách của người tạo, infographic có thể là hình ảnh, tệp PDF, file trình chiếu Pow- erPoint, bảng tính Excel. Trong khuôn khổ khóa luận tốt nghiệp của chúng tôi infographic được trình bay và hiểu dưới dạng hình ảnh hay con gọi là hình ảnh infographic.1 là một số ví dụ của hình ảnh inforgraphic trong tập dữ liệu InfographicVQA [4].

Anh infographic được ứng dụng trong cuộc sống nhằm mục đích giúp việc truyền tải các thông tin dễ dàng hơn và giúp người đọc ghi nhớ thông tin lâu hơn. Các ứng dụng và tính hữu ich của ảnh infographic sẽ được chúng tôi trình bày cụ thể hơn ở phần 2.2 Định nghĩa bài toán Hỏi đáp dựa trên hình ảnh đầu vào gồm có: | ảnh và 1 câu hỏi, đầu ra mong đợi là câu trả lời cho câu hỏi được đặt ra.2 mô tả bài toán hỏi đáp trong hình ảnh, trong đó hình ảnh đầu vào có thể là ảnh có sự vật, phong cảnh, văn ban,. Một số loại hình ảnh ta có thể điểm qua đó là ảnh ngoài đời thực không chứa văn ban(scene image) và chứa văn ban (scene text image), ảnh chụp cua hóa đơn, tài liệu (document image), ảnh trực quan hóa thông tin (visualization image),. Câu hỏi đặt ra hỏi thông tin về sự vật, đối tượng trong hình ảnh, ngoài ra có thể hỏi về các thông tin văn bản trong hình ảnh.

Để đưa ra câu trả lời, các mô hình cần phải hiểu được câu hỏi, nội dung hình ảnh, mối quan hệ giữa hai loại thông tin thị giác-ngôn ngữ để suy diễn ra câu trả lời. Tương tự như bài toán hỏi đáp dựa trên hình ảnh (VQA), hỏi đáp dựa trên hình ảnh Inforgraphic chỉ khác về mặt dữ liệu hình ảnh là ảnh infographic. Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan Sie : The Countries With The Most mwH AT WE RE Critical Care Beds Per Capita WEARING 222" Total number of critical care beds SNAPSHOT How to Live Stream per 100,000 inhabitants in selected countries* ae Super Bowl LI Il United States = I 3:7 Casual : ani xi aly (>) TH: : France () NN 11.6 Watch Super Bow! LIII with ExpressVPN South Korea 4e} a 10.6 spain © HH: Japan @ N:: United kingdom 4 BH: china @ 36 India S 23 CORONAVIRUS COVID-19 _ 883008 œmwzm Title “Data Scientist” International Council for Science: roma, Gregory Piatetsky ~ RECOVERED Shapiro 102,524 aminges s bona Business Week nn Lea ‘SERIOUS. 8,376) cRiticaL John Wilder Tuke\ SOUTHFRONT.1: Một số hình anh infographic.

đó mô hình cần phải giải quyết dữ liệu văn bản xuất hiện trong hình ảnh đầu vào vì câu trả lời có thể xuất hiên trong đó.3 mô tả bài toán hỏi đáp dựa trên hình ảnh inforgraphic, trong đó hình ảnh, câu hỏi và câu trả lời được lấy từ tập 2. Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan 1: Hình ảnh Hình 2.2: Ví dụ đầu vào và đầu ra của bài toán hỏi đáp dựa trên hình ảnh dữ liệu InforgraphicVQA.3 Nhu cầu của bài toán 2.1 Tinh ứng dụng Trong bối cảnh cuộc cách mạng công nghệ 4.0 đang dần thay đổi nhiều phương diện của cuộc sống, các thiết bị số cày càng trở nên thông minh hơn. Việc giúp các thiết bị này hiểu được các thông tin hình ảnh là nhiệm vụ hành đầu đặt ra. Trong những năm gần đây bài toán hỏi đáp ảnh nhận giành được sự quan tâm rat nhiều từ cộng đồng khoa học trí tuệ nhân tạo trên thể giới nói chung bởi vì nó có tính ứng dụng cao trong cuộc sống hằng ngày.

Sự hấp dẫn của VQA nằm ở sự phù hợp với cuộc sống hàng ngày của chúng ta. Việc đặt câu hỏi và trả lời là những phần quan trọng của cuộc sống và nó sẽ luôn như vậy. Cách hệ thống VQA trả lời một câu hỏi tương tự như chúng ta ở một số khía cạnh, bao 2. Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan OLYMPIC BASKETBALL © Basketball is played by two teams of five players, who may pass, throw The key or dribble the ball.

The object of the game is to score points by throwing Attacking players the ball into the opposing team’s basket may only remain in this area for three Time Crew chief Substitutes ATHENS 2004 ‘seconds commie Four periods Commissioner Assistant oO3© Vince Carter, each Scorel r part of the U. Timekeeper gold-medal- Players 24-second winning team at There are120n eloek operator the 2000 each team with five Referee ash games always on court. a af There is no limit on Ạ © substitutions A: 600 - 650g Possession 2 Z The team in possession must ‘Two points are scored by : take a shot at the basket within throwing the ball into the 24 seconds or the ball is turned opposing team's basket | over to the opposition Three-point line NKEšsB 5s 49 20 21 22 2324 25 26 27 28 Three points are awarded if the ketball| OO @ @ @ @ @ @@@@@@@G@@ ball is thrown into the basket from outside this line’ Mm VENUES M SYDNEY 2000 MEDALS ~ ` Women Men Free throw line (ẤP United States United States Free throws are awarded after a foul by the 2 Australia France opposition. The thrower stands behind the line and scores a point for each successful throw @ Brazil Lithuania Olympi rings device, Athens 2004 logo and event pictograms TM@ATHOC 2003 Source: ATHENS 2004 REUTERS :Ð Dau vào: hình anh (1) và câu hỏi (Q) Đầu ra: câu trả lời (A) Hình 2.3: Mô tả bài toán hỏi đáp dựa trên hình ảnh Inforgraphic.

gồm hiểu biết trực quan và văn bản, cách kết hợp hai luồng dữ liệu và cách sử dụng kiến thức đúng cách. Có một loạt các ứng dụng tiềm năng tích hợp hệ thống VQA. Nổi bật nhất hiện nay là hỗ trợ các cá nhân khiếm thị. Microsoft: See AI 2016 Prototype là một dự án nghiên cứu xây dựng công cụ hỗ trợ người khiếm thị, trong đó hỏi đáp dựa trên hình ảnh là bài toán cốt lõi tích hợp vào công cụ này.

Nhiều ứng dụng có khả năng chuyển đổi nội dung thành văn bản trực quan đã được xuất bản và cải thiện cuộc sống của nhiều người. Một ứng dụng khác của hệ thống VQA là ?https:/www.com/watch?v=R2mC-NUAmMk 10 2. Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan cung cấp sự tương tác giữa con người và máy tính, đặc biệt là để lấy nội dung trực quan. Ví dụ: một đứa trẻ có thể hỏi hệ thống các câu hỏi khác nhau để học cách gọi một vật bằng tên của nó hoặc ai đó có thể hỏi máy ảnh về thời tiết bên ngoài khi họ đang ở trong nhà.4 cho ta thấy một số ứng dụng của bài VQA trong các lĩnh vực: y tế, hỗ trợ người khiếm thị, giám sát video, tranh vẽ, ảnh quảng cáo.

Trong tương lai, bài toán VỌA sẽ còn giúp tăng hiệu quả tương tác giữa người và các thiết bị thông minh như robot hay máy tính.2 Vai trò của ảnh infographic trong cuộc song Bài toán hỏi đáp trên ảnh đã có tính ứng dụng rất cao đặc biệt là trong tương lai. Vì vậy việc đi tìm hiểu và giải quyết bài toán này đối ảnh infographic vô cùng quan trọng. Bởi lẽ infographic rất hữu dụng trong cuộc sống hằng ngày của chúng ta. Chính nhờ sự đa dạng và tính trực quan trong cách trình bày, infographic đã thu hút người xem hơn.

Giúp người dùng nhanh chóng nắm bắt và ghi nhớ các thông tin được truyền tải. Theo trích dẫn và tổng hợp từ ! thì các nhà làm nội dung đã sử dụng Infographic và giúp gia tăng trên 12% người dùng, thu hút sự quan của người khác hơn 90% so với việc chỉ sử dụng văn bản, nhờ đó đạt được hiệu quả trong truyền đạt thông tin hơn 30 lần. Theo một thống kê khác từ tạp chí Forbes vào năm 2017 * có tới gần 60% doanh nghiệp công ty yêu cầu sử dụng inforaphic trong doanh nghiệp của ho. Tat cả những dẫn chứng trên đã chứng tỏ rằng hình ảnh infographic đem lại hiểu quả đáng kể trong việc truyền tải thông tin, giúp người dùng dễ dàng tiếp cận, ghi nhớ hơn so với các trình bày thông thường.

Từ đó ảnh infographic dần chiếm một vai trò thiết yếu trong các khía cạnh cuộc sống. Vì vậy việc đi tìm hiểu bài toàn hỏi đáp trên ảnh infographic là can thiệt cho cuộc sông.vn/infographic-la-gi.html ?https://www.com/sites/cherylsnappconner/2017/10/19/the-data-is-in-infographics-are- growing-and-thriving-in-2017-and-beyond/?sh=41990352137c 11 2. Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan Question Expected Answer What does Focal def in e infc lamt ed transverse CT appendiceal wall and image _ periappendiceal demonstrate? inflammatory Stranding. Are these my Those tennis shoes are blue or orange orange.

tennis shoes? What is the man In red shirt | He is riding a bicycle. Why shouldl | |} should drink Absolut buy this Vodka, because they product? support LGBT rights.4: Một số ứng dung của bài toán VQA.4 Thách thức của bài toán: Dữ liệu đầu vào của bài toán gồm hình ảnh và câu hỏi nên các thách thức về hình ảnh và ngôn ngữ là vấn dé tiên quyết mà ta cần nhắc đến. Bên cạnh đó cần 12 2. Bài toán hỏi đáp hình ảnh inforgraphic và các kiến thức liên quan phải có cách kết hợp hai loại dữ liệu phù hợp thì kết quả dự đoán mới chính xác.

Về mặc câu trả lời, câu trả lời có thể đến từ tập từ vụng mà hệ thống có hoặc hoàn toàn nằm bên ngoài vì vậy khả năng đưa ra đáp án của các hệ thống cũng rất hạn chế. Dưới đây sẽ trình bày một số thách thức của bài toán hỏi đáp dựa trên thông tin hình ảnh. Kiến thức nền tảng Các câu hỏi đầu vào vô cùng đa dạng.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng học sâu trong hỏi đáp

Đánh giá công nghệ AI hiện nay

Phân tích ảnh infographics

Phát triển phương pháp học máy

Khóa luận tốt nghiệp khoa học máy tính đánh giá một số phương pháp học sâu cho bài toán hỏi đáp trên ảnh infographics tiếng việt

LỜI CẢM ƠN

TÓM TẮT KHÓA LUẬN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Phạm vi và mục tiêu

1.3. Đóng góp của khóa luận

1.4. Cấu trúc khóa luận

2. CHƯƠNG 2: KIẾN THỨC CƠ SỞ

2.1. Mở đầu

2.2. Tổng quan về bài toán hỏi đáp trên hình ảnh infographic

2.2.1. Ảnh infographic là gì?

2.2.2. Định nghĩa bài toán

2.2.3. Nhu cầu của bài toán

2.2.4. Vai trò của ảnh infographic trong cuộc sống

2.2.5. Thách thức của bài toán

2.3. Các nghiên cứu liên quan

2.3.1. Hướng tiếp cận modular method

2.3.2. Hướng tiếp cận monolithic method

2.4. Kiến trúc tổng quan cho bài toán hỏi đáp trên ảnh

2.4.1. Rút trích đặc trưng thị giác

2.4.1.1. Một số kiến trúc dùng để rút trích đặc trưng thị giác

2.4.2. Rút trích đặc trưng văn bản

2.4.2.1. Một số kiến trúc dùng để rút trích đặc trưng trong văn bản

2.4.3. Kết hợp thông tin thị giác và văn bản

3. CHƯƠNG 3: ĐÁNH GIÁ MỘT SỐ PHƯƠNG PHÁP HỌC SÂU CHO BÀI TOÁN HỎI ĐÁP DỰA TRÊN ẢNH INFOGRAPHIC

3.1. Kiến trúc Transformer

3.1.1. Các thành phần cơ bản trong Transformer

3.2. Phương pháp BERT

3.2.1. Các giai đoạn trong mô hình BERT

3.2.2. Các kiến trúc mô hình BERT

3.2.3. Áp dụng BERT cho bài toán hỏi đáp

3.3. Phương pháp LayoutLMv2

3.3.1. Kiến trúc mô hình

3.3.2. Multi-modal Encoder with Spatial-Aware Self-Attention Mechanism

3.3.3. Huấn luyện mô hình LayoutLMv2

3.3.3.1. Giai đoạn fine-tuning

4. CHƯƠNG 4: XÂY DỰNG BỘ DỮ LIỆU HỎI ĐÁP INFOGRAPHIC CHO TIẾNG VIỆT

4.1. Mô tả dữ liệu

4.2. Xây dựng tập dữ liệu VilnfographicVQA

4.2.1. Thu thập ảnh infographic

4.2.2. Quá trình thu thập dữ liệu

4.2.3. Quá trình tiền xử lý dữ liệu

4.2.4. Thống kê số liệu tập dữ liệu

4.2.5. Xây dựng dữ liệu OCR (OCR token annotations)

4.2.5.1. Tạo OCR token bằng Tesseract

4.2.6. Xây dựng dữ câu hỏi câu trả lời (Question-Answer annotation)

4.2.6.1. Xây dựng tập câu hỏi-câu trả lời

4.2.6.2. Phân loại câu hỏi-câu trả lời

4.2.6.3. Thông tin thống kê bộ dữ liệu VilnfographicVQA

5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Tập dữ liệu InfographicVQA

5.2. Tập dữ liệu VilnfographicVQA

5.3. Average Normalized Levenshtein Similarity (ANLS)

5.4. Kết quả đánh giá trên InfographicVQA

5.5. Kết quả đánh giá trên VilnfographicVQA

5.6. Một số nhận xét

5.6.1. Phương pháp cho bài toán

5.6.2. Tập dữ liệu VilnfographicVQA

5.6.3. Xây dựng ứng dụng minh họa

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC TỪ VIẾT TẮT

I. Tổng quan về phương pháp học sâu và bài toán hỏi đáp trên ảnh infographic

1.1. Định nghĩa và thách thức của bài toán

1.2. Ứng dụng của bài toán trong thực tế

II. Phương pháp học sâu và đánh giá hiệu quả

2.1. Kiến trúc Transformer và ứng dụng

2.2. Đánh giá hiệu quả của các mô hình

III. Xây dựng và ứng dụng tập dữ liệu tiếng Việt

3.1. Quá trình thu thập và tiền xử lý dữ liệu

3.2. Ứng dụng của tập dữ liệu trong nghiên cứu

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyen Van Tien

Người hướng dẫn: TS. Ngo Duc Thanh