Khóa Luận Tốt Nghiệp Khoa Học Máy Tính: Tóm Tắt Sự Kiện Quan Trọng Của Nhân Vật Trong Phim

Khóa luận tốt nghiệp khoa học máy tính phân tích sự kiện quan trọng của nhân vật trong phim, ứng dụng công nghệ xử lý dữ liệu hiện đại.

Trường đại học

Đại học Quốc gia Thành phố Hồ Chí Minh - Đại học Công nghệ Thông tin

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

khóa luận tốt nghiệp

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Thách thức, Mục tiêu và phạm vi

1.3. Đóng góp của khóa luận

1.4. Cấu trúc khóa luận

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1. Giới thiệu bài toán

2.2. Bài toán tóm tắt video cơ sở

2.3. Bài toán tóm tắt những sự kiện quan trọng của nhân vật cuộc thi TRECVID MSUM 2022

2.4. Một số phương pháp tiếp cận phổ biến

2.4.1. Phương pháp tiếp cận của đội MEMAD cho bài toán TRECVID VSUM 2020

2.4.2. Phương pháp tiếp cận của nhóm nghiên cứu NI_UIT cho bài toán TRECVID VSUM 2020

2.4.3. Tính điểm quan trọng

2.4.4. Phương pháp tiếp cận của nhóm nghiên cứu ADAPT cho bài toán TRECVID VSUM 2021

2.4.5. Phương pháp tiếp cận của nhóm nghiên cứu EURECOM cho bài toán TRECVID VSUM 2021

2.4.5.1. Lọc ra các phân đoạn có sự xuất hiện của nhân vật quan tâm

2.4.5.2. Phân loại phân đoạn bằng lời thoại

2.4.6. Phương pháp tiếp cận của nhóm nghiên cứu NH_UIT cho bài toán TRECVID VSUM 2021

2.4.6.1. Tính điểm quan trọng

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG CHO BÀI TOÁN TÓM TẮT SỰ KIỆN QUAN TRỌNG CỦA NHÂN VẬT TRONG PHIM

3.1. Nhận diện khuôn mặt

3.2. So khớp văn bản

3.3. Tổng hợp độ quan trọng của phân đoạn

3.4. Tạo video tóm tắt

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Mô tả

4.2. Tổng quan tập dữ liệu TRECVID MSUM 2022

4.3. Độ đo và tiêu chí đánh giá

4.4. Đánh giá và kết quả

4.4.1. Kết quả thực nghiệm trên một nhân vật

4.4.2. Kết quả cuộc thi TRECVID trên tập test

4.4.3. Kết quả trường hợp

4.4.4. Kết quả tập dữ liệu tự thu thập

4.4.4.1. Giới thiệu tập dữ liệu

5. CHƯƠNG 5: XÂY DỰNG ỨNG DỤNG MINH HỌA

5.1. Giao diện trực quan hoá dữ liệu

5.2. Giao diện trực quan kết quả thực nghiệm

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1. Kết luận

6.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về khóa luận

Khóa luận tập trung vào tóm tắt sự kiện quan trọng của nhân vật trong phim, một bài toán mới trong lĩnh vực khoa học máy tính. Mục tiêu chính là tự động hóa quá trình tóm tắt các sự kiện liên quan đến nhân vật cụ thể trong phim, giúp người xem nắm bắt nội dung chính mà không cần xem toàn bộ phim. Bài toán này đặt ra thách thức lớn về việc xác định và sắp xếp các sự kiện quan trọng theo cốt truyện của nhân vật.

1.1. Thách thức và mục tiêu

Thách thức chính bao gồm việc xử lý dữ liệu video đa dạng, chất lượng hình ảnh không đồng nhất, và yêu cầu cao trong việc xác định sự kiện quan trọng. Mục tiêu của khóa luận là xây dựng hệ thống tự động tóm tắt sự kiện của nhân vật dựa trên nhận diện khuôn mặt, chuyển đổi âm thanh thành văn bản, và phân tích nội dung video.

1.2. Phạm vi và đóng góp

Phạm vi nghiên cứu bao gồm việc tìm hiểu các phương pháp hiện có, xây dựng bộ dữ liệu, và thử nghiệm các phương pháp mới. Đóng góp chính của khóa luận là hoàn thiện bộ dữ liệu, đề xuất phương pháp mới, và xây dựng ứng dụng web minh họa kết quả.

II. Cơ sở lý thuyết và phương pháp tiếp cận

Khóa luận dựa trên các phương pháp phân tích nhân vật và tóm tắt video hiện có, đồng thời đề xuất hướng tiếp cận mới phù hợp với bài toán tóm tắt sự kiện của nhân vật. Các phương pháp được nghiên cứu bao gồm nhận diện khuôn mặt, chuyển đổi âm thanh thành văn bản, và phân tích nội dung video.

2.1. Bài toán tóm tắt video cơ bản

Bài toán tóm tắt video cơ bản tập trung vào việc rút gọn video bằng cách chọn các khung hình hoặc phân đoạn quan trọng. Tuy nhiên, bài toán trong khóa luận yêu cầu cao hơn khi cần tập trung vào các sự kiện liên quan đến nhân vật cụ thể.

2.2. Phương pháp tiếp cận cho bài toán mới

Các phương pháp tiếp cận bao gồm nhận diện khuôn mặt để xác định sự xuất hiện của nhân vật, chuyển đổi âm thanh thành văn bản để phân tích lời thoại, và sử dụng video captioning để mô tả nội dung video. Các phương pháp này được kết hợp để tạo ra bản tóm tắt chính xác và hiệu quả.

III. Xây dựng hệ thống và thực nghiệm

Hệ thống được xây dựng dựa trên các phương pháp đã đề xuất, bao gồm nhận diện khuôn mặt, chuyển đổi âm thanh thành văn bản, và phân tích nội dung video. Thực nghiệm được tiến hành trên bộ dữ liệu từ cuộc thi TRECVID và bộ dữ liệu tự thu thập.

3.1. Nhận diện khuôn mặt và phân tích lời thoại

Hệ thống sử dụng MTCNN và FaceNet để nhận diện khuôn mặt của nhân vật trong video. Âm thanh được chuyển đổi thành văn bản để phân tích lời thoại và xác định các sự kiện quan trọng.

3.2. Đánh giá kết quả

Kết quả thực nghiệm cho thấy hệ thống có khả năng tóm tắt chính xác các sự kiện quan trọng của nhân vật. Tuy nhiên, vẫn còn một số hạn chế về độ chính xác khi xử lý các video có chất lượng hình ảnh thấp.

IV. Ứng dụng và hướng phát triển

Khóa luận đã xây dựng ứng dụng web minh họa kết quả tóm tắt sự kiện của nhân vật. Ứng dụng này giúp người dùng dễ dàng theo dõi và đánh giá kết quả. Hướng phát triển trong tương lai bao gồm cải thiện độ chính xác của hệ thống và mở rộng ứng dụng cho các loại video khác.

4.1. Ứng dụng web minh họa

Ứng dụng web được thiết kế để trực quan hóa kết quả tóm tắt, giúp người dùng dễ dàng theo dõi các sự kiện quan trọng của nhân vật. Giao diện thân thiện và dễ sử dụng.

4.2. Hướng phát triển

Hướng phát triển bao gồm cải thiện độ chính xác của hệ thống, tích hợp thêm các phương pháp phân tích video tiên tiến, và mở rộng ứng dụng cho các loại video khác như phim tài liệu và video thể thao.

21/02/2025

Bạn đang xem trước tài liệu:

Khóa luận tốt nghiệp khoa học máy tính tóm tắt sự kiện quan trọng của nhân vật trong phim

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Giới thiệu tổng quan dé tài. Chương 2: Trình bày cơ sở lý thuyết và một số nghiên cứu liên quan. Chương 3: Trình bày xây dựng hệ thống cho bài toán tóm tắt các sự kiện lớn trong cuộc đời trên tập dữ liệu. Chương 4: Trình bày thực nghiệm và đánh giá.

Chương 5: Xây dựng ứng dụng minh hoa dé tài. Chương 6: Trình bày kết luận và hướng phát triển của đề tài. Chương 2 CƠ SỞ LÝ THUYÊT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Để hiểu rõ bài toán tóm tắt video những sự kiện quan trọng của nhân vật trong phim , ta cần làm rõ các khái niệm liên quan, đồng thời tìm hiểu một số phương pháp tiếp cận. Vì vậy, trong chương này, nhóm sinh viên thực hiện sẽ giới thiệu tổng quan bài toán đồng thời trình bày các cơ sở lý thuyết, phương pháp nghiên cứu được áp dụng.1 Giới thiệu bài toán 2.1 Bài toán tóm tắt video cơ sở Tóm tắt video nhằm mục đích tạo ra một phiên bản nhỏ gọn hơn của video gốc trong khi vẫn giữ lại được những nội dung quan trọng và phù hợp với yêu cầu tóm tắt.

Các phương pháp tóm tắt video hiện nay có thể được phân loại thành hai loại: 1) phương pháp tinh va 2) phương pháp động. Sự khác biệt là phương pháp tĩnh chọn ra các khung hình chính để tạo thành bản tóm tắt video, trong khi phương pháp động tạo bản tóm tắt video từ các phân đoạn video (Phân đoạn là nhiều khung hình liên tiếp nhau). Vì các phân đoạn video dễ hiểu đối với người 2. Bài toán tóm tat sự kiện quan trọng của nhân vật và các kiên thức liên quan dùng hơn nên các phư dng pháp được dé xuất gần đây tập trung và phương pháp tóm tắt video động.

solomon Input Video * Generating Video Summaries ke LIL]L] Key frames/ Static Summary Video Skims/ Dynamic Summary Hình 2.1: Minh hoa cho bài toán tóm tat video Để tiếp cận với cách tóm tắt một video thành một video giản lược. Theo các bài khảo sát [[3],[4],[5]] đã chỉ ra rằng một hệ thống tóm tắt video được chia làm ba bước: *Shot boundary detection: Bước này đảm nhận vào trò cắt video đầu vào thành những phân đoạn nhỏ, riêng biệt, không trùng nhau. ¢ Frame-level importance score prediction: Tính toán độ quan trọng của mỗi khung hình. * Key shot selection: Từ thông tin đã có ở bước | và bước 2, bước này sé tính toán điểm quan trọng của mỗi phân đoạn và sẽ tổng hợp video đầu ra có độ dài nhỏ hơn hoặc bang độ dài mong muôn ở dau vào.

Bài toán tóm tat sự kiện quan trọng của nhân vật và các kiên thức liên quan 2.2 Bài toán tóm tắt những sự kiện quan trọng của nhân vật cuộc thi TRECVID MSUM 2022 Cuộc thi TRECVID Movie Summarization (MSUM) task 2022 nhằm thúc đẩy nghiên cứu trong lĩnh vực tóm tắt video bằng cách yêu cầu những người tham gia tóm tắt các sự kiện quan trọng của các nhân vật cụ thể trong một bộ phim. Cu thể hơn, đối với mỗi truy van là một nhân vật trong phim, những người tham gia phải gửi bản tóm tắt tương ứng với nhật vật đó với độ dài tối đa của mỗi bản tóm tắt được quy định riêng cho từng nhân vật. Vì vậy input và output của cuộc thi có một chút khác biệt so với nhiệm vụ tóm tắt video thông thường, cụ thể để tạo ra một bản tóm tắt: ¢ Dau vào: — Video bộ phim 2. Bài toán tóm tắt sự kiện quan trọng của nhân vật và các kiến thức liên quan — Hình ảnh về một nhân vật trong phim — Độ dài tối đa của bản tóm tắt « Đầu ra: — Video tóm tắt các sự kiện quan trọng của nhân vật đó trong phim Có thể nói nhiệm vu này khó hơn nhiều so với bài toán tóm tắt video thông thường.

Khi mà việc tóm tắt phải xoay quanh nhân vật quan tâm. Đồng thời cần đánh giá xem một sự kiện có phải là sự kiện chính trong cuộc đời nhân vật hay không: Sự ra đời của một đứa trẻ chứ không phải một trận ốm ngắn, một cuộc ly hôn chứ không phải là một cuộc tranh cãi với người thân,. Ngoài ra, các sự kiện trong video tóm tắt phải xảy ra theo cốt truyện của nhân vật và các video thường rat dai, trung bình hơn một tiếng. Tat cả đều ảnh hưởng đến độ hiệu quả của phương pháp.2 Một số phương pháp tiếp cận phổ biến Vì bài toán tóm tắt những sự kiện quan trọng của nhân vật trong phim là bài toán mới xuất hiện từ năm 2022 nên chưa có phương pháp tiếp cận nào được dé xuất.

Dù vậy, dựa trên bài toán về chủ đề tóm tắt video trước đây của TRECVID là TRECVID VSUM 2020 và 2021 - tóm tắt những sự kiện quan trọng của các nhân vật trong loạt phim BBC Eastenders, nhóm sinh viên đã tìm hiểu các hướng tiếp cận cho bài toán tóm tắt video và đề xuất hướng giải quyết cho nhiệm vụ của cuộc thi TRECVID MSUM 2022. Bài toán tóm tat sự kiện quan trọng của nhân vật và các kiên thức liên quan 2.1 Phương pháp tiễn cận của đội MEMAD cho bài toán TRECVID VSUM 2020. Dựa trên thông tin thời gian của mỗi phân đoạn được cung cấp trong bộ dự liệu BBC Eastenders, đội MEMAD chia video thành các phân đoạn. Từ đó tìm ra các phân đoạn có sự xuất hiện của nhân vật được quan tâm trong nhiệm vụ TRECVID VSUM 2020.

Sau đó đội thu thập dữ liệu các văn bản tóm tắt do người hâm mộ viết trên trang Fandom EastEnders Wiki và sắp xếp các bản tóm tắt này tương ứng với từng phân đoạn video. Cuối cùng, tổng hợp bản tóm tắt từ các phân đoạn có điểm tương đồng tốt nhất với một câu từ nội dung tóm tắt so với lời thoại của bộ dit liệu cung cấp _ Apply co-reference _`— : _ pronouns f Serapebag ps3 disambiguation and : _ splitin sentences | Match using > length-penalizing ( TF-IDF similarity f Face recognition __ Align subtitles with Ty characters video shots nt, = sim_score(conteline) Zwow ctinenco ntent TF_ADF(w) elinencontent TF_DF(w Eastenders log (|line U content| — |line N content| + 1) videos + subtitles + master shot boundaries Hình 2.3: Anh minh hoa phương pháp tiếp cận của nhóm MEMAD cho TRECVID VSUM 2020. Chỉ tiếp phương pháp: 10 2. Bài toán tóm tắt sự kiện quan trọng của nhân vật và các kiến thức liên quan Bước 1: Tải nội dung tóm tắt do người hâm mộ loát phim BBC EastEn- ders viết và tìm các phân đoạn có sự xuất hiện của nhân vật quan tâm.

Đầu tiên, nhóm MEMAD tải tất cả bản tóm tắt của loạt phim do người hâm mộ viết trên trang Fandom Eastenders Wiki.! Đồng thời, nhóm tiến hành tìm ra các phân đoạn có sự xuất hiện của các nhân vật được quan tâm trong nhiệm vụ của TRECVID VSUM 2020. Ngoài 4 bức ảnh được cung cấp cho mỗi nhân vật được cung cấp bởi ban tổ chức, họ sử dụng hệ thống Face Celebrity Recognition library” dựa vào tên nhân vật để tải tất cả ảnh có chứa khuôn mặt của nhân vật đó. Với mỗi bức ảnh, các khuôn mặt được xác định bằng cách sử dụng thuật toán MTCNN và mô đun FaceNet để trích xuất đặc trưng khuôn mặt có trong bức ảnh. Theo giả định rằng phần lớn các khuôn mặt thực sự đại diện cho nhân vật được tìm kiếm, các khuôn mặt khác - ví dụ: nhân vật xuất hiện cùng với nhân vật được tìm kiếm sẽ được tự động lọc ra bằng cách loại bỏ các điểm ngoại lệ cho đến khi cosine giữa các vector trích xuất đặc trưng của khuôn mặt có độ lệch chuẩn dưới ngưỡng 0,24.

Các vector đặc trưng khuôn mặt còn lại sẽ được sử dụng để đào tạo bộ phân loại SVM, nhằm xác định các khuôn mặt trong mỗi khung hình của mỗi phân đoạn. Để tăng độ chính xác về kết quả giữa các khung hình, đội sử dụng thuật toán Simple Online and Realtime Tracking (SORT) để trả về phân cảnh chứa nhân vât xuất hiện. Bước 2: Tiền xử lý nội dung bản tóm tắt và lời thoại của bộ dữ liệu BBC Eastenders. Nhóm MEMAD giả sử mỗi câu (kết thúc bằng dấu chấm) thể hiện một sự kiện quan trọng sẽ được thêm vào bản tóm tắt video.

Chính vì vậy nhóm MEMAD chia bản tóm tắt thành các câu riêng lẽ. Đồng thời dựa vào bản XML !https://eastenders.com/wiki/EastEndersWiki ”https://github.com/D2KLab/Face-Celebrity-Recognition 11 2. Bài toán tóm tắt sự kiện quan trọng của nhân vật và các kiến thức liên quan lời thoại của bộ dữ liệu BBC Eastenders, đội MEMAD tạo ra các lời thoại cho các phân cảnh theo thời gian tương ứng. Cuối cùng, đội áp dụng các bước tiền xử lý văn bản như chuyển về chữ thường, loại bỏ stop words cho bản tóm tắt lẫn lời thoại của các phân cảnh.

Bước 3: So khớp và tạo bản tóm tắt. Trong bước này, nhóm MEMAD sử dụng độ tương đồng TF-IDF để thực hiện so sánh từng câu trong bản tóm tắt so với lời thoại trong mỗi phân cảnh. Sau khi có tất cả điểm TF-IDF của mỗi phân đoạn, nhóm sắp xếp điểm theo thứ tự giảm dần với mỗi phân đoạn tương ứng. Chọn ra top K phân đoạn để tạo ra bản tóm tắt cho mỗi nhân vật.2 Phương pháp tiếp cận của nhóm nghiên cứu NIL_UIT cho bài toán TRECVID VSUM 2020.[1] Nhóm NII_UIT thiết kế hệ thống tóm tắt những sự kiện quan trọng trong cuộc đời của mỗi nhân vật dựa trên 3 bước chính: 1.

Chia video thành các phân đoạn (shots). Tính điểm mỗi phân đoạn dựa trên một số tiêu chí đặc biệt. Chọn phân cảnh thích hợp để tổng hợp thành bản tóm tắt. Do đó, nhóm quyết định xây dựng hệ thống gồm 3 mô đun riêng biệt: seg- mentation, scoring va selection.

Bài toán tóm tat sự kiện quan trọng của nhân vật và các kiên thức liên quan » BBC Eastender shot Knapsack | | a] \ Segmentation r Input video 04 ` * ì : mm. —I Tie Video 07 Selection / summary Frame Lovet ear Re l1.” VASNe | Network 02 09 Score Hình 2.4: Ảnh minh hoa hệ thống của đội NII_UIT cho TRECVID VSUM 2020 2.1 Phan đoạn Bằng cách sử dụng thông tin của mỗi phân đoạn được cung cấp trong bộ dữ liệu BBC Eastenders, đội NH_ UTT chia video thành các phân đoạn.2 Tính điểm quan trọng Để tóm tắt video theo nhân vật mong muốn và nắm bắt các sự kiện lớn trong cuộc sống của họ, đội NIH_UTT đã tính toán điểm quan trọng của mỗi phân đoạn bằng cách kết hợp điểm khuôn mặt nhân vật và điểm đại diện tương ứng. » Điểm khuôn mặt nhân vật (person face score): Đội NII_UIT sử dụng hệ thống tìm kiếm hình khuôn mặt như được công bố tại INS 2019 [6] bao gồm xác định vị trí khuôn mặt, trích xuất đặc trưng vùng khuôn mặt và so khớp.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Phân tích nhân vật trong điện ảnh

Tầm quan trọng của sự kiện trong phim

Khóa luận tốt nghiệp về phim

Khoa học máy tính và điện ảnh