CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Trong chương tổng quan này luận án trình bày mô hình tổng quan cho bài toán phát hiện và thay thế đối tượng trong video, mô tả chi tiết các thành phần trong hệ thống cũng như đưa ra các khái niệm có liên quan. Bên cạnh đó luận án hệ thống lại các nghiên cứu liên quan đến các mô hình, kỹ thuật áp dụng trong hệ thống phát hiện và thay thế đối tượng, phân tích ưu, nhược điểm của các kỹ thuật này làm tiền đề cho những nội dung nghiên cứu trong các chương sau đó. Cụ thể, tổng quan về bài toán phát hiện và thay thế đối tượng trong video được trình bày trong phần 1.
Các nghiên cứu liên quan đến mô hình dò tìm đối tượng trong video được phân tích trong phần 1. Tiếp theo, các kỹ thuật nhận dạng đối tượng được trình bày trong phần 1. Cuối cùng các nghiên cứu liên quan đến hoàn thiện vùng bị phá hủy trong video được trình bày trong phần 1. Cấu trúc phân cấp của video 1.
Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video 1. Khái quát về video Video là sự phối hợp đồng bộ thu hoặc phát một chuỗi các hình ảnh và âm thanh theo thời gian thực để thể hiện thế giới thực. Bản chất của video là luan an 8 tập hợp các khung hình (frame), mỗi khung hình tương ứng là một ảnh tĩnh. Tập hợp các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn tạo thành một lia (Shot).
Tập các shot liên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc một tình tiết tạo thành một cảnh quay (Scene). Cấu trúc phân cấp của video được thể hiện trong hình 1. Video truyền thống các tín hiệu thu và phát dưới dạng tương tự. Tín hiệu hình ảnh và tín hiệu âm thanh được phát đồng bộ nhau.
Tuy nhiên, các thao tác với video ở dạng tương tự như điều khiển, khử nhiễu,. rất phức tạp. Vì vậy, ngày nay các video tương tự ít được sử dụng mà thay bằng các video số. Với video số các tín hiệu thu và phát chuỗi hình ảnh âm thanh được số hóa thành dãy bít 0 và 1.
Dữ liệu video được lưu trữ ở dạng bít 0 và 1 nên việc tác động lên video đơn giản hơn nhiều so với video tương tự. Dữ liệu video số là các đoạn phim đã được số hóa, ghi thành tệp trên đĩa cứng, đĩa CD, đĩa DVD, hoặc các thiết bị lưu trữ khác mà máy tính có thể hiểu được. Một tệp video thông thường có hai phần: dữ liệu hình ảnh và dữ liệu âm thanh. Khi phát, các dữ liệu hình ảnh và các dữ liệu âm thanh được phát đồng bộ nhau.
Kích cỡ khuôn hình của video phải được xác định rõ theo định dạng chuẩn của video xuất ra. Ví dụ: kích cỡ khuôn hình 720x480 điểm ảnh cho hệ NTSC, 720x576 điểm ảnh cho hệ PAL. Hoặc có thể xác định khuôn hình 320x240 điểm ảnh cho các video có kích cỡ nhỏ, có thể sử dụng trên Web. Kích cỡ khuôn hình tăng đồng nghĩa với việc tiêu tốn nhiều bộ nhớ và thời gian xử lý hơn khi hiển thị hay soạn thảo video.
Khi xử lý video số, kích cỡ khuôn hình tham chiếu đến độ phân giải. Các thuộc tính rất quan trọng của khuôn hình khi soạn thảo video gồm: điểm ảnh, tỷ lệ của khuôn hình, độ phân giải, độ sâu mầu. Mối liên hệ giữa các yếu tố này là rất quan trọng như kích cỡ khuôn hình và luan an 9 yêu cầu bộ nhớ; độ phân giải cao hơn thì hình ảnh chi tiết hơn và do đó yêu cầu cần nhiều bộ nhớ cho soạn thảo hơn. Tỷ lệ khuôn hình là tỷ lệ kích thước chiều ngang/chiều dọc của ảnh.
Ví dụ: tỷ lệ khuôn hình của video trong các hệ thống truyền hình NTSC (National Television System Committee) là 4:3. Video thông thường hiện nay sử dụng tỷ lệ 16:9. Tỷ lệ của khuôn hình không chỉ là các cạnh mà nó còn liên quan đến các chuẩn video. Ví dụ: tỷ lệ 4:3 là chuẩn cho các sản phẩm video của hệ điều hành Windows, Mac, khuôn hình 720x480 điểm ảnh sử dụng cho chuẩn NTSC.
Khi video được phát, các khung hình lần lượt được hiển thị ở tốc độ nhất định. Tốc độ phát hình là số hình ảnh được phát trong thời gian một giây. Các video phổ biến được phát với tốc độ từ 25 đến 30 hình/giây. Video số được hình thành từ rất nhiều ảnh số liên tục nên có kích cỡ rất lớn.
Do đó để lưu trữ người ta phải tìm mọi cách để giảm thiểu kích cỡ của video. Một trong các cách này là sử dụng độ phân giải phù hợp cho video. Nhiều nghiên cứu đã chứng minh rằng mắt người bị giới hạn về khả năng nhìn. Với màu sắc được hiển trị trên màn hình thì mắt người chỉ nhận biết được sự khác nhau của chất lượng hình ảnh chuyển động với độ phân giải dưới 72 dpi (72 điểm ảnh/inch).
Đối với các hình ảnh chuyển động có độ phân giải cao hơn thì mắt người không nhận biết được. Vì vậy, video số sử dụng độ phân giải 72dpi. Đây là tiêu chuẩn cho tất cả các thiết bị thu video số thông thường như các máy quay số (digital camera), các thiết bị chuyển đổi dữ liệu video từ dạng tương tự sang dạng số. Một số trường hợp đặc biệt khi cần có video chất lượng rất cao như các đoạn phim sử dụng cho việc phân tích khoa học cần phóng to lên nhiều lần thì phải dùng những máy quay đặc biệt để có thể tăng độ phân giải của video lên trên 72 dpi.
Trong trường hợp này dữ liệu video sẽ lớn lên khá nhiều. Ví dụ: tăng độ phân giải lên 300 dpi thì kích cỡ của tệp video tăng lên trên 4 lần. luan an 10 Bên cạnh đó người ta đã sử dụng nhiều biện pháp như giảm kích cỡ khuôn hình, giảm độ sâu mầu, nhưng hữu hiệu hơn cả vẫn là sử dụng các thuật toán nén video, như các thuật toán nén AVI (Audio Video Interleave), MPEG. Các thuật toán này đảm bảo cho việc sử dụng các tệp video trên máy tính cũng như truyền dữ liệu video trên mạng là hiệu quả trong thời gian thực.
Hiện nay, đã có rất nhiều thuật toán nén video khác nhau, nhưng nền tảng vẫn chủ yếu dựa trên các thuật toán nén ảnh. Mỗi chuẩn nén được gọi là một định chuẩn video. Video có thể được phân loại theo mục đích sử dụng như: video số sử dụng cho soạn thảo, video số sử dụng cho đầu cuối. Căn cứ vào mục đích sử dụng này mà có các phương pháp thích hợp xử lý.
Video số sử dụng cho soạn thảo thường có chất lượng rất cao. Thông thường sử dụng các thuật toán nén không mất thông tin. Các dữ liệu video này được lưu trữ và xử lý trên các thiết bị đặc biệt, chuyên dụng như lưu trên các ổ cứng có tốc độ đọc ghi nhanh, có các thiết bị phần cứng hỗ trợ xử lý video, máy tính tốc độ cao có trang bị các chíp đặc biệt hỗ trợ xử lý đồ hoạ. Video số sử dụng cho đầu cuối là các sản phẩm video số có chất lượng thấp hơn so với video dùng làm soạn thảo nên kích cỡ lại nhỏ hơn rất nhiều (nhỏ hơn vài chục lần so với video gốc) do sử dụng các thuật toán nén mất mát thông tin.
Video số đầu cuối có thể sử dụng trên mạng, Internet hoặc các ứng dụng thông thường. Trong lớp các video số này, người ta lại phân thành nhóm các sản phẩm nhỏ hơn như video ghi trên đĩa quang (Compact Disc – CD) hay đĩa phim kỹ thuật số (Digital Video Disc – DVD), video phân phối trên mạng. Các sản phẩm video số ghi trên đĩa CD là sản phẩm có chất lượng tương đối cao và được phân phối rộng khắp trên thị trường. Nó sử dụng định chuẩn nén MPEG-1.
Một đĩa CD có dung lượng 700Mb lưu trữ được 80 phút video. Các sản phẩm video số ghi trên đĩa DVD có sức chứa 4,7 Gb. Do đó, người ta có thể nâng cấp chất lượng video số cao hơn chuẩn MPEG–1 bằng cách sử dụng luan an 11 chuẩn MPEG–2. Một đĩa DVD có thể lưu trữ được hai giờ video số với chất lượng rất tốt.
Các sản phẩm video số phân phối trên mạng băng thông rộng, sử dụng chuẩn MPEG–1, MPEG–2, hoặc định chuẩn AVI, MOV (Apple QuickTime Movie) với chất lượng video số cao. Các định chuẩn này thường yêu cầu tốc độ truyền bít trên 15 Mb/giây. Các sản phẩm video số phân phối trên mạng băng thông hẹp hoặc Internet, sử dụng chuẩn video MPEG–4 hoặc AVI. Nhóm các sản phẩm video số này có chất lượng thấp, khuôn hình nhỏ.
Sản phẩm video số này yêu cầu tốc độ đường truyền thấp dưới 500 Kb/giây. Video từ máy quay, Băng Dữ liệu video số MPEG-1 Quá trình thu để cho đĩa CD chuyển thành dữ liệu Video dạng số Dữ liệu video số MPEG-2 cho đĩa DVD Video từ máy quay, Băng Quá trình xử lý Dữ liệu video số MPEG-4 video sau đó chuyển cho mạng, internet, … thành Video đầu cuối sử dụng trong Dữ liệu video số AVI, các ứng dụng MOV sử dụng cho các ứng dụng Hình 1. Sơ đồ chuyển đổi dữ liệu video Do giới hạn về phạm vi nghiên cứu, luận án không tập trung vào quán trình thu video và chuyển thành các video đầu cuối (hình 1. Thay vào đó, luận án chỉ tập trung xử lý phần hình ảnh giả thiết đã được phân tách thành các frame liên tục trong các dữ liệu video số sử dụng cho đầu cuối MPEG-4 đang được sử dụng rộng rãi trong các dịch vụ truyền hình, phân phối trên mạng Internet.
Chính vì vậy, quá trình xử lý video sau đó chuyển thành video đầu luan an 12 cuối, tích hợp phần hình ảnh với phần âm thanh, cũng như các định chuẩn video không được trình bày chi tiết trong luận án này. Bài toán thay thế đối tượng trong video Bài toán hậu xử lý video, hiểu video đã nhận được sự quan tâm rất lớn từ khi video ra đời đặc biệt là trong lĩnh vực công nghiệp điện ảnh. Tuy nhiên, các bài toán phát hiện quảng cáo, phân tích thị trường trong các lĩnh vực thương mại, thể thao mới được một số ít nhà nghiên cứu quan tâm. Hussain và các cộng sự trong nghiên cứu [34] đã đề xuất một ý tưởng cho việc tự động hiểu nội dung quảng cáo và phân tích cảm nhận của người xem.
Feng [23] đã đề xuất một phương pháp phát hiện logo trong quảng cáo truyền hình sử dụng kết hợp các đặc trưng âm thanh và video.