簡介
MPEG-4實現基於內容互動的首要任務就是把視頻/圖像分割成不同對象或者把運動對象從背景中分離出來,然後針對不同對象採用相應編碼方法,以實現高效壓縮。因此視頻對象提取即視頻對象分割,是MPEG-4視頻編碼的關鍵技術,也是新一代視頻編碼的研究熱點和難點。視頻對象分割涉及對視頻內容的分析和理解,這與人工智慧、圖像理解、模式識別和神經網路等學科有密切聯繫。目前人工智慧的發展還不夠完善,計算機還不具有觀察、識別、理解圖像的能力;同時關於計算機視覺的研究也表明要實現正確的圖像分割需要在更高層次上對視頻內容進行理解。因此,儘管MPEG-4 框架已經制定,但至今仍沒有通用的有效方法去根本解決視頻對象分割問題,視頻對象分割被認為是一個具有挑戰性的難題,基於語義的分割則更加困難。
相關內容
目前進行視頻對象分割的一般步驟是:先對原始視頻/圖像數據進行簡化以利於分割,這可通過低通濾波、中值濾波、形態濾波來完成;然後對視頻/圖像數據進行特徵提取,可以是顏色、紋理、運動、幀差、位移幀差乃至語義等特徵;再基於某種均勻性標準來確定分割決策,根據所提取特徵將視頻數據歸類;最後是進行相關後處理,以實現濾除噪聲及準確提取邊界。
在視頻分割中基於數學形態理論的分水嶺(watershed)算法被廣泛使用,它又稱水線算法,其基本過程是連續腐蝕二值圖像,由圖像簡化、標記提取、決策、後處理四個階段構成。分水嶺算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、準確得到運動物體邊緣的優點。但分割時需要梯度信息,對噪聲較敏感,且未利用幀間信息,通常會產生圖像過度分割。