定義
描述、識別和理解個人行為、個人與外界環境之間的互動行為以及群體中人與人的互動行為。
行為理解可以簡單地認為是時變數據的分類問題,即將測試序列與預先標定的代表典型行為的參考序列進行匹配。
研究的意義
隨著計算機領域的不斷發展,人運動視覺分析由於在智慧型監控、高級人機互動、虛擬現實和基於內容的視頻檢索與解說等方面有著廣泛的套用前景和潛在的經濟價值,激發了廣大科研工作者及相關商家的濃厚興趣,並成為了計算機領域中備受關注的前沿方向之一。
過程
通過對大量行為理解研究文獻的整理髮現:人行為理解研究一般遵從特徵提取與運動表征、行為識別、高層行為與場景理解等幾個基本過程。
特徵提取與運動表征是在對目標檢測、分類和跟蹤等底層和中層處理的基礎上,從目標的運動信息中提取目標圖像特徵並用來表征目標運動狀態;
行為識別則是將輸入序列中提取的運動特徵與參考序列進行匹配,判斷當前的動作處於哪種行為模型;
高層行為與場景理解是結合行為發生的場景信息和相關領域知識,識別複雜行為,實現對事件和場景的理解。
研究方法介紹
特徵選擇與運動表征
在人運動視覺分析中,由於視角的影響,同一種行為可能有不同的投影軌跡,而不同的行為可能有相同的投影軌跡。此外,光照變化、遮擋等現實環境因素也都給行為理解帶來了很大困難。所以從原始視頻數據中提取何種底層特徵(如形狀信息包括側影、輪廓,運動信息包括位置、速度、方向等)描述人運動,以及如何選擇充分有效的描述方法表征人運動狀態並且能夠在時間解析度和維數上減少計算量成為行為理解的關鍵問題之一。
通過對2000—2007年400多篇關於行為理解研究的權威期刊與重要國際會議文章中使用特徵的統計分析表。發現行為理解研究所採用的特徵主要有如下四種: 外觀形狀特徵、 運動特徵、 時空特徵、 形狀特徵與運動特徵兩者的混合特徵。其中,形狀特徵和運動特徵是兩種最常用、也是最主要的特徵,其比例均保持在30%以上。另外,時空特徵在行為理解研究中開始得到越來越廣泛的使用。
人運動表征是指從人的運動序列中提取合適的特徵數據來描述人的運動狀態,這是人行為理解中至關重要的一步。依據所用的特徵,運動表征方法可分成 基於外觀形狀特徵的和 基於運動特徵的。
行為識別
行為識別問題可以簡單地看做是時變特徵數據的分類問題,即將測試序列與預先標定的代表典型行為的參考序列進行匹配,那么其關鍵問題是如何從學習樣本中獲取參考行為序列以及如何度量參考序列與測試序列之間的相似性。由於人動作執行的速度不一樣,學習和匹配行為序列時還必須能夠處理相似運動模式在空間和時間尺度上輕微的特徵變化。行為識別方法一般可以分成 靜態識別和 動態識別。
靜態識別方法是把行為看做由一組按時間順序串連起來的靜態圖像序列,其常用的方法有模板匹配方法;
動態識別方法是定義每個靜態姿勢作為圖模型上的一個節點或狀態,這些節點或狀態之間通過某種關係如機率聯繫起來。任何運動序列可以看做這些靜態姿勢的不同狀態之間的一次遍歷過程。常用的識別方法有隱馬爾可夫模型(hiddenMarkovmodels,HMMs)、動態貝葉斯網路(dynamicBayesiannetwork,DBN)等。這些方法可以總歸為基於狀態轉移的圖模型方法。
高層行為與場景理解
儘管用上述行為識別方法能夠識別較複雜的動作,但要理解“場景中在發生什麼事情”等複雜行為與事件,不僅需要解釋和理解視覺輸入,還需要場景中相關信息與背景知識,尤其是對涉及人活動的場景理解更需要抽象且有代表意義的策略。高層行為事件與場景理解是在對場景圖像信息的各種處理和分析的基礎上,解釋和描述場景圖像的內容,包括場景中人與人、人與物體的行為以及它們之間的時空關係,這也稱為高層視覺。
研究較多的事件檢測是對整個視頻序列內容以及真實場景的總結分析過程。其核心思想是利用物體或環境知識去理解場景中發生的動作或將要發生的動作,廣泛套用於停車場、超市、捷運以及機場等公共場所的智慧型監控中檢測是否有異常行為發生並告警。VSAM、Pfinder和AVITRACK等系統都具有場景理解與事件檢測的功能。
高層行為與場景理解的方法包括 基於規則推理網路、 隨機文法(包括隨機上下文無關文法:stochastic context free grammar, SCFG、機率狀態依存語法:probabilistic state dependent grammars, PSDG)、 因果分析等。
存在的問題
儘管利用機器學習工具構建人行為的統計模型、理解人行為的研究有了一定的進展,但由於動態場景中運動的快速分割、寬鬆的著裝、遮擋、陰影和光照變化、運動的非剛性和高自由度、行為發生的場景和人運動的模糊性(關於行為、事件、狀態有著不同的概念)等因素的影響,使得人視覺行為理解成為一個複雜且極具挑戰性的任務。相對於檢測、跟蹤等技術的顯著發展,其行為理解的研究進展比較緩慢。行為理解的研究仍處於初級階段,即原子動作分析,也就是簡單日常標準動作如行走、跳、站起、坐等和以人行為為目標的簡單事件檢測等。其亟待解決的問題和未來的發展趨勢有以下幾個方面:
運動特徵
如何選擇特徵來充分表達運動成為行為理解的關鍵問題之一。一般是儘可能選擇較多的特徵或者是在連續特徵的典型匹配過程中引入人運動模型的簡化約束條件來減少、消除歧義性。但如果選取的特徵過多、特徵向量維數過大,則會增加計算的複雜度;而選擇特徵過少,又可能不足以識別與理解人行為,而引入人運動模型的簡化約束條件與一般的圖像條件卻又是不吻合的。因此,能否借鑑人類的學習、識別與理解機理,定義一個動態特徵模型,首先提取有關行為的主要特徵,當這些特徵不足以完成識別與理解時,系統逐步提取候選的細節特徵;另外一種更好的辦法是使用行為的二維表達捕捉行為的視覺不變特徵,那樣對行為理解不會引起歧義。但是如何選擇視覺不變特徵卻又是一項很困難的任務。此外,提取特徵的不穩定性也為行為理解帶來很大的困難,但多模特徵融合將為行為理解提供一種很好的解決辦法。例如在某些環境中,可視信息受干擾,變得敏感不可靠時,聲音特徵將為基於視頻的行為理解提供一個很好的補充;在遮擋的情況下,基於多攝像機信息融合方法由於能夠很好地解決遮擋問題,在行為理解研究也將會得到快速的發展。對於運動特徵表征來說,不同複雜程度的運動通常會採用不同的運動表達方法,即使是同一種動作在不同的場合,由於快慢速度不一致等都會產生不同的時空關係。如何表征這些細微的時空變化並沒有一個很好的辦法。一個可行的辦法是採用多解析度的方法來表征和分析運動,但計算量較大。
行為識別
人行為理解雖然取得一定的進展,但行為理解研究還只局限於簡單、固定視角且已切分好後的動作,對不同動作連續變化的長運動序列的研究比較少,而且魯棒差,在噪聲、亮度和光照變化強烈以及視角變化的複雜環境中正確識別率大大降低。行為識別方法如狀態轉移的圖模型方法和模板匹配方法通常在計算代價和運動識別的準確度之間進行折中,而且都是先訓練後使用,只能識別訓練中預先定義好的動作,沒有自動學習新行為的能力,缺乏考慮場景等背景知識,很難根據目標行為和場景的先驗知識進行自動機器學習。例如HMMs等方法被看成一個黑盒,它不解釋某種行為是什麼,只輸出一種未知行為與認知的模式行為之間的機率。所以仍需要尋找和開發新技術,以利於在提高行為識別性能的同時,又能有效地降低計算的複雜度。
發展趨勢
高層行為與場景理解
行為本身具有很強的模糊性,同一行為、事件、狀態在不同的場景有著不同的概念,當同一場景中有多個目標出現時其行為模糊性更加明顯。所以,如何藉助於先進的視覺算法和人工智慧等領域的成果,將現有的簡單行為識別與理解推廣到更為複雜場景下的事件與場景理解,是將計算機視覺低、中層次的處理推向高層抽象思維的關鍵問題。
與生物特徵識別相結合
在智慧型安全監控、智慧型人機互動中,行為理解與生物特徵相結合顯得更加重要,不但要求系統能夠識別被監控對象的當前行為狀態,而且能夠識別當前被監控的對象身份。生物特徵技術識別如步態識別、人臉識別等給對象身份識別提供了一個很好的解決辦法。所以與生物特徵識別相結合的行為理解將會是未來的研究方向之一。
算法評價
一般而言,魯棒性、準確度、速度是人行為識別的三個基本要求,要求能夠快速準確地識別運動且連續地工作,對於如噪聲、光照、天氣等因素的影響不能太敏感。但識別方法更多關注的是識別率,對魯棒性和速度兩個指標研究要求很少。另外,對行為識別方法沒有統一的視頻測試序列,大部分研究方法都是具體問題具體分析,是用各自選擇的視頻序列進行實驗分析,無法對提出的算法進行統一評價。