介紹
對象識別包括分類和檢測兩項任 務,分類用於判斷一幅圖像是否包含某類對象 ,檢測則要求標出這些對象的位置和大小。對象識別是理解圖像和場景的關鍵 ,具有廣泛的套用前景 ,可用於 Web圖像自動標註 、海量圖像搜尋 、圖像內容過濾 、機器人 、安全監視 、醫學遠程會診等多種領域。通用對象識別面臨很多困難,迄今沒有完善的解決方案,這些困難包括:(1)光照變化 、視點變化 、尺度變化 、物體變形 、遮擋 、背景嘈雜等多種因素使 同一 物體在不同圖像中存在很大的差異 ;(2)同類物體之間存在較大差異 ,這要求識別模型即能體現 同類物體之間的共性 ,又不能混淆相似的物體類別 ;(3)大量 的類別增加了系統實現的難度。近幾年來 ,通用對象識別的研究非常活躍 ,新的方法不斷湧現。
對象識別過程
對象識別系統使用訓練圖像,訓練出識別模型 ,並利用這個模型識別新圖像中的對象 ,這個過程一般包括預處理 、特徵提取、模型訓練和對象識別四個階段。
特徵提取
特徵提取提取圖像的亮度模式,紋理細節、形狀和輪廓等信息,包括特徵選取和特徵描述兩部分內容。
原始的訓練圖像往往需要人工進行預處理 ,預處理後 ,可從訓練圖像中提取特徵集。特徵集可以是全局特徵 ,體現整幅圖像的特點 ,也可以是局部特徵 ,代表圖像局部的特點。
常用的特徵有包括:
(1)Difference of Gaussians(DoG):最早由Lowe提出,具有平移、尺度不變性,檢測速度很快;
(2)Kadir&Brady檢測子:通過圓形區域亮度直方圖的局部最大熵尋找特徵區域,能輸出穩定、少量的圓形特徵區域;
(3)多尺度Harris檢測子:具有尺度不變性,適於檢測角形區域;
(4)Hessian-Laplace類似於DoG,這兩種方法都檢測類似於元球(blob-like)的結構,但Hessian-Laplace方法在尺度一空間定位精度更高;
(5)Harris-Affine區域和Hessian-Affine區域對圖像仿射變換具有不變性。
模型訓練
不同的對象識別系統有不同的訓練方法。很多方法來源於基本的機器學習技術,如boost、Winnow、支持向量機、RVM、貝葉斯理論、高斯混合模型、EM算法、決策樹、決策樹樁等技術。訓練方法大致可分為兩大類:求異法(discriminative approach)和泛化法(generative approach)。求異法試圖在特徵空間找到一條決策邊界,將特徵矢量分類,判斷它是否屬於某類物體。滑動視窗模型常採用求異法訓練模型,SVM、決策樹、決策樹樁及boost類技術常用於求異法泛化法則儘可能多地找到某類對象的特徵,根據這些特徵出現的機率,使用貝葉斯理論、高斯混合模型判斷對象的類別。基於部件的方法常採用泛化法設定、最佳化模型參數,EM算法常用來處理部件及其之間的關係,這種方法是一種疊代估計參數的方法,它可以處理數據缺失的問題,但不能保證找到全局最大值。
對象識別
提取了訓練圖像的特徵集後,就可以利用這些特徵集訓練識別模型。識別模型有很多種,為了描述方便,本文大致把它們分成三大類,分別是基於特徵袋(bag of feature)的識別模型,基於部件(part-based)的識別模型,基於滑動窗:(sliding-windows)的識別模型。
(1)特徵袋模型又稱為單詞袋(bag of word),近幾年廣泛地套用於各種識別任務,這種模型非常適合多類對象的同時識別,它將自動文檔分類技術引入對象識別,將一幅圖像看成由大量視覺單詞組成,每個視覺單詞是矢量量化後的局部特徵描述子,在對象識別中,某類對象相當於某類文檔主題,尋找某類對象類似於根據某類單詞出現的頻率尋找文檔的主題。該方法在多類對象識別測試中獲得了較好的結果。特徵袋模型的識別步驟一般為:特徵提取、矢量量化、直方圖計算、模型訓練、對象識別。
(2)基於部件的模型:這種模型學習識別給定類對象共同的相似的部件,通過它們是否存在判斷是否存在給定類對象。這種方法很適合具有固定結構和形狀的物體。實現細節主要包括如何檢測某個部件,採用何種空間結構模型處理部件之間的共存(co-occurrence)關係。在通用對象識別系統,一般採用相對較鬆散的空間結構模型,如星形網、樹形結構、K-fans結構等來表示部件之間的關係。
(3)基於滑動視窗的模型,這種模型隱含地採用固定模板將空間信息表示成特徵矢量。這種方法一般採用稠密的特徵提取法。然後採用機器學習算法,如支持向量機(SVM),對隱含模板進行匹配,這種模型往往包含大量的特徵集,因此常採用adaboost及級聯等技術從大量的特徵窗選擇最有識別性的特徵窗。基於滑動視窗的模型只需要少量的指導,檢測精度也較高,但這類方法的定位能力較弱,需要專門的算法將檢測到的多個視窗整合起來。