簡介
圖像是人對視覺感知的物質再現。圖像可以由光學設備獲取,如照相機、鏡子、望遠鏡及顯微鏡等;也可以人為創作,如手工繪畫。圖像可以記錄、保存在紙質媒介、膠片等等對光信號敏感的介質上。隨著數字採集技術和信號處理理論的發展,越來越多的圖像以數字形式存儲。圖像對象檢測是利用圖像處理與模式識別等領域的理論和方法,檢測出圖像中存在的目標對象,確定這些目標對象的語義類別,並標定出目標對象在圖像中的位置。
圖像檢測方法主要分為六個步驟:預處理、視窗滑動、特徵提取、特徵選擇、特徵分類和後處理。首先,預處理對待檢測圖像進行圖像去噪、圖像增強、色彩空間轉換等操作。其次,在待檢測圖像中滑動一個固定大小的視窗,將視窗中的子圖像作為候選區。然後,利用特定的算法對候選區進行特徵提取。其次,從特徵向量中挑選具有代表性的特徵,降低特徵的維數。然後,利用特定的分類器對特徵進行分類,判定候選區是否包含了目標及其類別。最後,合併判定為同一類別的相交候選區,計算出每個目標的邊界框,完成目標檢測。
圖像對象分類
圖像目標類別檢測是目標分類的一個子問題。目標分類可以分為3個層級:
(1) 圖像級,即確定圖像中是否有相關的目標對象,如圖像分類[、圖像注釋技術。
(2)區域級,即確定圖像中某個區域含有某類目標,即本文所述的圖像目標類別檢測。
(3)像素級,即確定圖像中各像素歸屬於哪類目標對象。像素級分割也分為類別級目標分割和語義分割兩類。類別級目標分割與語義分割的主要區別是,語義分割要求將圖像中的所有目標包括背景都分割出來並確定其類別,而目標分割僅需要分割感興趣的目標並分類。
外觀模型與分類器
目標類別檢測的輸入是一幅圖像,可以通過特徵提取算法對圖像的底層特徵進行描述。而目標類別檢測輸出則是一組目標對象的位置標定以及它們所屬的高層語義概念。因此,目標類別檢測提供了圖像從低層特徵到高層語義的映射, 其中存在著語義鴻溝問題, 外觀模型起到了圖像低層特徵與語義之間的橋樑作用。外觀建模是指對不同類別目標對象的描述,以及從描述中提取外觀模型, 即建立各個類別的通用描述的一個過程。這個過程中,機器學習是必不可少的。根據目標對象的可形變能力,目標可以分為兩類:
(1)結構類,例如瓶子、建築、人體、馬等,它們具有接近的形狀和大小。
(2)非結構類,例如天空、草地、雲朵等,這類對象沒有固定的形狀和大小。
儘管兩類目標對象在幾何特性上有較大差異,但是在使用的低層、中層特徵描述方法上大部分相同。為了解決對這兩類不同的目標對象的類別檢測,研究者分別使用了結構模型和非結構模型對這兩類對象進行表示。結構模型主要用於對結構目標的描述, 常用的結構模型包括基於視窗的模型、 基於部分的模型以及混合模型。
基於視窗的模型的基本思想是圍繞著目標對象的區域,即視窗內的視覺特徵通過特徵描述子進行描述。這裡的視窗通常是矩形或者多邊形。基於視窗的描述方法主要分為3步:首先預先確定視窗的形狀;然後選擇合適的特徵和特徵描述子;最後聯合多種特徵描述子對給定的視窗進行描述,得到基於視窗的特徵描述子。最常用的視窗形狀是矩形,研究者在此方面做了大量工作,但是矩形視窗無法很好地確定目標的邊界,因此研究者也在多邊形視窗方面展開研究,但是多邊形視窗會增加計算的負擔。此外,在對目標的形狀無預先知識的情況下, 如何適應性地確定視窗的邊界,研究者還提出了形狀自由視窗來解決這一問題。
基於部分的模型主要由兩部分組成,一組小的部分和它們之間的拓撲關係。這裡的部分通常選取目標中具有代表性的區域, 如人體的頭、 手臂,並通過他們的視覺特徵對其進行描述,拓撲關係則主要描述這些部分的位置以及相連性的關係。研究者利用圖形學方法對這些部分的拓撲關係進行表示。典型的部分間拓撲關係包括星型結構、 樹型結構、k-fan模型、 全連線叢模型、有向無環圖模型,又包括層次模型 和稀疏彈性模型。
基於視窗的模型和基於部分的模型分別適用於不同的套用場景,例如樹型結構模型適用於對不同姿態下目標的識別 而對於行人檢測,目前適用的仍然是基於視窗的模型。因此,對於這兩類模型的整合也成為一個重要的研究點,即混合模型。
非結構模型主要用於對非結構目標的描述。在對非結構目標的建模上, 主要有兩種思路:(1)在像素的局部鄰域內計算視覺特徵。為了提高計算效率, 輸入圖像通常被分為規則的格線再進行計算。但是大小一致的鄰域計算有可能跨越目標的邊界, 導致得到的描述不準確,而且這種描述方法也只能對目標對象很小的區域進行描述, 對相鄰的同類目標檢測能力較差。
(2) 對過分割後的區域視覺信息進行描述。過分割是將圖像分割為一組小的、貼近圖像邊緣的原子區域,即超像素, 隨後對這些超像素區域進行描述和分類。非結構模型同樣也可以用於結構目標的識別,研究者在結構與非結構模型的結合方面也做了大量工作。
監督分類方法在目標檢測中的作用可以概括為兩個方面:外觀模型的參數由監督分類算法進行訓練;通過分類器對測試圖像或輸入圖像進行目標分類。為了訓練出各個類別目標對象具有代表性的外觀模型,各種形式的訓練器都被研究者逐一嘗試,常用的有支持向量機、K近鄰、神經網路 隨機森林等。但是由於外觀模型的複雜性,需要對類內差距和類間差距進行有效區分,因此需要高維的特徵描述和非常複雜的訓練模型 。
顯著對象檢測
顯著對象檢測是視覺注意機制中的一項關鍵技術,它是將圖像中的顯著對象快速而準確地定位並提取,進而進行優先處理與分析,為後續的圖像分析提供指導和決策層的支持。目前,對於自然場景圖像, 已有的顯著對象檢測方法可分為 3 類: 基於像素的、基於頻域分析的和基於區域的方法。基於像素的方法主要以像素為單位計算不同特徵的顯著度圖,在顯著度圖中定位顯著對象,此類方法的特點是計算特徵較容易提取、計算量較小、較為快速,但對於噪聲較為敏感、魯棒性較差;基於頻域分析的方法主要是尋找不同特徵在頻域中的特點, 構建頻域濾波器來定位顯著對象,此類方法魯棒性較好,但精確度不高,只能得到顯著對象的大致位置形狀。基於區域的方法主要利用分割將圖像劃分為不同的區域,然後通過區域競爭定位顯著對象,此類方法基於心理學研究基礎,是目前發展趨勢,但由於對分割算法過度依賴不利於對象語義的完整性,並且計算量較大,魯棒性有待提高 。
圖像處理
概述
圖像處理,是對圖像進行分析、加工、和處理,使其滿足視覺、心理以及其他要求的技術。圖像處理是信號處理在圖像域上的一個套用。目前大多數的圖像是以數字形式存儲,因而圖像處理很多情況下指數字圖像處理。此外,基於光學理論的處理方法依然占有重要的地位。圖像處理是信號處理的子類,另外與計算機科學、人工智慧等領域也有密切的關係。
常用方法
1 )圖像變換:由於圖像陣列很大,直接在空間域中進行處理,涉及計算量很大。因此,往往採用各種圖像變換的方法,如傅立葉變換、沃爾什變換、離散餘弦變換等間接處理技術,將空間域的處理轉換為變換域處理,不僅可減少計算量,而且可獲得更有效的處理(如傅立葉變換可在頻域中進行數字濾波處理)。目前新興研究的小波變換在時域和頻域中都具有良好的局部化特性,它在圖像處理中也有著廣泛而有效的套用。
2 )圖像編碼壓縮:圖像編碼壓縮技術可減少描述圖像的數據量(即比特數),以便節省圖像傳輸、處理時間和減少所占用的存儲器容量。壓縮可以在不失真的前提下獲得,也可以在允許的失真條件下進行。編碼是壓縮技術中最重要的方法,它在圖像處理技術中是發展最早且比較成熟的技術。
3 )圖像增強和復原:圖像增強和復原的目的是為了提高圖像的質量,如去除噪聲,提高圖像的清晰度等。圖像增強不考慮圖像降質的原因,突出圖像中所感興趣的部分。如強化圖像高頻分量,可使圖像中物體輪廓清晰,細節明顯;如強化低頻分量可減少圖像中噪聲影響。圖像復原要求對圖像降質的原因有一定的了解,一般講應根據降質過程建立“降質模型”,再採用某種濾波方法,恢復或重建原來的圖像。
4 )圖像分割:圖像分割是數字圖像處理中的關鍵技術之一。圖像分割是將圖像中有意義的特徵部分提取出來,其有意義的特徵有圖像中的邊緣、區域等,這是進一步進行圖像識別、分析和理解的基礎。雖然目前已研究出不少邊緣提取、區域分割的方法,但還沒有一種普遍適用於各種圖像的有效方法。因此,對圖像分割的研究還在不斷深入之中,是目前圖像處理中研究的熱點之一。
5 )圖像描述:圖像描述是圖像識別和理解的必要前提。作為最簡單的二值圖像可採用其幾何特性描述物體的特性,一般圖像的描述方法採用二維形狀描述,它有邊界描述和區域描述兩類方法。對於特殊的紋理圖像可採用二維紋理特徵描述。隨著圖像處理研究的深入發展,已經開始進行三維物體描述的研究,提出了體積描述、表面描述、廣義圓柱體描述等方法。
6 )圖像分類(識別):圖像分類(識別)屬於模式識別的範疇,其主要內容是圖像經過某些預處理(增強、復原、壓縮)後,進行圖像分割和特徵提取,從而進行判決分類。圖像分類常採用經典的模式識別方法,有統計模式分類和句法(結構)模式分類,近年來新發展起來的模糊模式識別和人工神經網路模式分類在圖像識別中也越來越受到重視。