基本概念
圖像識別,是指利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。一般工業使用中,採用工業相機拍攝圖片,然後再利用軟體根據圖片灰階差做進一步識別處理,圖像識別軟體國外代表的有康耐視等,國內代表的有圖智慧型等。另外在地理學中指將遙感圖像進行分類的技術。
圖形刺激作用於感覺器官,人們辨認出它是經驗過的某一圖形的過程,也叫圖像再認。在圖像識別中,既要有當時進入感官的信息,也要有記憶中存儲的信息。只有通過存儲的信息與當前的信息進行比較的加工過程,才能實現對圖像的再認。
圖像識別是人工智慧的一個重要領域。為了編制模擬人類圖像識別活動的電腦程式,人們提出了不同的圖像識別模型。例如模板匹配模型、原型匹配模型。
識別基礎
圖像識別可能是以圖像的主要特徵為基礎的。每個圖像都有它的特徵,如字母A有個尖,P有個圈、而Y的中心有個銳角等。對圖像識別時眼動的研究表明,視線總是集中在圖像的主要特徵上,也就是集中在圖像輪廓曲度最大或輪廓方向突然改變的地方,這些地方的信息量最大。而且眼睛的掃描路線也總是依次從一個特徵轉到另一個特徵上。由此可見,在圖像識別過程中,知覺機制必須排除輸入的多餘信息,抽出關鍵的信息。同時,在大腦里必定有一個負責整合信息的機制,它能把分階段獲得的信息整理成一個完整的知覺映象。
在人類圖像識別系統中,對複雜圖像的識別往往要通過不同層次的信息加工才能實現。對於熟悉的圖形,由於掌握了它的主要特徵,就會把它當作一個單元來識別,而不再注意它的細節了。這種由孤立的單元材料組成的整體單位叫做組塊,每一個組塊是同時被感知的。在文字材料的識別中,人們不僅可以把一個漢字的筆劃或偏旁等單元組成一個組塊,而且能把經常在一起出現的字或詞組成組塊單位來加以識別。
在計算機視覺識別系統中,圖像內容通常用圖像特徵進行描述。事實上,基於計算機視覺的圖像檢索也可以分為類似文本搜尋引擎的三個步驟:提取特徵、建索引build以及查詢。
模型
圖像識別是人工智慧的一個重要領域。為了編制模擬人類圖像識別活動的電腦程式,人們提出了不同的圖像識別模型。
(1)模板匹配模型
這種模型認為,識別某個圖像,必須在過去的經驗中有這個圖像的記憶模式,又叫模板。當前的刺激如果能與大腦中的模板相匹配,這個圖像也就被識別了。例如有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。這個模型簡單明了,也容易得到實際套用。但這種模型強調圖像必須與腦中的模板完全符合才能加以識別,而事實上人不僅能識別與腦中的模板完全一致的圖像,也能識別與模板不完全一致的圖像。例如,人們不僅能識別某一個具體的字母A,也能識別印刷體的、手寫體的、方向不正、大小不同的各種字母A。同時,人能識別的圖像是大量的,如果所識別的每一個圖像在腦中都有一個相應的模板,也是不可能的。
(2)原型匹配模型
為了解決模板匹配模型存在的問題,格式塔心理學家又提出了一個原型匹配模型。這種模型認為,在長時記憶中存儲的並不是所要識別的無數個模板,而是圖像的某些“相似性”。從圖像中抽象出來的“相似性”就可作為原型,拿它來檢驗所要識別的圖像。如果能找到一個相似的原型,這個圖像也就被識別了。這種模型從神經上和記憶探尋的過程上來看,都比模板匹配模型更適宜,而且還能說明對一些不規則的,但某些方面與原型相似的圖像的識別。但是,這種模型沒有說明人是怎樣對相似的刺激進行辨別和加工的,它也難以在電腦程式中得到實現。因此又有人提出了一個更複雜的模型,即“泛魔”識別模型。
一般工業使用中,採用工業相機拍攝圖片,然後利用軟體根據圖片灰階差做處理後識別出有用信息,圖像識別軟體國外代表的有康耐視等,國內代表的有圖智慧型等。
研究現狀
圖像識別的發展經歷了三個階段:文字識別、數字圖像處理與識別、物體識別。文字識別的研究是從 1950年開始的,一般是識別字母、數字和符號,從印刷文字識別到手寫文字識別, 套用非常廣泛。
數字圖像處理和識別的研究開始於1965年。數字圖像與模擬圖像相比具有存儲,傳輸方便可壓縮、傳輸過程中不易失真、處理方便等巨大優勢,這些都為圖像識別技術的發展提供了強大的動力。物體的識別主要指的是對三維世界的客體及環境的感知和認識,屬於高級的計算機視覺範疇。它是以數字圖像處理與識別為基礎的結合人工智慧、系統學等學科的研究方向,其研究成果被廣泛套用在各種工業及探測機器人上。現代圖像識別技術的一個不足就是自適應性能差,一旦目標圖像被較強的噪聲污染或是目標圖像有較大殘缺往往就得不出理想的結果。
圖像識別問題的數學本質屬於模式空間到類別空間的映射問題。目前,在圖像識別的發展中,主要有三種識別方法:統計模式識別、結構模式識別、模糊模式識別。圖像分割是圖像處理中的一項關鍵技術,自20世紀70年代,其研究已經有幾十年的歷史,一直都受到人們的高度重視,至今藉助於各種理論提出了數以千計的分割算法,而且這方面的研究仍然在積極地進行著。
現有的圖像分割的方法有許多種,有閾值分割方法,邊緣檢測方法,區域提取方法,結合特定理論工具的分割方法等。從圖像的類型來分有:灰度圖像分割、彩色圖像分割和紋理圖像分割等。早在1965年就有人提出了檢測邊緣運算元,使得邊緣檢測產生了不少經典算法。但在近二十年間,隨著基於直方圖和小波變換的圖像分割方法的研究計算技術、VLSI技術的迅速發展,有關圖像處理方面的研究取得了很大的進展。圖像分割方法結合了一些特定理論、 方法和工具,如基於數學形態學的圖像分割、基於小波變換的分割、基於遺傳算法的分割等。
主要方法
基於神經網路
人工神經網路方法實現模式識別,可處理一些環境信息十分複雜,背景知識不清楚,推理規則不明確的問題,允許樣品有較大的缺損、畸變,神經網路方法的缺點是其模型在不斷豐富完善中,目前能識別的模式類還不夠多,神經網路方法允許樣品有較大的缺損和畸變,其運行速度快,自適應性能好,具有較高的解析度。
神經網路的圖像識別系統是神經網路模式識別系統的一種,原理是一致的。一般神經網路圖像識別系統由預處理,特徵提取和神經網路分類器組成。預處理就是將原始數據中的無用信息刪除,平滑,二值化和進行幅度歸一化等。神經網路圖像識別系統中的特徵提取部分不一定存在,這樣就分為兩大類:
①有特徵提取部分的:這一類系統實際上是傳統方法與神經網路方法技術的結合,這種方法可以充分利用人的經驗來獲取模式特徵以及神經網路分類能力來識別目標圖像。特徵提取必須能反應整個圖像的特徵。但它的抗干擾能力不如第2類。
②無特徵提取部分的:省去特徵抽取,整副圖像直接作為神經網路的輸入,這種方式下,系統的神經網路結構的複雜度大大增加了,輸入模式維數的增加導致了網路規模的龐大。此外,神經網路結構需要完全自己消除模式變形的影響。但是網路的抗干擾性能好,識別率高。
當BP網用於分類時,首先要選擇各類的樣本進行訓練,每類樣本的個數要近似相等。其原因在於一方面防止訓練後網路對樣本多的類別回響過於敏感,而對樣本數少的類別不敏感。另一方面可以大幅度提高訓練速度,避免網路陷入局部最小點 。
基於小波矩
將輸入二維二值圖像的不變矩作為識別特徵,運用BP網路進行識別,將輸入圖像經過歸一化處理,極坐標化,旋轉不變小波矩特徵提取後,送入BP網路分類器進行識別,獲得識別結果。
基於小波矩的圖像識別方法的特點如下:
(1)小波矩特徵對具有平移、縮放和旋轉的樣本具有良好的分辨能力,在未加噪聲的情況下,小波矩特徵都能正確分辨測試樣本,識別率優於幾何矩,差距達到30個百分點。
(2)隨著添加隨機噪聲,兩種矩特徵的識別率都有所下降,但由於小波矩具有較好的提取圖像局部特徵能力,所以小波矩的識別率下降相對緩慢.最高正確識別率達到98%。
(3)小波矩特徵較為穩定。幾何矩的分辨能力有時不能隨著特徵數的增加而穩定,這樣需要較多的分辨特徵的情況下是不利的。而小波矩雖然也有一定波動,但波動幅度有限,其判別精度整體為穩定增加趨勢 。
基於分形特徵
一般認為:自然紋理圖像滿足分形特性,可以提取其分形特徵以供進一步的紋理分割、目標識別等,而人造目標圖像是不滿足分形特性的,不可以提取其分形特徵。基於分形特徵的紅外圖像識別方法步驟如下:
(1)紅外圖像預處理
由於探測器本身固有的特性,紅外熱圖像普遍存在目標與背景對比度較差,圖像邊緣模糊,噪聲較大等缺點,因此必須進行預處理,以增強其對比度。
(2)紅外圖像分形特徵提取
分別提取提取基於分形維數的特徵、基於Hurst指數的分形特徵、基於縫隙(lacunarity)的分形特徵。
(3)基於神經網路的紅外圖像識別
人工神經網路是進行目標識別(包括圖像識別)的強有力工具。它通過對原始數據的訓練,獲得最佳的權係數,取得很好的識別結果 。