基於內容的圖像檢索:簡介基於內容的圖像檢索，即CBIR(Content- -百科知識中文網

簡介

基於內容的圖像檢索，即CBIR(Content-basedimageretrieval)，是計算機視覺領域中關注大規模數據內檢索數字圖像的研究分支。基於內容的圖像檢索的研究還涉及了圖像處理(ImageProcessing)、圖像檢索(ImageRetrieval)等多個研究領域。
簡單的CBIR系統，允許用戶輸入一張圖片，以查找具有相同或相似內容的其他圖片。而傳統的圖像檢索是基於文本的，即通過圖片的名稱、文字信息和索引關係來實現查詢功能。用戶輸入一串文字，檢索系統給出與該文字直接相關的圖片。
基於內容的圖像檢索的概念於1992年由T.Kato提出的[1]。他在論文“QuerybyVisualExample-ContentbasedImageRetrieval”中構建了一個基於色彩與形狀的圖像資料庫，並提供了一定的檢索功能進行實驗。此後，基於圖像特徵提取以實現圖像檢索的過程以及CBIR這一概念，被廣泛套用於各種研究領域，如統計學、模式識別、信號處理和計算機視覺。
基於內容的圖像檢索的研究已發展近20年，傳統的搜尋引擎公司包括Google、百度、Bing都已提供一定的基於內容的圖像搜尋產品。如：GoogleSimilarImages，百度識圖。

工作流程

基於CBIR技術的圖像檢索系統，在建立圖像資料庫時，系統對輸入的圖像進行分析並分類統一建模，然後根據各種圖像模型提取圖像特徵存入特徵庫，同時對特徵庫建立索引以提高查找效率。而用戶在通過用戶接口設定查詢條件時，可以採用一種或幾種的特徵組合來表示，然後系統採用相似性匹配算法計算關鍵圖像特徵與特徵庫中圖像特徵的相似度，然後按照相似度從大到小的順序將匹配圖像反饋給用戶。用戶可根據自己的滿意程度，選擇是否修改查詢條件，繼續查詢，以達到令人滿意的查詢結果。

技術概述

CBIR的核心是使用圖像的可視特徵對圖像進行檢索。本質上講，它是一種近似匹配技術，融合了計算機視覺、圖像處理、圖像理解和資料庫等多個領域的技術成果，其中的特徵提取和索引的建立可由計算機自動完成，避免了人工描述的主觀性。用戶檢索的過程一般是提供一個樣例圖像(QuerybyExample)或描繪一幅草圖(QuerybySketch)，系統抽取該查詢圖像的特徵，然後與資料庫中的特徵進行比較，並將與查詢特徵相似的圖像返回給用戶。CBIR的實現依賴於兩個關鍵技術的解決:圖像特徵提取和匹配。圖像特徵提取分為兩類:①低層視覺，其內容主要包括顏色、形狀、紋理等；②語義內容，它包含高層的概念級反應(如“海上升明月”)，需要對物體進行識別和解釋，往往要藉助人類的知識推理。由於目前計算機視覺和圖像理解的發展水平所限，使得CBIR還無法真正支持基於語義的圖像檢索，所以目前研究得較多也比較成熟的檢索算法大部分是基於圖像的低層特徵的，即利用圖像的顏色、紋理、形狀等特徵來檢索。提取後的圖像特徵數據需要經過索引、降維等處理。首先，圖像由特徵向量表示，而這些特徵向量一般都是高維向量，在龐大的圖像資料庫中，對高維向量進行順序比較的過程是相當費時的。在實際套用過程中，為了讓基於CBIR的圖像檢索系統能夠真正適合大型的圖像資料庫，提高檢索效率，儘可能減少查詢時的特徵矢量比較時間，往往將降維技術和多維索引技術結合起來。圖像相似度是指人類對圖像內容認識上（即語義）的差異，導致通過計算查詢樣圖和候選圖像之間在視覺特徵上存在距離。如果這個距離滿足一定條件，我們則可以說這兩圖像相似度匹配。當然，如果能將語義特徵和視覺特徵結合起來，相似度匹配程度會更高，檢索結果會更讓人滿意，但這是目前研究的一大難題。

特徵提取

基本體整體趨包含顏色、紋理、平面空間對應關係、外形，或者其他統計特徵。圖像特徵的提取與表達是基於內容的圖像檢索技術的基礎。從廣義上講，圖像的特徵包括基於文本的特徵（如關鍵字、注釋等）和視覺特徵（如色彩、紋理、形狀、對象表面等）兩類。視覺特徵又可分為通用的視覺特徵和領域相關的視覺特徵。前者用於描述所有圖像共有的特徵，與圖像的具體類型或內容無關，主要包括色彩、紋理和形狀；後者則建立在對所描述圖像內容的某些先驗知識（或假設）的基礎上，與具體的套用緊密有關，例如人的面部特徵或指紋特徵等。
I.顏色
顏色是彩色圖像最底層、最直觀的物理特徵，通常對噪聲，圖像質量的退化，尺寸、解析度和方向等的變化具有很強的魯棒性，是絕大多數基於內容的圖像和視頻檢索的多媒體資料庫中使用的特徵之一。顏色特徵的描述方法主要有以下四種：　
1)顏色直方圖(ColorHistogram)

它是最簡單也是最常用的顏色特徵，描述了圖像顏色的統計分布特性，具有平移、尺度、鏇轉不變性。其核心思想是在顏色空間中採用一定的量化方法對顏色進行量化，然後統計每一個量化通道在整幅圖像中所占的比重。
常用的顏色空間有RGB，CIE，HSI，HSV空間等，主要的量化方法有最重要信息位、顏色空間劃分、顏色空間聚類、參考顏色、圖像分割等，文獻[7]對這些方法進行了討論和總結。由於顏色直方圖缺乏顏色的空間分布信息，改進的方法包括在顏色索引時加入空間位置信息和基於區域的顏色查詢。最簡單的方法是子視窗直方圖法，即將圖像分割成子圖像，一一建立索引。文獻[8]中將圖像分成了大小相等的九個子圖像，然後統計每個子圖像中的顏色直方圖。
2)顏色相關圖(ColorCorrelogram)

其主要思想是用顏色對相對於距離的分布來描述信息，它反映了像素對的空間相關性，以及局部像素分布和總體像素分布的相關性，並且容易計算，特徵範圍小，效果好。
3)顏色矩(ColorMoment)
其基本思想是在顏色直方圖的基礎上計算出每個顏色通的均值、方差、偏差，用這些統計量替代顏色的分布來表示顏色特徵。它具有特徵量少，處理簡單的特點。
4)顏色一致性矢量(ColorCoherenceVectors,CCV)

本質上是一種引入空間信息改進的直方圖算法，統計了圖像中各顏色最大區域的像素數量。通過分離開一致性像素和非一致性像素，比直方圖算法具有更好的區別效果。

II. 紋理

紋理是圖像的重要特徵之一，通常定義為圖像的某種局部性質，或是對局部區域中像素之間關係的一種度量，其本質是刻畫像素的鄰域灰度空間分布規律。紋理特徵描述方法大致可以分為四類：統計法、結構法、模型法、頻譜法。
1)統計法　　
統計法分析紋理的主要思想是通過圖像中灰度級分布的隨機屬性來描述紋理特徵。最簡單的統計法是藉助於灰度直方圖的矩來描述紋理，但這種方法沒有利用像素相對位置的空間信息。
為了利用這些信息，Haralick等人提出了用共生矩陣來表示紋理特徵。該方法研究了紋理的空間灰度級相關性，構造出一個基於圖像像素間方向和距離的共生矩陣，並且從矩陣中提取出反差、能量、熵、相關等統計量作為特徵量表示紋理特徵。　
Tamura等人基於人類視覺的心理學研究後提出了一些不同的方法來描述紋理特徵，給出了幾個不同的描述紋理特徵的術語：粗糙度(Coarseness)、對比度(Contrast)、方向(Directionality)、線性度(Linelikeness)、規則度(regularity)、粗略度(roughness)等。Tamura紋理和共生矩陣表示的主要區別在於:前者的所有紋理屬性都是視覺意義上的，而後者的某些紋理屬性不具有視覺意義(如信息熵)。這一特點使得Tamura的紋理表示在圖像檢索中使用得較多。QBIC和MARS都進一步證明了這種表示方法。
2)結構法
結構法分析紋理的基本思想是假定紋理模式由紋理基元以一定的、有規律的形式重複排列組合而成，特徵提取就變為確定這些基元並定量分析它們的排列規則。Carlucci[12]曾提出一個使用直線段、開放多邊形和封閉多邊形作為紋理基元的紋理模型，其排列規則由一種圖狀語法結構定義。LuandFu[12]給過一種樹型語法結構表示紋理，他們將紋理按照9×9的視窗進行分割，每個分解單元的空間結構表示為一棵樹。因為實際的紋理大都是無規則的，因此結構法受到很大限制。
3)模型法　　
模型法利用一些成熟的圖像模型來描述紋理，如基於隨機場統計學的馬爾可夫隨機場、子回歸模型，以及在此基礎上產生的多尺度子回歸模型(MultiResolutionSimultaneousAutoregressive,MRSA)等。這些模型的共同特點是通過少量的參數表征紋理。MRSA區分不同紋理模式的能力較強，但同時計算開銷也較大。

4)頻譜法頻譜法藉助於頻率特性來描述紋理特徵，包括傅立葉功率譜法、Gabor變換、塔式小波變換(PyramidWaveletTransform，PWT)、樹式小波變換(TreeWaveletTransform，TWT)等方法。ManjunathandMa[18]實驗指出，Gabor特徵提供了最佳的模式檢索精度，檢索性能優於TWT和PWT，略微優於MRSA，缺點是計算速度慢，其鏇轉不變性和尺度不變性仍有待討論。

III. 形狀

形狀是刻畫物體最本質的特徵，也是最難描述的圖像特徵之一，主要難在對圖像中感興趣目標的分割。對形狀特徵的提取主要是尋找一些幾何不變數。目前用於圖像檢索的形狀描述方法主要有兩類:基於邊緣和基於區域的形狀方法。前者利用圖像的邊緣信息，而後者則利用區域內的灰度分布信息。
1)基於邊緣　　
基於邊緣的形狀特徵提取是在邊緣檢測的基礎上，用面積、周長、偏心率、角點、鏈碼、興趣點、傅立葉描述子、矩描述子等特徵來描述物體的形狀，適用於圖像邊緣較為清晰、容易獲取的圖像。
文獻首先對圖像進行了高斯平滑，接著使用經典的興趣點檢測算法發現興趣點，然後用興趣點的測度值作為圖像特徵進行匹配。文獻提出將圖像邊緣上的角點作為特徵點，然後使用Delaunay三角形進行劃分，記錄三角形的形狀特徵來描述圖像的形狀特徵。這種方法由於是基於邊緣上的一些特殊點，因此對噪聲和點位置的變化較為敏感。文獻採用邊緣方向直方圖來刻畫形狀特徵，具有簡單、平移不變性等優點，但也存在不具備尺度、鏇轉不變性等缺點。
2)基於形狀
基於區域的形狀特徵提取的主要思路是通過圖像分割技術提取出圖像中感興趣的物體，依靠區域內像素的顏色分布信息提取圖像特徵，適合於區域能夠較為準確地分割出來、區域內顏色分布較為均勻的圖像。文獻套用變形模板技術，把用戶提供的形狀看作模板，與圖像庫中的形狀進行匹配。由於是直接比較兩個形狀，因此具有較高的精度，但同時計算量也較大。文獻[22]提出了一種形狀彈性匹配算法，首先確定感興趣區域，在這些區域中採用爬山最佳化算法獲取圖像邊緣，並用這些邊緣代表物體形狀。這種方法的優點是對圖像邊緣進行了篩選，缺點是需要人工干預。近年來，基於區域的圖像檢索方法已經成為基於內容的圖像檢索的一大研究熱點。

特徵匹配

從圖像中提取的特徵可以組成一個向量，兩個圖像之間可以通過定義一個距離或者相似性的測量度來計算相似程度。
特徵匹配是圖像檢索的一個關鍵環節，具有特徵依賴的特點，不同的特徵應該採用不同的度量方法。在檢索的過程中，根據系統相似性度量的算法計算查詢特徵與特徵庫中對應的每組特徵的相似程度，把所得結果由大到小排序後得到一個匹配圖像序列返回給用戶。其間可以通過人機互動，對檢索的結果逐步求精，不斷縮小匹配集合的範圍，從而定位到目標。匹配過程常利用特徵向量之間的距離函式來進行相似性度量,模仿人類的認知過程,近似得到資料庫的認知排序。常用的距離度量公式有：Minkkowsky距離，Manhattan距離，Euclidean距離，加權Euclidean距離，Chebyshev距離，Mahalanobis距離等。其中，Manhattan距離計算簡單，效果也較好，被廣泛採用；加權Euclidean距離考慮了不同分量的重要性,也較為常用；Mahalanobis距離考慮了樣品的統計特性和樣品之間的相關性，在聚類分析中經常用到。當採用綜合特徵進行檢索時，需要對各特徵向量進行歸一化,以使得綜合特徵的各特徵向量在相似距離計算中地位相同。

語義鴻溝

英文名稱：SemanticGap
通常人們在判別圖像的相似性時並非建立在圖像低層視覺特徵的相似上，而是建立在對圖像所描述的對象或事件的語義理解的基礎上。這種理解無法從圖像的視覺特徵直接獲得，它需要使用人們日常生活中積累的大量經驗和知識來進行推理和判斷。其中,尤其對於一些高層次的抽象概念，如一幅關於節日的圖像所表達出的歡樂和喜慶的感覺等，更需要根據人的知識來判斷。換言之，人們是依據圖像的語義信息來進行圖像相似性判別的。正是由於人對圖像相似性的判別依據與計算機對相似性的判別依據之間的不同，造成了人所理解的“語義相似”與計算機理解的“視覺相似”之間的“語義鴻溝”的產生。在傳統的基於文字的查詢技術中，不存在這個問題，因為查詢關鍵字基本能夠反映查詢意圖。但是在基於內容的圖像查詢中，就存在一個底層特徵和上層理解之間的差異（這也就是著名的semanticgap）。主要原因是底層特徵不能完全反映或者匹配查詢意圖。彌補這個鴻溝的技術手段主要有：
1）相關反饋（relevancefeedback）
按照最初的查詢條件，查詢系統返回給用戶查詢結果，用戶可以人為介入（或者自動）來選擇幾個最符合他查詢意圖的返回結果（正反饋），也可以選擇最不符合他查詢意圖的幾個返回結果（負反饋）。這些反饋信息被送入系統用來更新查詢條件，重新進行查詢。從而讓隨後的搜尋更符合查詢者的真實意圖。
2）圖像分割（imagesegmentation）　　
圖像的特徵可以包括全局特徵和局部特徵。如果進行一定程度的圖像分割，劃分出不同的分割區域，這樣可以增加局部特徵的信息量，也可能在一定程度彌補語義鴻溝。
3）建立複雜的分類模型（MachineLearning）
一些比較複雜的非線性分類模型，比如支持向量機（SupportVectorMachine）本身就可以起到一定程度的效果來彌補語義鴻溝。

套用和研究

最早成功套用基於內容的圖像檢索技術的是IBM的QBIC系統。這個系統是為一個俄國博物館製作的繪畫作品查詢系統。QBIC系統的網站為IBM的QBIC系統。除了IBM的QBIC系統之外，比較著名的系統還包括UIUC大學的MARS系統、MIT的PhotoBook、UCBerkeley的DigitalLibraryProject,以及Columbia大學的VisualSEEk等。

基於內容的圖像檢索

簡介