詞包:計算機視覺中的詞包模型*來自維基百科這篇文章介紹了計算機視覺，特別 -百科知識中文網

計算機視覺中的詞包模型
*來自維基百科
這篇文章介紹了計算機視覺，特別是對象分類（object categorization）中的詞包模型。下文中提到的詞包模型除非特別說明都是在計算機視覺範圍內。這項技術也被稱為“bag of features model”。
在介紹詞包模型前，我們先簡單回憶下自然語言處理中的詞包模型。詞包在自然語言處理中是一項非常流行的代表文檔的技術，它忽略了文檔中詞的順序。例如，在這個模型下，“a good book”和“book good a”是一樣的。詞包模型套用基於詞典的建模方法，每個文檔像一個包（因此忽略了次序），包含了一些來著詞典的詞。計算機視覺的研究人員用了一個相似的思想來表示圖像（這的圖像可能特指一個特殊的對象，例如一張汽車的圖像）。例如，把一張圖像當做一個文檔，從圖像中提取出來的特徵就相當於詞（通常還需要一些額外的操作，下面會提到）。詞包表示法可以作為進一步圖像處理的基本步驟，如對象分類。
基於詞包的文本文檔表示
我們首先來回憶下自然語言處理中基於詞包的文本文檔表示。下面是量個簡單的文本文檔的示例：
“John likes to watch movies.Mary likes too.”
“John also likes to watch football games.”
基於這兩個文本文檔，我們可以構建一個詞典：
Dictionary={1:“John”2:“likes”3:“to”4:“watch”5:“movies”6:“also”7:“football”8:“games”9:“Mary”10:“too”}
這個詞典中有10個不同的詞。如果使用詞典的標記，每個文檔可以用一個10維的向量來表示：
“[1,2,1,1,1,0,0,0,1,0]”“[1,1,1,1,0,1,1,1,0,0]”
向量的每一維數值代表了相應的詞的個數（這也是直方圖表示法）。我們可以看到，這種向量表示法不保持原句子中詞的順序。這種表示法有一些成功的套用，例如latent Dirichlet allocation。
基於詞包模型的圖像表示
為了用詞包模型來表示圖像，圖像也可以看做一個文檔。同樣的，圖像中的“詞”也要定義。然後圖像中的詞不像文檔中是現成的。為了得到圖像中的詞，通常要經歷以下三個步驟，特徵檢測，特徵描述，碼本構造。詞包模型也可以定義為：基於獨立的特徵（feature）的的直方圖表示。基於內容的圖像標記和檢索（CBIR）是首先套用這一圖像表示技術的。
特徵檢測
給定一副圖像，特徵檢測就是要提取出圖像中的一些片（或者叫區域），這些就認為是基本元素詞的候選者。
規則格線
規則格線可能是最簡單有效的提取特徵的方法。在這種方法中，圖像被平均分成一些快。這個方法得到了非常好的自然場景分類的結果。該方法的缺陷就是它基本上沒有使用圖像本身的內容。
感興趣點的檢測
感興趣點檢測器檢測的是顯著的片，例如邊、角等。我們認為這些顯著的片比其他片更重要，例如能夠吸引人注意的片對於對象分類來說就更重要。一些著名的檢測子有Harris affine region detecto，Lowe的DoG運算元，Kadir Brady saliency detector。
另一些方法
另外，研究人員也使用隨機抽樣和圖像分割方法（例如Normalized Cut）來進行特徵檢測。
特徵表示
進行過特徵檢測之後，每個圖像就被抽象成了一些局部的片。特徵表示要解決的問題就是如何把這些片表示成數位化的向量。這些方法就被稱為特徵描述。好的特徵描述方法能夠在一定程度上處理飽和度、鏇轉、尺度和仿射等變換。最著名的描述子要數scale-invariant feature transform(SIFT)了。SIFT把每個小片吃轉換真128維的向量。這一步之後，每個圖像就是一些128維向量的組合了，不同的向量的順序都已不再重要了。
碼本生成
詞包模型的最後一步就是把向量表示的片轉換成codewords（類比於文本文檔中的詞），同時也生成一個碼本（詞典）。一個codeword可以認為是一些相似的片的一個代表。一個簡單的方法就是套用k均值聚類對於所有的向量。然後codeword就指定為聚類的中心。聚類簇的個數就是碼本的長度。
至此，圖像中的每個片經過聚類過程都被映射到了一個codeword上了，這樣圖像就可以用codeword的直方圖來表示。
基於詞包模型的學習和識別
計算機視覺的研究人員已經提出了一些學習方法來利用BoW模型來進行和圖像相關的任務，比如對象分類。這些方法大體上可以分為兩類：generative and discriminative models。對於多標籤分類問題，confusion matrix 能用作評價準則。
Generative Models
以下是這一節的一些標記。假設碼本的長度是V。
。。。

詞包

相關詞條

包[包姓]

海詞

詞時代

漢語分類詞

顏色詞

憶江南詞三首

圈兒詞

《柳枝詞》

包楞調

相關搜尋

熱門詞條