*來自維基百科
這篇文章介紹了計算機視覺,特別是對象分類(object categorization)中的詞包模型。下文中提到的詞包模型除非特別說明都是在計算機視覺範圍內。這項技術也被稱為“bag of features model”。
在介紹詞包模型前,我們先簡單回憶下自然語言處理中的詞包模型。詞包在自然語言處理中是一項非常流行的代表文檔的技術,它忽略了文檔中詞的順序。例如,在這個模型下,“a good book”和“book good a”是一樣的。詞包模型套用基於詞典的建模方法,每個文檔像一個包(因此忽略了次序),包含了一些來著詞典的詞。計算機視覺的研究人員用了一個相似的思想來表示圖像(這的圖像可能特指一個特殊的對象,例如一張汽車的圖像)。例如,把一張圖像當做一個文檔,從圖像中提取出來的特徵就相當於詞(通常還需要一些額外的操作,下面會提到)。詞包表示法可以作為進一步圖像處理的基本步驟,如對象分類。
基於詞包的文本文檔表示
我們首先來回憶下自然語言處理中基於詞包的文本文檔表示。下面是量個簡單的文本文檔的示例:
“John likes to watch movies.Mary likes too.”
“John also likes to watch football games.”
基於這兩個文本文檔,我們可以構建一個詞典:
Dictionary={1:“John”2:“likes”3:“to”4:“watch”5:“movies”6:“also”7:“football”8:“games”9:“Mary”10:“too”}
這個詞典中有10個不同的詞。如果使用詞典的標記,每個文檔可以用一個10維的向量來表示:
“[1,2,1,1,1,0,0,0,1,0]”“[1,1,1,1,0,1,1,1,0,0]”
向量的每一維數值代表了相應的詞的個數(這也是直方圖表示法)。我們可以看到,這種向量表示法不保持原句子中詞的順序。這種表示法有一些成功的套用,例如latent Dirichlet allocation。
基於詞包模型的圖像表示
為了用詞包模型來表示圖像,圖像也可以看做一個文檔。同樣的,圖像中的“詞”也要定義。然後圖像中的詞不像文檔中是現成的。為了得到圖像中的詞,通常要經歷以下三個步驟,特徵檢測,特徵描述,碼本構造。詞包模型也可以定義為:基於獨立的特徵(feature)的的直方圖表示。基於內容的圖像標記和檢索(CBIR)是首先套用這一圖像表示技術的。
特徵檢測
給定一副圖像,特徵檢測就是要提取出圖像中的一些片(或者叫區域),這些就認為是基本元素詞的候選者。
規則格線
規則格線可能是最簡單有效的提取特徵的方法。在這種方法中,圖像被平均分成一些快。這個方法得到了非常好的自然場景分類的結果。該方法的缺陷就是它基本上沒有使用圖像本身的內容。
感興趣點的檢測
感興趣點檢測器檢測的是顯著的片,例如邊、角等。我們認為這些顯著的片比其他片更重要,例如能夠吸引人注意的片對於對象分類來說就更重要。一些著名的檢測子有Harris affine region detecto,Lowe的DoG運算元,Kadir Brady saliency detector。
另一些方法
另外,研究人員也使用隨機抽樣和圖像分割方法(例如Normalized Cut)來進行特徵檢測。
特徵表示
進行過特徵檢測之後,每個圖像就被抽象成了一些局部的片。特徵表示要解決的問題就是如何把這些片表示成數位化的向量。這些方法就被稱為特徵描述。好的特徵描述方法能夠在一定程度上處理飽和度、鏇轉、尺度和仿射等變換。最著名的描述子要數scale-invariant feature transform(SIFT)了。SIFT把每個小片吃轉換真128維的向量。這一步之後,每個圖像就是一些128維向量的組合了,不同的向量的順序都已不再重要了。
碼本生成
詞包模型的最後一步就是把向量表示的片轉換成codewords(類比於文本文檔中的詞),同時也生成一個碼本(詞典)。一個codeword可以認為是一些相似的片的一個代表。一個簡單的方法就是套用k均值聚類對於所有的向量。然後codeword就指定為聚類的中心。聚類簇的個數就是碼本的長度。
至此,圖像中的每個片經過聚類過程都被映射到了一個codeword上了,這樣圖像就可以用codeword的直方圖來表示。
基於詞包模型的學習和識別
計算機視覺的研究人員已經提出了一些學習方法來利用BoW模型來進行和圖像相關的任務,比如對象分類。這些方法大體上可以分為兩類:generative and discriminative models。對於多標籤分類問題,confusion matrix 能用作評價準則。
Generative Models
以下是這一節的一些標記。假設碼本的長度是V。
。。。
相關詞條
-
包[包姓]
包[讀音為bāo(ㄅㄠ)姓,是一個非常典型的多民族、多源流姓氏,在當今姓氏排行榜(2015年)上名列第一百八十四位。 包姓源於風姓包氏,出自中國三皇五帝...
姓氏起源 得姓始祖 分布 郡望堂號 代表人物 -
海詞
海詞是網際網路最大的線上詞典、英語學習平台之一,集線上查詞,翻譯,生詞本,背單詞等線上學習功能及英語學習論壇,家園等互動平台於一體。海詞致力打造中國人的精品詞典。
關於海詞 海詞結構 特色功能 海詞大事記 服務資源 -
詞時代
詞時代,簡稱詞媒體時代。是將詞作為傳遞信息載體,最大限度地加快傳播和記憶的速度,將特定時間、地點、人物、事件、進行超濃縮,以便於口口相傳的新銳時代。
名詞概念 銳詞特點 社會關注 現實意義 媒體變革 -
漢語分類詞
遠古漢語類似分類詞的結構是重複名詞本身,而不是使用單獨的分類詞。 數詞 分類詞
使用 -
顏色詞
顏色是人們對客觀世界的一種感知,人們的實際生活與顏色密切相關,人們生活在色彩之中。現代抽象派藝術的奠基人瓦西里·康定斯基在所著的《論藝術的精神》中指出:...
顏色詞簡介 基本顏色詞 其他顏色詞 顏色詞論述 -
憶江南詞三首
《憶江南三首》是唐代詩人白居易的組詞作品。第一首詞總寫對江南的回憶,選擇了江花和春水,襯以日出和春天的背景,顯得十分鮮艷奇麗,生動地描繪出江南春意盎然的...
作品原文 注釋譯文 創作背景 作品鑑賞 作者介紹 -
圈兒詞
《圈兒詞》宋代女詞人朱淑真(約1131年前後在世)的作品。
-
《柳枝詞》
《柳枝詞》是宋代詩人鄭文寶的作品之一。
作者 詩詞正文 賞析 -
包楞調
包楞調是一種流行在山東成武的傳統民歌。1962年10月,成武縣文化館幹部魏傳經在田集鎮小程樓村採訪民間歌手周金英時,收集並記錄了歌詞,後由成武縣第一中學...
歌曲流行 歷史淵源 歌詞格式 傳承譜系 發現經過