多媒體搜尋,是指帶圖片或媒體檔案搜尋功能的引擎,包括圖像檢索、音頻檢索、視頻檢索,以及包括動漫、音樂 電影、電視等等。
多媒體搜尋的原理
對於搜尋引擎,大家最為熟悉的,莫過於文本類的搜尋了,網際網路上提供最多的,就是這種以“關鍵字”為搜尋條件,再根據計算資料庫中關鍵字出現的頻率,決定搜尋結果排列順序的文本搜尋方式。雖然,後來出現了按訪問率決定排列順序的“科學引文索引方式”,以及現在剛剛興起的付費用戶排列靠前的“自信心定律”方式,但從根本上來說,它們仍然是一種文本搜尋方式。
隨著網際網路的快速普及,寬頻網的全力推行,網路上的多媒體檔案越來越多,在這種背景下,傳統的文本搜尋方式已經不能滿足人們的特殊需要,大家希望能更方便快捷地從網路上找到需要的多媒體檔案,於是,各大搜尋引擎紛紛推出了自己的帶圖片或媒體檔案搜尋功能的引擎,國內外的有:Lycols、Webshots、Comics、ditto、FreeFoto、Iranian、AltaVista、263、Lycos中國等。
具有媒體搜尋功能的搜尋引擎,其搜尋功能主要基於三種方式得以實現:文字方式、內容方式、排除與自動標註方式。
文字方式
這種方式是文本式搜尋引擎的進一步延伸套用,如輸入“dog(狗)”,就能搜尋到與之相應的圖像或其他多媒體檔案。用戶輸入的文本,作為關鍵字進行提交,系統根據資料庫的檔案將關鍵字映射為網站或網頁地址,並以最終結果出現。這種方式的問題在於,難於對資料庫中的大量媒體檔案逐個地決定“關鍵字”,不便於管理和延伸。
內容方式
這種方式通過分析圖像本身的內容,如色彩、對象等圖像內部元素來決定最終搜尋結果。在進行搜尋時,系統會先進行採樣,然後與資料庫中的檔案相比較,最後將內容相似的媒體檔案返回並作為最終搜尋頁面出現。這種方式的問題在於,所謂的“內容”,很難有一個統一的標準,每個人的審美角度不同,因此同樣的搜尋結果,也許對某些用戶很適用,但對於另外一些用戶則效果不佳。
排除與自動標註方式
本方式吸收了前面兩種技術的優點,大幅度地提高了媒體搜尋的精確度。所謂“排除”,是指在進行內容搜尋時,將不符合“內容”的條件標註出來並排除在“搜尋條件”外,從而提高了搜尋精度。自動標註,則是通過資料庫的支持,將用戶因反饋而標定的信息不斷加入資料庫並進行擴展,在這個過程中,人為標註的只是極小一部分,即作為“樣品”出現的那部分檔案。
多媒體搜尋的使用
多媒體搜尋技術的使用,在國外已經有兩三年的歷史了,但在國內,尚是一個新事物,無論是資料庫的充實,還是搜尋的科學性,與國外相比,尚有一定的差距。現在國內搜尋引擎的多媒體搜尋功能,常作為“條件”或欄目之一的形式出現,少有將多媒體搜尋功能單列出來的。對多媒體檔案進行檢索時,常採用關鍵字文本方式進行檢索,在搜尋的精度上有待提高。另外,雖然圖像內容無國界,但圖像還是多以英文命名,少有用中文進行命名的,這樣,在進行中文關鍵字的搜尋時,可謂困難重重。
擴展閱讀――多媒體信息檢索技術簡介
多媒體技術和Internet的發展給人們帶來巨大的多媒體信息海洋,並進一步導致了超大型多媒體信息庫的產生,光憑關鍵字是很難做到對多媒體信息的描述和檢索的,這就需要有一種針對多媒體的有效的檢索方式。如何有效的幫助人們快速、準確地找到所需要的多媒體信息,成了多媒體信息庫所要解決的核心問題。
基於內容的信息檢索(Content-Based Retrival)是一種新的檢索技術,是對多媒體對象的內容及上下文語義環境進行檢索,如對圖像中的顏色、紋理,或視頻中的場景、片斷進行分析和特徵提取,並基於這些特徵進行相似性匹配。
基於內容的圖像檢索:
它是根據分析圖像的內容,提取其顏色、形狀、紋理,以及對象空間關係等信息,建立圖像的特征索引。目前有的圖像檢索系統有:
QBIC(Query By Image Content)是IBM Almaden研究中心開發的第一個商用基於內容的圖像及視頻檢索系統,它提供了對靜止圖像及視頻信息基於內容的檢索手段,其系統結構及所用技術對後來的視頻檢索有深遠的影響;
由MIT的媒體實驗室開發研製的PhotoBook,圖像在存儲時按人臉、形狀或紋理特性自動分類,圖像根據類別通過顯著語義特徵壓縮編碼;
美國哥倫比亞大學開發的VisualSEEK圖像查詢系統,該系統的主要特點是用到了圖像區域的空間關係查詢和直接從壓縮數據中提取視覺特徵。
EXCALIBUR技術公司開發的retrieval ware系統;
Virage公司開發的virage檢索系統能;
香港中央圖書館的多媒體信息系統(MMIS)是IBM和分包商ICO於1999年底開始承建190萬美元的數字圖書館項目,被認為是世界上最大且最複雜的“中文/英文”雙語圖書館服務之一,其採用的DB2 Text 和Image Extenders既支持文本查找,也支持圖片查找。
基於內容的視頻檢索:
基於內容的視頻信息檢索是當前多媒體資料庫發展的一個重要研究領域,它通過對非結構化的視頻數據進行結構化分析和處理,採用視頻分割技術,將連續的視頻流劃分為具有特定語義的視頻片段――鏡頭,作為檢索的基本單元,在此基礎上進行代表幀(representative frame)的提取和動態特徵的提取,形成描述鏡頭的特徵索引;依據鏡頭組織和特徵索引,採用視頻聚類等方法研究鏡頭之間的關係,把內容相近的鏡頭組合起來,逐步縮小檢索範圍,直至查詢到所需的視頻數據。其中,視頻分割、代表幀和動態特徵提取是基於內容的視頻檢索的關鍵技術。目前相關的研究有:
MPEG-7標準稱為“多媒體內容描述接口”(Multimedia Content Description Inteface) ,它是一種多媒體內容描述的標準,它定義了描述符、描述語言和描述方案,對多媒體信息進行標準化的描述,實現快速有效的檢索;
JJACOB基於內容的視頻檢索系統,可進行視頻自動發段並從中抽取代表幀,並可按彩色及紋理特徵以代表幀描述基於內容的檢索;
卡內基・梅隆大學的informedia數字視頻圖書館系統,結合語音識別、視頻分析和文本檢索技術,支持2000小時的視頻廣播的檢索;實現全內容的、基於知識的查詢和檢索。
基於內容的音頻檢索:
基於內容的圖像檢索要提取顏色、紋理、形狀等特徵,視頻檢索要提取關鍵幀特徵,同樣要實現基於內容的音頻檢索,必須從音頻數據中提取聽覺特徵信息。音頻特徵可以分為:聽覺感知特徵和聽覺非感知特徵(物理特性),聽覺感知特徵包括音量、音調、音強等。在語音識別方面,IBM的Via Voice已趨於成熟,另外劍橋大學的VMR系統,以及卡內基悔隆大學的Informedia都是很出色的音頻處理系統。在基於內容的音頻信息檢索方面,美國的Muscle fish公司推出了較為完整的原型系統,對音頻的檢索和分類有較高的準確率。
基於內容的多媒體檢索是一個新興的研究領域,國內外都處於研究、探索階段。目前仍存在著諸如算法處理速度慢、漏檢誤檢率高、檢索效果無評價標準、支持多種檢索手段缺少等問題。但隨著多媒體內容的增多和存儲技術的提高,對基於內容的多媒體檢索的需求將更加上升。