圖像原理
WWW圖像搜尋引擎需要為在Web上瀏覽過的圖像建立索引信息,能夠進行圖像分析和判別,為圖像加注釋,存儲抽取出的索引信息建立索引庫,理想的圖像搜尋引擎還應該能支持基於內容的圖像檢索。 圖像識別方法:
1、自動查找圖形文:可以通過兩個HTML標籤,即IMG SRC和HREF來檢測是否存在可顯示的圖像檔案,IMG SRC表示“顯示下面的圖像檔案”,而HREF則表示“下面是一個連結”,這兩種標籤經常導向一個圖像檔案。搜尋引擎通過檢查檔案擴展名來判斷連結的是否是圖像檔案。如果檔案擴展名是.GIF或.JPG,那它就是一個可顯示的圖像。
2、人工干預找出圖像並進行分類:由人工對網上的圖像及站點進行選擇。這種方法可以產生準確的查詢體系,但勞動強度太大,限制了處理圖像的數量。由於圖像不同於文本,需要人們按照各自的理解來說明其蘊含的意義,因此圖像檢索比起文本的查詢和匹配要困難得多。目前的圖像搜尋引擎大多支持關鍵字檢索和分類瀏覽兩種檢索方式,部分可提供可視屬性檢索,但也很有限。它們主要的檢索途徑有以下幾種:
a. 基於圖像外部信息:即根據圖像的檔案名稱或目錄名、路徑名、鏈路、ALT標籤以及圖像周圍的文本信息等外部信息進行檢索,這是目前圖像搜尋引擎採用最多的方法。在找出圖像檔案後,圖像搜尋引擎通過查看檔案名稱或路徑名確定檔案內容,但這取決於檔案名稱或路徑名的描述程度。
b. 基於圖像內容特徵描述:這是一種語義層次的匹配。需要人工對圖像的內容(如物體、背景、構成、顏色特徵等)進行描述並分類,給出描述詞。檢索時,將主要在這些描述詞中搜尋你的檢索詞。這種查詢方式是比較準確的,一般來講可以獲得較好的查準率。但需人工參與,勞動強度大,因而限制了可處理的圖像數量,並且需要一定的規範和標準,效果取決於人工描述的精確度。
c. 基於圖像形式特徵的抽取:由圖像分析軟體自動抽取圖像的顏色、形狀、紋理等特徵,建立特徵索引庫,用戶只需將要查找的圖像的大致特徵描述出來,就可以找出與之具有相近特徵的圖像。這是一種基於圖像特徵層次的機械匹配,特別適用於檢索目標明確的查詢要求(例如對商標的檢索)。產生的結果也是最接近用戶要求的。但目前這種較成熟的檢索技術主要套用於圖像資料庫的檢索,在網上圖像搜尋引擎中套用這種檢索技術還具有一定的困難。
相關圖像技術
從廣義上講,圖像的特徵包括基於文本的特徵(如關鍵字、注釋等)和視覺特徵(如顏色、紋理、形狀等)兩類。視覺特徵又可分為通用的視覺特徵和領域相關(局部/專用)的視覺特徵。前者用於描述所有圖像共有的特徵,與圖像的具體類型或內容無關,主要包括顏色、紋理和形狀;後者則建立在對所描述圖像內容的某些先驗知識(或假設)的基礎上,與具體的套用緊密有關,例如人的面部特徵或指紋特徵等。
1、基於上下文本(context)的圖片搜尋
通常是通過Alt等錨來索引,搜尋的,您可以訪問搜尋引擎,比如百度、GOOGLE。在搜尋框內輸入搜尋文字,點擊右側的“圖片搜尋”按紐,即可獲得相關圖片搜尋結果。
2、基於圖片內容的搜尋
涉及了資料庫管理、計算機視覺、圖像處理、模式識別、信息檢索和認知心理學等諸多學科,其相關技術主要包括:圖像數據模型、特徵提取方法、索引結構、相似性度量、查詢表達模式、檢索方法等。相似圖片的檢測主要涉及特徵表示和相似性度量這兩類關鍵技術。圖像特徵的提取與表達是基於內容的圖像處理技術的基礎。
發展圖像現狀
一類是以百度、GOOGLE、有道等專業搜尋引擎網站為代表提供的圖像或圖片搜尋功能,為用戶提供以文字進行檢索的圖片搜尋服務。此類搜尋功能搜尋面大,搜尋結果信息龐大,只能提供較為單一的搜尋服務,搜尋結果給予用戶比較多的選擇性。
另一類是以淘淘搜等專業圖像搜尋服務為代表的網站,為用戶提供除文字外,通過上傳與搜尋結果相似的圖片或者圖片URL進行搜尋服務。此類網站更多的服務套用於網上購物領域的服務方向,更多的是為用戶提供在網購方面的體驗。
發展圖像趨勢
隨著百度識圖、安圖搜等圖像搜尋網站的出現站,讓圖像搜尋更加趨向於專業性服務,搜尋結果方向性更強,精確性更高。
存在圖像問題
1. 尺度變化:尺度變化可以有多種形式,包括圖像的放大、縮小以及長寬比的改變等等。在網路上,常見的變化是將原來較大的圖像變換為相對尺寸較小的圖像,以減少存儲空間需求和加快網路傳輸速度。
2. 顏色變化:在許多情況下,彩色圖像會被轉化為對應的灰度圖像,而灰度圖像也可能被轉化為彩色圖像。對於空間遙感圖像等,由於原始圖像的閱讀比較困難,人們往往將圖像人為加上不同的顏色以區分圖像中的各種區域。
3. 存儲格式引起的失真:圖像本身有著巨大的數據量,如今人們在存儲圖像時一般會使用各種不同的壓縮算法。常用的算法如JPEG、GIF、PNG等等。為了實現比較高的壓縮性能,這些算法絕大多數都是有損壓縮,即壓縮後的圖像不能無失真地進行恢復。所以,當圖像在不同格式之間進行轉化時,轉化前後的圖像之間總會存在一定差異。由於這些差異的存在,直接比較兩幅圖像以判斷其是否重複的方法是不可行的。
4. 數字水印:許多藝術圖像等具有一定的知識著作權,而網路則很容易造成非授權圖像的流傳。所以,目前人們往往採用數字水印(watermarking)方法在不影響圖像視覺效果的情況向圖像中注入一定的隱藏信息。