內容簡介
《圖像檢索與壓縮域處理技術的研究》共分4篇20章。第一篇為基礎知識,介紹數字圖像與編碼的基礎知識、圖像編碼的基本方法與有關國際標準,基於內容的圖像檢索技術;第二篇為基於視覺感知的個性化圖像檢索技術,分析論述視覺注意機制及注意模型、視點跟蹤技術、客觀化的視覺感知技術、個性圖像檢索技術以及用戶興趣模型等內容;第三篇為基於壓縮域的圖像處理技術,闡述壓縮域紋理圖像分類、基於輪廓特徵檢索、DCT域處理、小波域處理以及jpeg2000等內容;第四篇為《圖像檢索與壓縮域處理技術的研究》的結束語,主要介紹當前圖像檢索與壓縮域處理方面的一些研究熱點。
《圖像檢索與壓縮域處理技術的研究》可供通信與電子系統、信號與信息處理、計算機套用等相關專業的研究人員、工程技術人員、高校教師、研究生和高年級本科生學習參考。
作者簡介
沈蘭蓀,北京工業大學教授、博士生導師,北京市信號與信息處理研究室主任,IEEE學會高級會員,國際歐亞科學院院士,北京市有突出貢獻專家。歷任中國科技大學電子工程系主任、中國科技大學高技術學院副院長、北京工業大學副校長、北京市自然科學基金會副會長等。現任《中國大百科全書(二版)》電子學學科副主編,中國微弱信號檢測學會副理事長,國家自然科學基金委信息科學部專家評審組成員,中國科技大學等校兼職教授等。
主要研究領域為圖像/視頻編碼、傳輸、處理,以及中醫舌象採集與分析技術等,著有《數據採集技術》、《圖像編碼與異步傳輸》、《小波編碼與網路視頻傳輸》、《中醫舌象的採集與分析》等著作。
目錄
第一篇 基礎知識
第1章 數字圖像
1.1 圖像與視頻 3
1.2 數字圖像的特點 4
1.2.1 圖像數據的海量性 4
1.2.2 圖像的壓縮格式具有普遍性 5
1.2.3 圖像的內容表現具有非結構性 6
1.2.4 套用環境的多元化 6
1.3 圖像的彩色空間7
1.3.1 彩色空間的視覺屬性 7
1.3.2 RGB彩色空間 7
1.3.3 YCbCr彩色空間 8
1.4 視頻格式 9
1.5 感興趣區的人眼視覺系統特性 10
1.5.1 視覺感興趣區 10
1.5.2 視覺掩蓋效應 11
1.6 圖像質量的評價 15
1.6.1 概述 15
1.6.2 客觀質量的評價 16
1.6.3 主觀質量的評價 16
1.6.4 感興趣區質量評價 17
1.6.5 感興趣區質量評價的實驗結果 19
1.7 討論 21
參考文獻 21
第2章 圖像壓縮編碼技術的發展
2.1 概述 23
2.2 熵編碼 24
2.3 傳統的圖像/視頻編碼技術 25
2.3.1預測編碼25
2.3.2 變換編碼 26
2.3.3矢量量化28
2.4 新型圖像/視頻編碼技術 28
2.4.1 第二代圖像編碼方法 29
2.4.2分形編碼29
2.4.3 模型編碼 30
2.4.4 小波編碼 31
2.5 圖像/視頻編碼標準 32
2.5.1 靜止圖像編碼的標準 35
2.5.2 視頻編碼標準 35
2.6 JPEG2000標準 40
2.6.1 JPEG2000體系結構與關鍵技術 40
2.6.2 JPEG2000的主要特點與性能描述 45
2.7 討論 46
參考文獻 49
第3章 基於內容的圖像檢索技術
3.1 概述 52
3.2 圖像的內容特徵 54
3.2.1 顏色特徵 55
3.2.2 紋理特徵 57
3.2.3 輪廓特徵 60
3.2.4 形狀特徵 60
3.2.5 對象特徵 61
3.2.6 空間特徵 63
3.2.7 字元特徵 64
3.2.8 語義特徵 64
3.2.9 圖像的語義層次模型 66
3.3 圖像相似度計算 67
3.3.1 距離度量 67
3.3.2 相關計算 68
3.3.3 關聯繫數計算 69
3.3.4 多特徵相似度計算 70
3.3.5 具有光照不變性的圖像檢索 70
3.4 人機接口及相關反饋71
3.4.1 友好的人機互動接口 71
3.4.2 相關反饋的新進展 74
3.5 圖像的檢索 76
3.5.1 低層視覺特徵 76
3.5.2 局部圖像 76
3.5.3 自定義特徵檢索 77
3.5.4 示例圖與草圖檢索 77
3.5.5 瀏覽檢索 77
3.6 圖像檢索系統 78
3.7 圖像檢索性能的評價 79
3.8 討論 80
參考文獻 82
第二篇 基於視覺感知的個性化圖像檢索
第4章 視覺注意機制及注意模型
4.1 概述 89
4.2 人眼視覺系統的生理特性 90
4.2.1 視覺感官 92
4.2.2 視覺通路 93
4.2.3 視覺中樞 94
4.2.4 視覺感知 97
4.3 視覺注意機制 98
4.3.1 What和Where視覺通路 98
4.3.2 預注意和注意階段 99
4.3.3 自底向上和自頂向下的注意模式 99
4.3.4 選擇性注意機制 100
4.3.5 注意焦點的選擇與轉移 102
4.4 視覺注意模型 102
4.4.1 基於空間的注意模型 103
4.4.2 基於特徵的注意模型 111
4.4.3 基於空間和特徵整合的注意模型 112
4.4.4 基於對象的注意模型 112
4.5 討論 113
參考文獻 114
第5章 基於視覺注意模型的感興趣區檢測
5.1 概述 118
5.2 感興趣區檢測的研究進展 119
5.3 一種基於改進Itti模型與進化規劃的感興趣區檢測方法 121
5.3.1 視覺顯著度量 122
5.3.2 注意焦點的選擇與轉移 124
5.3.3 感興趣區的生成 126
5.3.4 一種基於改進Itti模型與進化規劃的感興趣區檢測方法的實驗 128
5.4 基於相似距離的Top-Down模型的初步研究 135
5.4.1 基於相似距離的Top-Down模型結構 135
5.4.2 相似區域的判定方法 136
5.4.3 基於相似距離的視覺期望 137
5.4.4 基於相似距離的Top-Down模型的初步實驗 138
5.5 討論 139
參考文獻 140
第6章 視點跟蹤技術
6.1 概述 142
6.2 視點跟蹤技術的研究進展 143
6.2.1 人眼的運動特性 143
6.2.2 視點跟蹤設備 144
6.2.3 人眼檢測與定位 145
6.2.4 視點跟蹤技術分類 147
6.3 改造的視點跟蹤設備 150
6.3.1 視點跟蹤設備的選擇及參數設定 150
6.3.2 視點跟蹤設備的改造方案 154
6.3.3 方案選擇與對比 157
6.4 基於Gabor變換的人眼定位方法 157
6.4.1 歸一化處理 158
6.4.2 Gabor小波變換 159
6.4.3 投影分析 160
6.4.4 基於Gabor變換的人眼定位方法的實驗 161
6.5 一種基於雙閾值的低複雜度視點跟蹤方法 163
6.5.1 雙閾值人眼定位算法 163
6.5.2 雙閾值人眼定位算法的實驗 166
6.5.3 基於幾何映射的視點跟蹤方法 167
6.5.4 一種基於雙閾值的低複雜度視點跟蹤方法的實驗 168
6.6 一種基於Web Camera的自適應模板視點跟蹤方法 169
6.6.1 自適應模板人眼定位算法 169
6.6.2 自適應模板人眼定位算法的實驗 171
6.6.3 基於神經網路法的視點跟蹤方法 172
6.6.4 一種基於Web Camera的自適應模板視點跟蹤方法的實驗 174
6.7 討論 175
參考文獻 176
第7章 客觀化的視覺感知技術
7.1 概述 179
7.2 客觀化的視覺感知信息 180
7.3 基於視覺感知的感興趣區檢測 181
7.3.1 注視點分布圖 181
7.3.2 注視興趣度 183
7.3.3 基於視覺感知的感興趣區 184
7.4 基於視覺感知的感興趣區檢測實驗平台 186
7.4.1 實驗平台 186
7.4.2 實驗結果 188
7.5 討論 198
參考文獻 199
第8章 個性化圖像檢索技術
8.1 概述 200
8.2 圖像搜尋引擎 202
8.3 用戶興趣模型 205
8.3.1 Agent推理機 205
8.3.2 個性化檔案 209
8.3.3 用戶興趣模型的更新 213
8.4 基於規則的個性化推薦 214
8.5 基於內容的個性化推薦 218
8.5.1 概述 218
8.5.2潛在變數分析 219
8.5.3 廣義機率主分量分析模型 221
8.6 協作過濾的個性化推薦 224
8.6.1 概述 224
8.6.2 基於記憶的協作過濾 225
8.6.3 基於模型的協作過濾 229
8.6.4 基於協作過濾的圖像檢索 230
8.7 混合過濾的個性化推薦 233
8.8個性化推薦系統的評價 235
8.9 相關反饋技術 235
8.10 討論 237
參考文獻 238
第9章 套用於個性化圖像檢索的用戶興趣模型的構建
9.1 概述 242
9.2 用戶興趣模型描述 243
9.2.1 用戶興趣的表示方式 243
9.2.2 用戶興趣模型的分類 244
9.2.3 用戶興趣模型的構建方法 245
9.2.4 用戶興趣模型的框圖 246
9.3 用戶短期興趣的獲取 247
9.3.1 短期視覺特徵 248
9.3.2 短期視覺特徵實驗結果 253
9.3.3 短期語義特徵 257
9.3.4 短期語義特徵實驗結果 263
9.4 用戶長期興趣的獲取 263
9.4.1 推理機的設計與實現 264
9.4.2 長期視覺特徵 265
9.4.3 長期視覺特徵實驗結果 266
9.4.4 長期語義特徵 270
9.4.5 長期語義特徵實驗結果 273
9.5 基於用戶興趣模型的個性化圖像檢索系統 273
9.5.1 個性化圖像檢索系統組成 273
9.5.2 個性化圖像檢索實驗結果與分析 274
9.6 討論 281
參考文獻 282
第三篇 基於壓縮域的圖像處理
第10章 壓縮域圖像處理技術綜述
10.1 概述 287
10.2 壓縮域圖像處理系統的構成 288
10.2.1 基於壓縮域的圖像檢索系統框圖 289
10.2.2 壓縮域處理可操作位置 289
10.3 壓縮域圖像處理的研究方法 290
10.3.1 尋求對等操作 291
10.3.2 尋求特有操作 291
10.4 壓縮域圖像檢索技術的研究進展 292
10.4.1 變換壓縮域檢索技術 292
10.4.2 空間壓縮域檢索技術 298
10.4.3 混合壓縮域檢索技術 299
參考文獻 300
第11章 壓縮域紋理圖像分類
11.1 概述 305
11.2 基於DCT壓縮域區域能量方向性的紋理圖像分類 306
11.2.1 基於DCT編碼的基本框圖 306
11.2.2 DCT域區域能量的方向性 307
11.2.3 基於能量方向性的紋理圖像分類算法設計 309
11.2.4 基於DCT壓縮域區域能量方向性的紋理圖像分類算法實驗 310
11.3 基於DCT壓縮域的具有鏇轉不變性的紋理圖像分類 312
11.3.1 DCT域的多解析度特性 312
11.3.2 具有抗鏇轉性的紋理圖像分類方法 314
11.3.3 基於DCT壓縮域的具有鏇轉不變性的紋理圖像分類算法實驗 315
11.4 基於小波壓縮域紋理圖像分類 317
11.4.1 基於小波的紋理分析方法的發展 317
11.4.2 基於子帶間相關性紋理特徵提取 318
11.4.3 基於小波壓縮域紋理圖像分類算法 321
11.4.4 基於小波壓縮域紋理圖像分類算法實驗 321
11.5 討論 323
參考文獻 324
第12章 DCT壓縮域基於輪廓特徵的圖像檢索
12.1 概述 327
12.2 基於圖像檢索的連通直方圖方法 328
12.2.1 圖像的連通直方圖 328
12.2.2 基於連通直方圖的圖像檢索 330
12.2.3 基於連通直方圖的圖像檢索的實驗 331
12.3 DCT壓縮域基於輪廓特徵的圖像檢索方法 333
12.3.1 重組DCT係數 334
12.3.2 提取圖像的輪廓 334
12.3.3 基於輪廓的連通直方圖 336
12.3.4 DCT壓縮域基於輪廓特徵的圖像檢索流程 337
12.3.5 DCT壓縮域基於輪廓特徵的圖像檢索的實驗 337
12.4 討論 340
參考文獻 340
第13章 壓縮域字元定位
13.1 概述 341
13.2 DCT壓縮域的字元定位方法 343
13.2.1 DCT壓縮域中字元特徵的提取 343
13.2.2 DCT壓縮域的字元定位算法 344
13.2.3 DCT壓縮域字元定位算法的實驗 345
13.3 基於加權頻率的DCT壓縮域的字元定位方法 347
13.3.1 DCT壓縮域字元區新特徵——加權頻率 347
13.3.2 基於加權頻率的DCT壓縮域字元定位算法 348
13.3.3 基於加權頻率的DCT壓縮域字元定位算法的實驗 352
13.4 小波壓縮域字元定位 355
13.4.1 字元特徵在小波壓縮域圖像中的表示 355
13.4.2 基於小波壓縮域的字元定位算法 357
13.4.3 基於小波壓縮域字元定位算法的實驗 362
13.5 討論 363
參考文獻 364
第14章 壓縮域的膚色分割
14.1 概述 366
14.2 DCT壓縮域基於三維橢圓模型的自適應膚色分割 367
14.2.1 三維橢圓膚色模型 367
14.2.2 基於DCT直流係數的膚色初分割 371
14.2.3 自適應修正分割結果 372
14.2.4 DCT壓縮域中基於三維橢圓模型的自適應膚色分割實驗 373
14.3 小波壓縮域雙適形膚色分割模型 375
14.3.1 雙適形膚色模型 375
14.3.2 小波壓縮域基於雙適形模型的膚色分割 377
14.4 討論 378
參考文獻 379
第15章 壓縮域的人臉檢測
15.1 概述 381
15.2 DCT壓縮域的人臉檢測方法 383
15.2.1 一種基於多級梯度能量特徵的DCT壓縮域人臉檢測算法框圖 383
15.2.2 多級梯度能量特徵 385
15.2.3 級聯分類器 387
15.2.4 搜尋策略 388
15.2.5 基於多級梯度能量描述的DCT壓縮域人臉檢測算法的實驗 389
15.3 小波壓縮域的人臉檢測 390
15.3.1 一種基於多級梯度能量描述的小波壓縮域人臉檢測算法框圖 390
15.3.2 多級梯度能量描述 391
15.3.3 級聯檢測器 394
15.3.4 搜尋策略 396
15.3.5 結果仲裁 397
15.3.6 實驗結果 397
15.4 討論 400
參考文獻 400
第16章 基於JPEG2000壓縮碼流的檢索方法
16.1 概述 402
16.2 JPEG2000碼流結構及包頭信息 403
16.3 基於JPEG2000壓縮碼流的圖像檢索 404
16.3.1 提取包頭信息 404
16.3.2 基於包頭信息構建特徵量 405
16.3.3 特徵量歸一化 406
16.3.4 相似度匹配 406
16.4 基於JPEG2000壓縮碼流檢索方法的實驗 407
16.4.1 特徵量計算及相似度匹配 407
16.4.2 檢索結果的準確性 408
16.4.3 檢索效率與壓縮比的討論 410
16.5 討論 412
參考文獻 412
第17章 基於反對稱雙正交小波的壓縮域圖像檢索方法
17.1 概述 413
17.2 基於反對稱雙正交小波的多尺度邊緣提取算法的研究 414
17.2.1 小波用於圖像邊緣提取 414
17.2.2 反對稱雙正交小波的多尺度邊緣提取算法 417
17.2.3 基於反對稱雙正交小波多尺度邊緣提取算法實驗 421
17.3 方向梯度相角直方圖及其特性 424
17.3.1 方向梯度相角直方圖的構造 424
17.3.2 方向梯度相角直方圖的特性 426
17.4 基於反對稱雙正交小波的壓縮域圖像檢索算法的研究 431
17.4.1 基於反對稱雙正交小波的圖像壓縮編碼算法 431
17.4.2 基於反對稱雙正交小波的壓縮域圖像檢索算法 432
17.4.3 基於反對稱雙正交小波的壓縮域圖像檢索算法實驗 432
17.5 討論 437
附錄:小波濾波器係數 438
參考文獻 439
第18章 一種支持檢索的分類矢量量化壓縮編碼方法
18.1 概述 441
18.2 不同量化方法與圖像檢索 442
18.2.1 標量量化 442
18.2.2 矢量量化 442
18.2.3 分類矢量量化 444
18.2.4 檢索性能分析 445
18.3 一種支持檢索的分類矢量量化壓縮編碼算法的研究 447
18.3.1 基於反對稱雙正交小波的分類矢量量化壓縮編碼算法框圖 448
18.3.2 矢量碼書的設計 450
18.3.3 基於壓縮數據的圖像檢索 454
18.3.4 一種支持檢索的分類矢量量化壓縮編碼算法實驗 456
18.4 討論 460
參考文獻 460
第19章 一種支持檢索的疊代分形圖像壓縮方法
19.1 概述 462
19.2 疊代分形編碼 463
19.2.1 疊代分形編碼的理論基礎 463
19.2.2 疊代分形編碼的基本原理 465
19.2.3 分形與其他方法的結合 466
19.2.4 疊代分形用於圖像檢索的分析 467
19.3 基於疊代分形的圖像壓縮編碼與檢索算法研究 467
19.3.1 小波變換域內基於疊代分形的圖像壓縮編碼算法 468
19.3.2 基於疊代分形壓縮數據的圖像檢索的實現 471
19.3.3 基於疊代分形的圖像壓縮編碼與其檢索算法實驗 472
19.4 討論 475
參考文獻 476
第四篇 結束語
第20章 結束語
20.1 人眼視覺系統特性的討論 481
20.2 視頻關鍵幀的壓縮域提取 482
20.2.1 等時間間隔採樣方法的關鍵幀提取 482
20.2.2 基於幀間內容變化方法的關鍵幀提取 483
20.2.3 基於聚類方法的關鍵幀提取 484
20.2.4 針對敏感視頻識別套用的關鍵幀的提取方案 484
20.3語義鴻溝485
20.3.1 基於對象本體論定義高層語義 486
20.3.2 機器學習方法建立低層視覺特徵與高層語義的關係 486
20.3.3 相關反饋學習用戶主觀意圖 488
20.3.4 生成語義模板支持高層圖像檢索 488
20.3.5 討論 489
20.4 壓縮域圖像特徵的提取 490
20.4.1 壓縮域圖像中的空間視覺特徵 490
20.4.2 壓縮域編碼特徵 491
20.4.3 不同壓縮域的統一特徵 492
20.4.4 討論 492
參考文獻 493
……
序言
長期以來,人們在自然界感受到的信息主要是視覺信息。與此不同,傳統的計算機與通信領域,能夠處理和傳輸的主要是文字和語音信息。近年來,全球信息化和經濟全球化已成為時代的發展潮流,研究新的寬頻業務,開發網路多媒體套用,提高人類的生活質量,已成為各國科技界與產業界共同關注的問題。由於寬頻業務與多媒體信息的主體是圖像/視頻,因此,研究開發以圖像/視頻為主體的多媒體業務已成為當今信息科學與技術的重要研究領域。
如何對急速膨脹的海量圖像數據進行有效的檢索處理,是人們研究開發以圖像/視頻為主體的多媒體業務首先要面對的一個問題。針對目前廣泛使用的基於關鍵字檢索(Keywords-Based Retrieval)的圖像檢索方法的種種不足,人們提出了基於內容的圖像檢索(CBIR,Content-Based Image Retrieval)技術。CBIR技術通過提取圖像的低層視覺特徵(如顏色、紋理和形狀等)為圖像建立索引;用戶通過提供示例圖、草圖或描述圖像特徵等進行檢索;系統進行相似度匹配,返回與特徵相似的結果。CBIR技術的優點是,它在一定程度上體現了圖像的內容,具有較強的客觀性。
後記
本書是北京市信號與信息處理研究室十年來在圖像檢索與壓縮域處理技術方面研究工作的總結,是研究室教師與同學集體工作的結晶。沒有大家共同的努力,就沒有這本書的問世。在此要特別感謝他們的辛勤工作。
有關人員的分工如下:張菁博士負責第3~9章以及第20.3節初稿的寫作;李曉光博士負責第13~15章以及第20.4節初稿的寫作;沈蘭蓀負責第1、2、10~12、16~19章以及第20.1節初稿的寫作,並負責全書總體設計,博士生趙士偉負責第20.2節初稿的寫作。沈蘭蓀、張菁、李曉光等共同承擔全書統稿及定稿工作。
本書寫作直接參考了魏海、黃祥林、李曉華、劉黨輝、朱旭娟、宋磊、孔瀟、孫慧平、李嵩、賀琳、趙孟凱、高靜靜、趙士偉等在本研究室學習時完成的學位論文與公開發表的學術文章。賀琳碩士參加了全書文稿的整理工作。王素玉博士幫助審閱了第17章初稿,李雲章教授審閱了第17章小波部分的數學內容。在此一併致謝。