圖像檢索與壓縮域處理技術的研究

圖像檢索與壓縮域處理技術的研究

《圖像檢索與壓縮域處理技術的研究》是關於圖像檢索與壓縮域處理技術的一本學術專著,反映了相關技術領域近年來的最新研究進展。

基本信息

內容簡介

圖像檢索與壓縮域處理技術的研究

《圖像檢索與壓縮域處理技術的研究》共分4篇20章。第一篇為基礎知識,介紹數字圖像與編碼的基礎知識、圖像編碼的基本方法與有關國際標準,基於內容的圖像檢索技術;第二篇為基於視覺感知的個性化圖像檢索技術,分析論述視覺注意機制及注意模型、視點跟蹤技術、客觀化的視覺感知技術、個性圖像檢索技術以及用戶興趣模型等內容;第三篇為基於壓縮域的圖像處理技術,闡述壓縮域紋理圖像分類、基於輪廓特徵檢索、DCT域處理、小波域處理以及jpeg2000等內容;第四篇為《圖像檢索與壓縮域處理技術的研究》的結束語,主要介紹當前圖像檢索與壓縮域處理方面的一些研究熱點。

《圖像檢索與壓縮域處理技術的研究》可供通信與電子系統、信號與信息處理、計算機套用等相關專業的研究人員、工程技術人員、高校教師、研究生和高年級本科生學習參考。

作者簡介

沈蘭蓀,北京工業大學教授、博士生導師,北京市信號與信息處理研究室主任,IEEE學會高級會員,國際歐亞科學院院士,北京市有突出貢獻專家。歷任中國科技大學電子工程系主任、中國科技大學高技術學院副院長、北京工業大學副校長、北京市自然科學基金會副會長等。現任《中國大百科全書(二版)》電子學學科副主編,中國微弱信號檢測學會副理事長,國家自然科學基金委信息科學部專家評審組成員,中國科技大學等校兼職教授等。

主要研究領域為圖像/視頻編碼、傳輸、處理,以及中醫舌象採集與分析技術等,著有《數據採集技術》、《圖像編碼與異步傳輸》、《小波編碼與網路視頻傳輸》、《中醫舌象的採集與分析》等著作。

目錄

第一篇 基礎知識

第1章 數字圖像

1.1 圖像與視頻 3

1.2 數字圖像的特點 4

1.2.1 圖像數據的海量性 4

1.2.2 圖像的壓縮格式具有普遍性 5

1.2.3 圖像的內容表現具有非結構性 6

1.2.4 套用環境的多元化 6

1.3 圖像的彩色空間7

1.3.1 彩色空間的視覺屬性 7

1.3.2 RGB彩色空間 7

1.3.3 YCbCr彩色空間 8

1.4 視頻格式 9

1.5 感興趣區的人眼視覺系統特性 10

1.5.1 視覺感興趣區 10

1.5.2 視覺掩蓋效應 11

1.6 圖像質量的評價 15

1.6.1 概述 15

1.6.2 客觀質量的評價 16

1.6.3 主觀質量的評價 16

1.6.4 感興趣區質量評價 17

1.6.5 感興趣區質量評價的實驗結果 19

1.7 討論 21

參考文獻 21

第2章 圖像壓縮編碼技術的發展

2.1 概述 23

2.2 熵編碼 24

2.3 傳統的圖像/視頻編碼技術 25

2.3.1預測編碼25

2.3.2 變換編碼 26

2.3.3矢量量化28

2.4 新型圖像/視頻編碼技術 28

2.4.1 第二代圖像編碼方法 29

2.4.2分形編碼29

2.4.3 模型編碼 30

2.4.4 小波編碼 31

2.5 圖像/視頻編碼標準 32

2.5.1 靜止圖像編碼的標準 35

2.5.2 視頻編碼標準 35

2.6 JPEG2000標準 40

2.6.1 JPEG2000體系結構與關鍵技術 40

2.6.2 JPEG2000的主要特點與性能描述 45

2.7 討論 46

參考文獻 49

第3章 基於內容的圖像檢索技術

3.1 概述 52

3.2 圖像的內容特徵 54

3.2.1 顏色特徵 55

3.2.2 紋理特徵 57

3.2.3 輪廓特徵 60

3.2.4 形狀特徵 60

3.2.5 對象特徵 61

3.2.6 空間特徵 63

3.2.7 字元特徵 64

3.2.8 語義特徵 64

3.2.9 圖像的語義層次模型 66

3.3 圖像相似度計算 67

3.3.1 距離度量 67

3.3.2 相關計算 68

3.3.3 關聯繫數計算 69

3.3.4 多特徵相似度計算 70

3.3.5 具有光照不變性的圖像檢索 70

3.4 人機接口及相關反饋71

3.4.1 友好的人機互動接口 71

3.4.2 相關反饋的新進展 74

3.5 圖像的檢索 76

3.5.1 低層視覺特徵 76

3.5.2 局部圖像 76

3.5.3 自定義特徵檢索 77

3.5.4 示例圖與草圖檢索 77

3.5.5 瀏覽檢索 77

3.6 圖像檢索系統 78

3.7 圖像檢索性能的評價 79

3.8 討論 80

參考文獻 82

第二篇 基於視覺感知的個性化圖像檢索

第4章 視覺注意機制及注意模型

4.1 概述 89

4.2 人眼視覺系統的生理特性 90

4.2.1 視覺感官 92

4.2.2 視覺通路 93

4.2.3 視覺中樞 94

4.2.4 視覺感知 97

4.3 視覺注意機制 98

4.3.1 What和Where視覺通路 98

4.3.2 預注意和注意階段 99

4.3.3 自底向上和自頂向下的注意模式 99

4.3.4 選擇性注意機制 100

4.3.5 注意焦點的選擇與轉移 102

4.4 視覺注意模型 102

4.4.1 基於空間的注意模型 103

4.4.2 基於特徵的注意模型 111

4.4.3 基於空間和特徵整合的注意模型 112

4.4.4 基於對象的注意模型 112

4.5 討論 113

參考文獻 114

第5章 基於視覺注意模型的感興趣區檢測

5.1 概述 118

5.2 感興趣區檢測的研究進展 119

5.3 一種基於改進Itti模型與進化規劃的感興趣區檢測方法 121

5.3.1 視覺顯著度量 122

5.3.2 注意焦點的選擇與轉移 124

5.3.3 感興趣區的生成 126

5.3.4 一種基於改進Itti模型與進化規劃的感興趣區檢測方法的實驗 128

5.4 基於相似距離的Top-Down模型的初步研究 135

5.4.1 基於相似距離的Top-Down模型結構 135

5.4.2 相似區域的判定方法 136

5.4.3 基於相似距離的視覺期望 137

5.4.4 基於相似距離的Top-Down模型的初步實驗 138

5.5 討論 139

參考文獻 140

第6章 視點跟蹤技術

6.1 概述 142

6.2 視點跟蹤技術的研究進展 143

6.2.1 人眼的運動特性 143

6.2.2 視點跟蹤設備 144

6.2.3 人眼檢測與定位 145

6.2.4 視點跟蹤技術分類 147

6.3 改造的視點跟蹤設備 150

6.3.1 視點跟蹤設備的選擇及參數設定 150

6.3.2 視點跟蹤設備的改造方案 154

6.3.3 方案選擇與對比 157

6.4 基於Gabor變換的人眼定位方法 157

6.4.1 歸一化處理 158

6.4.2 Gabor小波變換 159

6.4.3 投影分析 160

6.4.4 基於Gabor變換的人眼定位方法的實驗 161

6.5 一種基於雙閾值的低複雜度視點跟蹤方法 163

6.5.1 雙閾值人眼定位算法 163

6.5.2 雙閾值人眼定位算法的實驗 166

6.5.3 基於幾何映射的視點跟蹤方法 167

6.5.4 一種基於雙閾值的低複雜度視點跟蹤方法的實驗 168

6.6 一種基於Web Camera的自適應模板視點跟蹤方法 169

6.6.1 自適應模板人眼定位算法 169

6.6.2 自適應模板人眼定位算法的實驗 171

6.6.3 基於神經網路法的視點跟蹤方法 172

6.6.4 一種基於Web Camera的自適應模板視點跟蹤方法的實驗 174

6.7 討論 175

參考文獻 176

第7章 客觀化的視覺感知技術

7.1 概述 179

7.2 客觀化的視覺感知信息 180

7.3 基於視覺感知的感興趣區檢測 181

7.3.1 注視點分布圖 181

7.3.2 注視興趣度 183

7.3.3 基於視覺感知的感興趣區 184

7.4 基於視覺感知的感興趣區檢測實驗平台 186

7.4.1 實驗平台 186

7.4.2 實驗結果 188

7.5 討論 198

參考文獻 199

第8章 個性化圖像檢索技術

8.1 概述 200

8.2 圖像搜尋引擎 202

8.3 用戶興趣模型 205

8.3.1 Agent推理機 205

8.3.2 個性化檔案 209

8.3.3 用戶興趣模型的更新 213

8.4 基於規則的個性化推薦 214

8.5 基於內容的個性化推薦 218

8.5.1 概述 218

8.5.2潛在變數分析 219

8.5.3 廣義機率主分量分析模型 221

8.6 協作過濾的個性化推薦 224

8.6.1 概述 224

8.6.2 基於記憶的協作過濾 225

8.6.3 基於模型的協作過濾 229

8.6.4 基於協作過濾的圖像檢索 230

8.7 混合過濾的個性化推薦 233

8.8個性化推薦系統的評價 235

8.9 相關反饋技術 235

8.10 討論 237

參考文獻 238

第9章 套用於個性化圖像檢索的用戶興趣模型的構建

9.1 概述 242

9.2 用戶興趣模型描述 243

9.2.1 用戶興趣的表示方式 243

9.2.2 用戶興趣模型的分類 244

9.2.3 用戶興趣模型的構建方法 245

9.2.4 用戶興趣模型的框圖 246

9.3 用戶短期興趣的獲取 247

9.3.1 短期視覺特徵 248

9.3.2 短期視覺特徵實驗結果 253

9.3.3 短期語義特徵 257

9.3.4 短期語義特徵實驗結果 263

9.4 用戶長期興趣的獲取 263

9.4.1 推理機的設計與實現 264

9.4.2 長期視覺特徵 265

9.4.3 長期視覺特徵實驗結果 266

9.4.4 長期語義特徵 270

9.4.5 長期語義特徵實驗結果 273

9.5 基於用戶興趣模型的個性化圖像檢索系統 273

9.5.1 個性化圖像檢索系統組成 273

9.5.2 個性化圖像檢索實驗結果與分析 274

9.6 討論 281

參考文獻 282

第三篇 基於壓縮域的圖像處理

第10章 壓縮域圖像處理技術綜述

10.1 概述 287

10.2 壓縮域圖像處理系統的構成 288

10.2.1 基於壓縮域的圖像檢索系統框圖 289

10.2.2 壓縮域處理可操作位置 289

10.3 壓縮域圖像處理的研究方法 290

10.3.1 尋求對等操作 291

10.3.2 尋求特有操作 291

10.4 壓縮域圖像檢索技術的研究進展 292

10.4.1 變換壓縮域檢索技術 292

10.4.2 空間壓縮域檢索技術 298

10.4.3 混合壓縮域檢索技術 299

參考文獻 300

第11章 壓縮域紋理圖像分類

11.1 概述 305

11.2 基於DCT壓縮域區域能量方向性的紋理圖像分類 306

11.2.1 基於DCT編碼的基本框圖 306

11.2.2 DCT域區域能量的方向性 307

11.2.3 基於能量方向性的紋理圖像分類算法設計 309

11.2.4 基於DCT壓縮域區域能量方向性的紋理圖像分類算法實驗 310

11.3 基於DCT壓縮域的具有鏇轉不變性的紋理圖像分類 312

11.3.1 DCT域的多解析度特性 312

11.3.2 具有抗鏇轉性的紋理圖像分類方法 314

11.3.3 基於DCT壓縮域的具有鏇轉不變性的紋理圖像分類算法實驗 315

11.4 基於小波壓縮域紋理圖像分類 317

11.4.1 基於小波的紋理分析方法的發展 317

11.4.2 基於子帶間相關性紋理特徵提取 318

11.4.3 基於小波壓縮域紋理圖像分類算法 321

11.4.4 基於小波壓縮域紋理圖像分類算法實驗 321

11.5 討論 323

參考文獻 324

第12章 DCT壓縮域基於輪廓特徵的圖像檢索

12.1 概述 327

12.2 基於圖像檢索的連通直方圖方法 328

12.2.1 圖像的連通直方圖 328

12.2.2 基於連通直方圖的圖像檢索 330

12.2.3 基於連通直方圖的圖像檢索的實驗 331

12.3 DCT壓縮域基於輪廓特徵的圖像檢索方法 333

12.3.1 重組DCT係數 334

12.3.2 提取圖像的輪廓 334

12.3.3 基於輪廓的連通直方圖 336

12.3.4 DCT壓縮域基於輪廓特徵的圖像檢索流程 337

12.3.5 DCT壓縮域基於輪廓特徵的圖像檢索的實驗 337

12.4 討論 340

參考文獻 340

第13章 壓縮域字元定位

13.1 概述 341

13.2 DCT壓縮域的字元定位方法 343

13.2.1 DCT壓縮域中字元特徵的提取 343

13.2.2 DCT壓縮域的字元定位算法 344

13.2.3 DCT壓縮域字元定位算法的實驗 345

13.3 基於加權頻率的DCT壓縮域的字元定位方法 347

13.3.1 DCT壓縮域字元區新特徵——加權頻率 347

13.3.2 基於加權頻率的DCT壓縮域字元定位算法 348

13.3.3 基於加權頻率的DCT壓縮域字元定位算法的實驗 352

13.4 小波壓縮域字元定位 355

13.4.1 字元特徵在小波壓縮域圖像中的表示 355

13.4.2 基於小波壓縮域的字元定位算法 357

13.4.3 基於小波壓縮域字元定位算法的實驗 362

13.5 討論 363

參考文獻 364

第14章 壓縮域的膚色分割

14.1 概述 366

14.2 DCT壓縮域基於三維橢圓模型的自適應膚色分割 367

14.2.1 三維橢圓膚色模型 367

14.2.2 基於DCT直流係數的膚色初分割 371

14.2.3 自適應修正分割結果 372

14.2.4 DCT壓縮域中基於三維橢圓模型的自適應膚色分割實驗 373

14.3 小波壓縮域雙適形膚色分割模型 375

14.3.1 雙適形膚色模型 375

14.3.2 小波壓縮域基於雙適形模型的膚色分割 377

14.3.3平滑濾波與連通域分析 378

14.4 討論 378

參考文獻 379

第15章 壓縮域的人臉檢測

15.1 概述 381

15.2 DCT壓縮域的人臉檢測方法 383

15.2.1 一種基於多級梯度能量特徵的DCT壓縮域人臉檢測算法框圖 383

15.2.2 多級梯度能量特徵 385

15.2.3 級聯分類器 387

15.2.4 搜尋策略 388

15.2.5 基於多級梯度能量描述的DCT壓縮域人臉檢測算法的實驗 389

15.3 小波壓縮域的人臉檢測 390

15.3.1 一種基於多級梯度能量描述的小波壓縮域人臉檢測算法框圖 390

15.3.2 多級梯度能量描述 391

15.3.3 級聯檢測器 394

15.3.4 搜尋策略 396

15.3.5 結果仲裁 397

15.3.6 實驗結果 397

15.4 討論 400

參考文獻 400

第16章 基於JPEG2000壓縮碼流的檢索方法

16.1 概述 402

16.2 JPEG2000碼流結構及包頭信息 403

16.3 基於JPEG2000壓縮碼流的圖像檢索 404

16.3.1 提取包頭信息 404

16.3.2 基於包頭信息構建特徵量 405

16.3.3 特徵量歸一化 406

16.3.4 相似度匹配 406

16.4 基於JPEG2000壓縮碼流檢索方法的實驗 407

16.4.1 特徵量計算及相似度匹配 407

16.4.2 檢索結果的準確性 408

16.4.3 檢索效率與壓縮比的討論 410

16.5 討論 412

參考文獻 412

第17章 基於反對稱雙正交小波的壓縮域圖像檢索方法

17.1 概述 413

17.2 基於反對稱雙正交小波的多尺度邊緣提取算法的研究 414

17.2.1 小波用於圖像邊緣提取 414

17.2.2 反對稱雙正交小波的多尺度邊緣提取算法 417

17.2.3 基於反對稱雙正交小波多尺度邊緣提取算法實驗 421

17.3 方向梯度相角直方圖及其特性 424

17.3.1 方向梯度相角直方圖的構造 424

17.3.2 方向梯度相角直方圖的特性 426

17.4 基於反對稱雙正交小波的壓縮域圖像檢索算法的研究 431

17.4.1 基於反對稱雙正交小波的圖像壓縮編碼算法 431

17.4.2 基於反對稱雙正交小波的壓縮域圖像檢索算法 432

17.4.3 基於反對稱雙正交小波的壓縮域圖像檢索算法實驗 432

17.5 討論 437

附錄:小波濾波器係數 438

參考文獻 439

第18章 一種支持檢索的分類矢量量化壓縮編碼方法

18.1 概述 441

18.2 不同量化方法與圖像檢索 442

18.2.1 標量量化 442

18.2.2 矢量量化 442

18.2.3 分類矢量量化 444

18.2.4 檢索性能分析 445

18.3 一種支持檢索的分類矢量量化壓縮編碼算法的研究 447

18.3.1 基於反對稱雙正交小波的分類矢量量化壓縮編碼算法框圖 448

18.3.2 矢量碼書的設計 450

18.3.3 基於壓縮數據的圖像檢索 454

18.3.4 一種支持檢索的分類矢量量化壓縮編碼算法實驗 456

18.4 討論 460

參考文獻 460

第19章 一種支持檢索的疊代分形圖像壓縮方法

19.1 概述 462

19.2 疊代分形編碼 463

19.2.1 疊代分形編碼的理論基礎 463

19.2.2 疊代分形編碼的基本原理 465

19.2.3 分形與其他方法的結合 466

19.2.4 疊代分形用於圖像檢索的分析 467

19.3 基於疊代分形的圖像壓縮編碼與檢索算法研究 467

19.3.1 小波變換域內基於疊代分形的圖像壓縮編碼算法 468

19.3.2 基於疊代分形壓縮數據的圖像檢索的實現 471

19.3.3 基於疊代分形的圖像壓縮編碼與其檢索算法實驗 472

19.4 討論 475

參考文獻 476

第四篇 結束語

第20章 結束語

20.1 人眼視覺系統特性的討論 481

20.2 視頻關鍵幀的壓縮域提取 482

20.2.1 等時間間隔採樣方法的關鍵幀提取 482

20.2.2 基於幀間內容變化方法的關鍵幀提取 483

20.2.3 基於聚類方法的關鍵幀提取 484

20.2.4 針對敏感視頻識別套用的關鍵幀的提取方案 484

20.3語義鴻溝485

20.3.1 基於對象本體論定義高層語義 486

20.3.2 機器學習方法建立低層視覺特徵與高層語義的關係 486

20.3.3 相關反饋學習用戶主觀意圖 488

20.3.4 生成語義模板支持高層圖像檢索 488

20.3.5 討論 489

20.4 壓縮域圖像特徵的提取 490

20.4.1 壓縮域圖像中的空間視覺特徵 490

20.4.2 壓縮域編碼特徵 491

20.4.3 不同壓縮域的統一特徵 492

20.4.4 討論 492

參考文獻 493

……

序言

長期以來,人們在自然界感受到的信息主要是視覺信息。與此不同,傳統的計算機與通信領域,能夠處理和傳輸的主要是文字和語音信息。近年來,全球信息化和經濟全球化已成為時代的發展潮流,研究新的寬頻業務,開發網路多媒體套用,提高人類的生活質量,已成為各國科技界與產業界共同關注的問題。由於寬頻業務與多媒體信息的主體是圖像/視頻,因此,研究開發以圖像/視頻為主體的多媒體業務已成為當今信息科學與技術的重要研究領域。

如何對急速膨脹的海量圖像數據進行有效的檢索處理,是人們研究開發以圖像/視頻為主體的多媒體業務首先要面對的一個問題。針對目前廣泛使用的基於關鍵字檢索(Keywords-Based Retrieval)的圖像檢索方法的種種不足,人們提出了基於內容的圖像檢索(CBIR,Content-Based Image Retrieval)技術。CBIR技術通過提取圖像的低層視覺特徵(如顏色、紋理和形狀等)為圖像建立索引;用戶通過提供示例圖、草圖或描述圖像特徵等進行檢索;系統進行相似度匹配,返回與特徵相似的結果。CBIR技術的優點是,它在一定程度上體現了圖像的內容,具有較強的客觀性。

後記

本書是北京市信號與信息處理研究室十年來在圖像檢索與壓縮域處理技術方面研究工作的總結,是研究室教師與同學集體工作的結晶。沒有大家共同的努力,就沒有這本書的問世。在此要特別感謝他們的辛勤工作。

有關人員的分工如下:張菁博士負責第3~9章以及第20.3節初稿的寫作;李曉光博士負責第13~15章以及第20.4節初稿的寫作;沈蘭蓀負責第1、2、10~12、16~19章以及第20.1節初稿的寫作,並負責全書總體設計,博士生趙士偉負責第20.2節初稿的寫作。沈蘭蓀、張菁、李曉光等共同承擔全書統稿及定稿工作。

本書寫作直接參考了魏海、黃祥林、李曉華、劉黨輝、朱旭娟、宋磊、孔瀟、孫慧平、李嵩、賀琳、趙孟凱、高靜靜、趙士偉等在本研究室學習時完成的學位論文與公開發表的學術文章。賀琳碩士參加了全書文稿的整理工作。王素玉博士幫助審閱了第17章初稿,李雲章教授審閱了第17章小波部分的數學內容。在此一併致謝。

相關詞條

相關搜尋

熱門詞條

聯絡我們