作者簡介
郭軍,教授,現任北京郵電大學信息與通信工程學院院長,日本東北學院大學博士、博士生導師。主要學術兼職包括國家自然科學基金委員會信息科學部學科評審組成員、北京市科學技術獎評審專家組成員、北京市計算機與控制學科高級職稱評審組副組長、中國人工智慧學會理事、中國自動識別協會專家組成員、中文信息處理學會理事等。主要社會兼職包括北京市政協委員、北京市高級知識分子聯誼會理事、中共中央統戰部信息員等。
現主要從事Web搜尋、模式識別、網路管理等方面的研究。在SCIENCE、IEEE Trans.on PAMI、IEICE Trans、ICPR、IOOV、SIGIR等模式識別、計算機視覺以及信息檢索領域國際頂級刊物和會議上發表了多篇論文。出版著作6部,其中《網路管理》一書被評為首批(2004年)北京市精品教材。
內容簡介
《Web搜尋(信息電子類專業研究生教學用書)》內容包括導論、文本檢索、圖像檢索、音頻檢索、信息過濾、信息推薦以及發展前沿。對Web搜尋的基本概念進行定義,闡述其科學價值和研究狀況,根據Web搜尋所涵蓋的檢索、過濾以及推薦技術,論述其中的核心問題、基本概念和基本方法,並介紹Web搜尋若干新的研究方向。
《Web搜尋(信息電子類專業研究生教學用書)》的最大特點是將Web上的信息檢索、過濾和推薦等技術定義為Web搜尋,使其具有比較寬泛的內涵。將Web檢索、過濾和推薦統一在一個體系中,既符合這三項技術發展的現狀和趨勢,又便於讀者進行系統的學習和研究。另外,《Web搜尋(信息電子類專業研究生教學用書)》緊跟近年來的最新研究進展,具有顯著的先進性和獨特性。
《Web搜尋(信息電子類專業研究生教學用書)》可以作為信息、通信、計算機類研究生或高年級本科生的教材和教學參考書,也可作為專業技術人員的閱讀和培訓資料。
媒體評論
本書最主要的特色是將信息“檢索”、“過濾”和“推薦”一併考慮,具有前瞻性意義;另外一個特色是在討論搜尋的時候,不僅考慮了傳統上為主的文本,也一併考慮了當前越來越重要的圖像視頻和語音的檢索問題,很好地結合了作者的研究工作領域特長。
——李曉明
隨著網路技術的發展和普及,Web搜尋技術也變得越來越重要。現在的網際網路上,信息——包括文本、圖像、視頻和語音信息——可以說已經非常豐富,關鍵是讓用戶方便快捷地找到這些信息。這正是本書所探討的主要內容。
——馬少平
目錄
第1章 導論
1.1 Web搜尋的定義
1.2 Web搜尋的發展背景
1.3 Web搜尋的挑戰性
1.4 Web搜尋的科學價值
1.5 Web搜尋的研究狀況
1.6 本書的內容
第2章 文本檢索
2.1 引言
2.2 Web信息採集
2.2.1 Crawler的基本原理
2.2.2 Crawler的工作效率
2.2.3 Crawler的難題
2.3 文本的保存與索引
2.3.1 預處理
2.3.2 文本的保存
2.3.3 文本的索引
2.3.4 索引詞的選取
2.4 檢索模型
2.4.1 Boolean模型
2.4.2 VSM
2.4.3 機率模型
2.5 網頁排序
2.6 查詢重構
2.6.1 用戶相關反饋
2.6.2 自動局部分析
2.6.3 自動全局分析
2.7 文本聚類
2.7.1 區分法
2.7.2 生成法
2.8 文本分類
2.8.1 K-NN分類器
2.8.2 Bayes分類器
2.8.3 最大熵分類器
2.8.4 區分式分類器
2.9 特徵選擇
2.9.1 包含算法
2.9.2 排除算法
2.1 0特徵變換
2.1 0.1 自組織映射
2.1 0.2 潛語義標號
小結
習題
第3章 圖像檢索
3.1 引言
3.2 圖像檢索的發展過程
3.3 文本自動標註
3.3.1 基於二維多粒度隱:Markov模型的二類標註
3.3.2 有監督的多類標註SMI
3.4 物體識別
3.4.1 星群模型
3.4.2 異構星狀模型
3.5 文字識別
3.5.1 引言
3.5.2 離線文字識別系統
3.5.3 非線性歸一化
3.5.4 餘弦整形變換
3.5.5 方向線素特徵抽取
3.5.6 漸進式計算的馬氏距離分類器
3.5.7 基於模具的文字切分
3.6 人臉檢測與識別
3.6.1 Adaboost人臉檢測算法
3.6.2 常見的人臉識別算法
3.6.3 非限定性人臉識別算法
3.7 視頻檢索
3.7.1 概述
3.7.2 鏡頭切分
3.7.3 視頻摘要
小結
習題
第4章 音頻檢索
4.1 引言
4.2 聲學特徵抽取
4.2.1 時域特徵抽取
4.2.2 頻域特徵抽取
4.3 HMM模型
4.3.1 基本概念與原理
4.3.2 3個基本問題及其經典算法.
4.4 連續語音識別系統
4.4.1 基於HMM的語音識別統一框架
4.4.2 聲學模型
4.4.3 語言模型
4.4.4 解碼器
4.5 語音關鍵字發現技術
4.5.1 基於垃圾模型的關鍵字發現
4.5.2 語音關鍵字發現中的核心問題
4.5.3 一個側重確認的語音關鍵字發現系統
4.6 語音辭彙檢測技術
4.6.1 混淆網路
4.6.2 一個基於音節混淆網路的STD系統
4.7 非語音音頻檢索
4.7.1 概述
4.7.2 聲學模型
4.7.3 語義模型
4.7.4 聲學空間與語義空間的聯繫
4.8 音樂檢索
4.8.1 概述
4.8.2 哼唱檢索
4.8.3 基於語義描述的音樂標註及檢索
小結
習題
第5章 信息過濾
5.1 引言
5.2 基本方法
5.2.1 基於Bayes分類器的過濾
5.2.2 基於向量距離分類器的過濾
5.2.3 基於k近鄰分類器的過濾
5.2.4 基於SVM的過濾
5.2.5 系統性能評價
5.3 模型學習
5.3.1 生成式與區分式學習
5.3.2 降維變換
5.3.3 半監督學習
5.3.4 演進式學習
5.4 垃圾郵件及垃圾簡訊過濾
5.4.1 垃圾郵件過濾系統
5.4.2 垃圾簡訊的過濾
5.5 話題檢測與跟蹤系統
5.5.1 報導分割
5.5.2 事件檢測
5.5.3 事件跟蹤
小結
習題
第6章 信息推薦
6.1 引言
6.2 關聯規則挖掘的基本算法
6.2.1 基本定義
6.2.2 Apfiofi關聯規則挖掘算法
6.2.3 基於FPT的算法
6.3 可信關聯規則及其挖掘算法
6.3.1 相關定義
6.3.2 用鄰接矩陣求2項可信集
6.3.3 由k項可信集生成(k+1)項可信集
6.3.4 基於極大團的可信關聯規則挖掘算法
6.4 基於FPT的超團模式快速挖掘算法
6.4.1 相關定義
6.4.2 基於FPT的超團模式和極大超團模式挖掘
6.5 協同過濾推薦的基本算法
6.6 基於局部偏好的協同過濾推薦算法
6.7 基於個性化主動學習的協同過濾
6.8 面向排序的協同過濾
小結
習題
第7章 發展前沿
7.1 區域網路檢索及對象檢索
7.2 基於文檔的專家檢索
7.2.1 基於文檔的專家表示
7.2.2 基於文檔的專家檢索
7.3 對象檢索及信息抽取
7.3.1 對象檢索的基本概念
7.3.2 信息抽取
7.4 基於Web的對象檢索
7.5 部落格檢索
7.6 TREC中的部落格觀點檢索
7.7 文本情感分析
7.7.1 文本情感分析中的特徵抽取
7.7.2 情感分類模型
小結
習題
參考文獻