目錄
第1章 搜尋引擎概述
1.1 搜尋引擎的概念
1.2 搜尋引擎的歷史
1.3 搜尋引擎的分類
1.4 搜尋引擎的關鍵技術
1.5 當代主要搜尋引擎介紹
1.5.1 谷歌搜尋
1.5.2 雅虎搜尋
1.5.3 百度搜尋
1.5.4 北大天網搜尋
1.6 搜尋引擎的發展
1.7 小結
思考題
第2章 搜尋引擎的體系結構和工作原理
2.1 搜尋引擎的體系結構
2.1.1 搜尋器
2.1.2 索引器
2.1.3 檢索器
2.1.4 用戶接口
2.2 搜尋引擎的工作原理
2.2.1 網頁蒐集
2.2.2 網頁處理
2.2.3 查詢服務
2.3 元搜尋引擎
2.3.1 元搜尋引擎的基本構成
2.3.2 元搜尋引擎的分類
2.3.3 常用元搜尋引擎介紹
2.3.4 元搜尋引擎的特點
2.3.5 主要技術指標
2.4 小結
思考題
第3章 信息處理技術
3.1 檢索模型
3.1.1 經典模型
3.1.2 代數模型
3.2 文本處理
3.2.1 詞法分析
3.2.2 分詞技術
3.2.3 無用辭彙刪除
3.2.4 詞幹提取
3.2.5 索引詞選擇
3.2.6 詞典
3.3 文本壓縮
3.3.1 基本概念
3.3.2 統計方法
3.3.3 字典方法
3.3.4倒排文檔壓縮
3.4 Web信息處理
3.4.1 Web信息的特點
3.4.2 Web信息的表現方式
3.4.3 Web信息系統結構
3.5 小結
思考題
第4章 信息檢索技術
4.1 順排檢索
4.1.1 表展開法
4.1.2 邏輯樹展開法
4.1.3BF算法
4.1.4kmp算法
4.1.5 BM算法
4.2 倒排檢索
4.2.1 倒排檢索
4.2.2 倒排文檔
4.2.3逆波蘭表達式
4.2.4 檢索指令表的生成
4.2.5 檢索實施
4.3 其他檢索方法
4.3.1布爾檢索
4.3.3加權檢索
4.3.4 全文檢索
4.3.5 超文本檢索
4.4 web信息檢索
4.4.1 網頁的蒐集
4.4.2 網頁的預處理
4.4.3 網頁索引的建立
4.4.4 相似度計算與排序方法
4.5 小結
思考題
第5章 信息檢索評價
5.1 相關性
5.1.1 相關性的特徵
5.1.2 相關性類別
5.1.3 相關性模型
5.2 性能評價指標
5.2.1 有效性
5.2.2 查全率和查準率
5.2.3 其他指標
5.3 相關組織和會議
5.4 小結
思考題
第6章 網路搜尋引擎技術
6.1 搜尋引擎的基本結構
6.1.1 搜尋引擎的結構分類
6.1.2 網頁收集模組
6.1.3 網頁索引模組
6.1.4 查詢模組
6.1.5 用戶界面
6.1.6 搜尋引擎的主要指標及分析
6.2 搜尋引擎的數據結構
6.2.1 存儲結構
6.2.2 信息庫
6.2.3 文本索引
6.2.4 詞典
6.2.5 採樣表
6.2.6 前向索引
6.2.7 後向索引
6.3 搜尋引擎爬蟲
6.3.1 網路爬蟲
6.3.2深度優先策略
6.3.3廣度優先策略
6.3.4 不重複抓取策略
6.3.5 網頁抓取優先策略
6.3.6 網頁重訪策略
6.3.7 網頁抓取提速策略
6.3.8 Robots協定
6.3.9網頁內容提取技術
6.4 小結
思考題
第7章 多媒體檢索概述
7.1 多媒體信息
7.1.1 多媒體及多媒體技術
7.1.2 音頻信息
7.1.3 圖形與圖像信息
7.1.4 視頻信息
7.2 多媒體的基本概念
7.2.1 多媒體技術的特點
7.2.2 多媒體信息系統
7.2.3 多媒體資料庫
7.2.4 多媒體信息檢索
7.3 多媒體數據壓縮
7.3.1 多媒體壓縮原理
7.3.2 多媒體壓縮編碼
7.4 多媒體內容的理解
7.4.1 圖像分割
7.4.2 特徵提取
7.4.3 分類
7.5 多媒體信息檢索的關鍵技術
7.5.1 信息模型和表示
……
第8章 基於內容的多媒體信息檢索技術
第9章 搜尋引擎開發技術
參考文獻
……
序言
網路的發展徹底改變了人們的思維、習慣與生活。一方面,它使我們更容易獲取各種各樣的信息,而另一方面,要想在數十億網頁的網路信息中精確地找到自己需要的信息簡直就如“大海撈針”一般。那么在巨大的網路信息世界裡,怎么樣才能找到我們需要的數據呢?這就要靠搜尋引擎。
面對浩如煙海的網路資源,搜尋引擎就好像是航船的指南針,引領著人們在網路中衝浪。目前,搜尋引擎已經成為信息檢索最有效的工具。據統計,搜尋引擎已經成為僅次於電子郵件的第二大網路套用服務,是用戶獲取信息的首要途徑,在美國有超過84%的網民經常使用搜尋引擎,在中國,這個數字每天都在增長。為了適應目前形勢的發展,我們編寫了這本書。
全書較為系統地闡述了搜尋引擎的基本概念以及相關的技術,總共分為9章。第1章全面地介紹了搜尋引擎的概念、搜尋引擎的發展、分類及建立搜尋引擎的關鍵技術。第2章討論了搜尋引擎的體系結構、工作原理以及元搜尋引擎的概念。第3章講述了信息處理技術,主要內容包括檢索模型、文本處理技術、文本壓縮技術以及Web信息處理技術。第4章介紹了信息檢索技術,主要內容有順排文檔檢索技術、倒排文檔檢索技術、布爾檢索技術、加權檢索技術、全文檢索技術、超文本檢索技術以及Web信息檢索技術。第5章討論了信息檢索系統的性能評價問題,主要內容有相關性的評價、查全率和查準率等內容。第6章介紹了網路搜尋引擎技術,主要內容有搜尋引擎的基本結構、搜尋引擎的數據結構、搜尋引擎爬蟲等。第7章介紹了多媒體信息檢索的基本概念,主要內容有多媒體信息的知識、多媒體的基本概念、多媒體數據壓縮、多媒體內容的理解以及多媒體信息檢索的關鍵技術。第8章討論了基於內容的多媒體,主要內容有基於內容的多媒體檢索原理與特點、基於內容的音頻檢索、基於內容的圖像檢索以及基於內容的視頻檢索。第9章介紹了搜尋引擎開發技術,主要內容有搜尋引擎開發實例簡介、環境的搭建與配置、網頁蒐集技術、網頁預處理技術和查詢服務。
文摘
第1章 搜尋引擎概述
在浩瀚的網路資源中,搜尋引擎(Search Engine)是一種網上信息檢索工具,它能幫助用戶迅速而全面地找到所需要的信息。我們可以這樣對搜尋引擎進行定義:搜尋引擎是一種能夠通過網際網路接受用戶的查詢指令,並向用戶提供符合其查詢要求的信息資源網址的系統。多數網上用戶使用搜尋引擎來獲得所需信息,據CNNIC的統計,用搜尋引擎搜尋僅次於電子郵件的套用。目前網上比較有影響的中文搜尋工具有:Google、百度(Baidu)、北大天網、愛問(iask)、雅虎(Yahoo)、搜狗(Sogou)等搜尋引擎。英文的有:Yahoo、AltaVista、Excite、Infoseek、LYCOS、Aol等。另外還有專用搜尋引擎,例如,專門搜尋歌曲和音樂的;專門搜尋電子郵件地址、電話與地址及公眾信息的;專門搜尋各種檔案的FTP搜尋引擎等。
本章主要介紹搜尋引擎的概念、搜尋引擎的發展史、搜尋引擎的分類以及一些著名的搜尋引擎。
1.1 搜尋引擎的概念
搜尋引擎是指根據一定的策略、運用特定的電腦程式蒐集網際網路上的信息,在對信息進行組織和處理後,為用戶提供檢索服務的系統。
搜尋引擎並不真正搜尋網際網路,它搜尋的實際上是預先整理好的網頁索引資料庫。真正意義上的搜尋引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵字)進行索引,建立索引資料庫的全文搜尋引擎。當用戶查找某個關鍵字的時候,所有在頁面內容中包含了該關鍵字的網頁都將作為搜尋結果被搜出來。在經過複雜的算法進行排序後,這些結果將按照與搜尋關鍵字的相關度高低,依次排列。