內容簡介
本書系統地介紹了網際網路搜尋引擎的工作原理、實現技術及其系統構建方案。全書分三篇共13章內容,從基本工作原理概述,到一個小型簡單搜尋引擎具體細節的實現,進而詳細討論了大規模分散式搜尋引擎系統的設計要點及其關鍵技術;最後介紹了面向主題和個性化的web信息服務,闡述了中文網頁自動分類等技術及其套用。本書層次分明,由淺入深;既有深入的理論分析,也有大量的實驗數據,具有學習和實用雙重意義。
本書可作為高等院校計算機科學與技術、信息管理與信息系統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料,對廣大從事網路技術、Web站點的管理、數字圖書館、WEB挖掘等研究和套用開發的科技人員也有很高的參考價值。
目錄
前言
第一章 引論
第一節 搜尋引擎的概念
第二節 搜尋引擎的發展歷史
第三節 一些著名的搜尋引擎
上篇 Web搜尋引擎基本原理和技術
第二章 Web搜尋引擎工作原理和體系結構
第一節 基本要求
第二節 網頁蒐集
第三節 預處理
第四節 查詢服務
第五節 體系結構
第三章 Web信息的蒐集
第一節引言
一、超文本傳輸協定
二、一個小型搜尋引擎系統
第二節 網頁蒐集
一、定義LJRL類和Page類
二、與伺服器建立連線
三、傳送請求和接收數據
四、網頁信息存儲的天格線式
第三節 多道蒐集程式並行工作
一、多執行緒並發工作
二、控制對一個站點並發蒐集執行緒的數目
第四節 如何避免網頁的重複蒐集
一、記錄未訪問、已訪問IJRL和網頁內容摘要信息
二、域名與IP的對應問題
第五節 如何首先蒐集重要的網頁
第六節 蒐集信息的類型
第七節 本章 小結
第四章 對蒐集信息的預處理
第一節 信息預處理的系統結構-
第二節 索引網頁庫
第三節 中文自動分詞
第四節 分析網頁和建立倒排檔案
第五節 本章 小結
第五章 信息查詢服務
第一節 查詢服務的系統結構
第二節 檢索的定義
第三節 查詢服務的實現
一、結果集合的形成
二、查詢結果顯示
第四節 本章 小結
中篇 對質量和性能的追求
第六章 可擴展蒐集子系統
第一節 天網系統概述和集中式蒐集系統結構
一、天網系統結構
二、集中式蒐集系統
第二節 利用並行處理技術高效蒐集網頁的一種方案
一、節 點間URL的劃分策略
二、關於性能的討論
三、性能測試和評價
四、系統的動態可配置性設計
第三節 本章 小結
第七章 網頁淨化與消重
第一節 網頁淨化與元數據提取
一、引言
二、D0cview模型
三、網頁的表示
四、提取Docview模型要素的方法
五、模型套用及實驗研究
第二節 網頁消重算法
一、消重算法
……
第八章 高性能檢索子系統
第九章 用戶行為的特徵及快取的套用
第十章 相關排序與系統質量評估
下篇 面向主題和個性化的Wed信息服務
第十一章 中文網頁自動分類技術
第十二章 搜尋引擎個性化查詢服務
第十三章 面向主題的信息蒐集與套用
參考文獻
附錄 術語