搜尋引擎：原理技術與系統（第2版）:第一節第一節第一節基本信息出版社 -百科知識中文網

基本信息

出版社: 科學出版社; 第2版 (2012年5月1日)
平裝: 330頁
語種： 簡體中文
開本: 4
ISBN: 7030342585, 9787030342584
條形碼: 9787030342584
商品尺寸: 23.8 x 16.8 x 1.8 cm
商品重量: 499 g
品牌: 科學出版社

內容簡介

《搜尋引擎:原理技術與系統(第2版)》層次分明，由淺入深，上篇和中篇涉及內容提供了原始碼下載地址；既有深入的理論分析，也有大量的實驗數據和程式，具有學習和實用雙重意義，可作為高等院校計算機科學與技術、軟體工程、信息管理與信息系統、電子商務等專業的研究生或高年級本科生的教學參考書和技術資料；對廣大從事網路技術、Web站點管理、數字圖書館、Web挖掘等研究和套用開發的科技人員有很高的參考價值；書中提供了大量原始碼，除了用於構建搜尋引擎之外，對於學習編程，提高編程技巧，以及實現一個大規模套用開發也有一定的參考價值。

第二版前言
第一版前言
第一章引論
第一節搜尋引擎的概念
第二節搜尋引擎的發展歷史
第三節一些著名的搜尋引擎
第四節小結
上篇web搜尋引擎基本原理和技術
第二章 Web搜尋引擎工作原理和體系結構
第一節基本要求
第二節網頁蒐集
第三節預處理
第四節查詢服務
第五節體系結構
第六節小結
第三章 web信息的蒐集
第一節概述
一、超文本傳輸協定
二、一個小型搜尋引擎系統
第二節網頁蒐集
一、定義URL類和Page類
二、與伺服器建立連線
三、傳送請求和接收數據
四、網頁信息存儲的天格線式
第三節多道蒐集程式並行工作
一、多執行緒並發工作
二、控制對一個站點並發蒐集執行緒的數目
第四節如何避免網頁的重複蒐集
一、記錄未訪問、已訪問URL和網頁內容摘要信息
二、域名與IP的對應問題
第五節蒐集信息的類型
第六節小結
第四章對蒐集信息的預處理
第一節索引網頁庫
第二節網頁編碼識別
一、基本而重要的概念
二、常用字元編碼
三、常用字元編碼算法
四、字元的輸入和顯示
五、編碼識別
第三節中文自動分詞
第四節分析網頁和建立倒排檔案
第五節小結
第五章信息查詢服務
第一節檢索的定義
第二節查詢服務的實現
一、結果集合的形成
二、查詢結果顯示
第三節小結
中篇對質量和性能的追求
第六章可擴展蒐集子系統
第一節天網系統概述和集中式蒐集系統結構
一、天網系統結構
二、集中式蒐集系統
第二節利用並行處理技術高效蒐集網頁的一種方案
一、節點間15RI。的劃分策略
二、關於性能的討論
三、性能測試和評價
四、系統的動態可配置性設計
第三節天網分散式蒐集系統
第四節對DeepWeb的認識
一、DeepWeb的成因
二、搜尋DeepWeb的方法
第五節小結
第七章網頁淨化與消重
第一節網頁淨化與元數據提取
一、DocView模型
二、網頁的表示
三、提取DocView模型要素的方法
四、模型套用及實驗研究
第二節網頁消重算法
一、消重算法
二、算法評測
第三節小結
第八章高性能檢索子系統
第一節檢索系統基本技術
一、系統設計與結構
二、索引創建
三、檢索過程
第二節適於查詢的網頁索引結構
一、倒排索引結構
二、平面位置索引
第三節倒排索引壓縮
一、倒排索引壓縮技術
二、詞典與倒排表的壓縮
第四節索引剪枝
一、靜態索引剪枝方法
二、動態索引剪枝方法
第五節混合索引技術
一、混合索引的原理
二、混合索引的實現
第六節倒排檔案快取機制
一、倒排檔案快取
二、負載特性
三、快取策略的選擇
第七節小結
第九章相關排序與系統質量評估
第一節傳統IR的相關排序技術
第二節連結分析與相關排序
一、連結分析
二、Web查詢模式下的新信息
第三節相關排序的一種實現方案
一、形成網頁中詞項的基本權重
二、利用連結的結構
三、收集用戶反饋信息
四、計算最終的權重
第四節信息檢索技術評估
一、信息檢索技術評估指標
二、TREC和CWlRF信息檢索評估
三、搜尋引擎技術評估
第五節小結
下篇web信息資源的組織與套用服務
第十章大規模web歷史網頁倉儲系統的構建
第一節國外web歷史網頁保存現狀
一、InternetArchive
二、PANDORA
三、其他相關Web保存項目
第二節中國web信息博物館的系統設計
一、WebInfoMall的設計目標
二、WebInfoMall的體系結構
第三節歷史網頁的存儲
一、數據的組織
二、存儲結構
三、數據管理與壓縮
四、存儲性能
第四節數據訪問
一、PageID的索引
二、URL的索引
三、數據服務
四、性能與最佳化
第五節網頁的格式保存
第六節小結
第十一章大規模web非網頁信息倉儲系統的構建
第一節網路資源庫藏相關工作
一、Ibiblio
二、Internet Archive
二、Wikimedia
四、中國網際網路數字資源財富庫藏
第二節 CDAL系統概況
第三節 CDAL系統設計
一、系統體系結構
二、可擴展的存儲組織方案
第四節網路資源描述信息獲取
一、0ntology概述
二、描述信息獲取機制
三、改進查詢的方法
四、改進排序的方法
第五節基於局部聚類思想的共現辭彙算法
一、基本定義
二、H）C共現辭彙算法
第六節小結
第十二章中文網頁自動分類與聚類
第一節文檔自動分類算法的類型
第二節實現中文網頁自動分類的一般過程
第三節影響分類器性能的關鍵因素分析
一、實驗設定
二、訓練樣本
三、特徵選取
四、分類算法
五、截尾算法
六、中文網頁分類器的設計方案
第四節天網目錄導航服務
一、問題的提出
二、天網目錄導航服務的體系結構
三、天網目錄的運行實例
第五節文本聚類方法
一、文本聚類的一般過程
二、文本間相似性的度量
三、常用聚類算法
四、聚類結果的評估
五、搜尋引擎返回結果的聚類
第六節小結
第十三章開放域問答系統
第一節概述
一、問答系統的歷史
二、著名開放域問答系統介紹
三、開放域問答系統的通用體系結構
第二節問句的分析
一、問句中的指代消解
二、問句分類
三、問句主題提取
第三節文檔和段落檢索
一、檢索模型的選用
二、查詢生成
三、查詢結果排序
四、增強索引的功能
第四節答案提取和驗證模組
一、生成候選答案集合
二、答案提取
第五節問答系統的改進方法
一、問答系統中外部資源的利用
二、尋找特殊類問題的解決方案
三、通過系綜方法構建問答系統
第六節問答系統的評測
一、TREC問答系統評測
二、問答系統評測指標
第七節實例：天網開放域問答系統
第八節小結
參考文獻
附錄術語

搜尋引擎：原理技術與系統（第2版）

基本信息

內容簡介

目錄

相關詞條

搜尋引擎最佳化寶典(第2版)

人工智慧（第2版）

搜尋引擎最佳化入門與進階

全程軟體測試（第2版）

Linux運維之道（第2版）

網路管理員教程（第2版）

網路行銷（第2版）

計算機網路技術與套用（第2版）

熱門詞條