大規模分散式內容檢索技術

大規模分散式內容檢索技術

《大規模分散式內容檢索技術》是2011年科學出版社出版的圖書,本書作者是陳漢華。

基本信息

內容簡介

大規模分散式內容檢索是近年來分散式系統方向的一個熱點研究領域。陳漢華,金海的這本《大規模分散式內容檢索技術》全面地闡述了各種體系結構的分散式大規模內容檢索系統的關鍵技術和核心理論,並對各項技術和理論的來龍去脈進行了詳細深入的分析。

本書通過豐富的文獻資料和研究成果,從研究者的視角對大規模分散式內容檢索技術進行了深入剖析,是分散式處理系統領域的學術專著。

《大規模分散式內容檢索技術》可供高等院校計算機科學與技術相關專業的高年級本科生、研究生、教師、研究人員及工程技術人員閱讀參考,也可作為相關專業的研究生教材。

圖書目錄

前言

第1章 緒論

1.1 對等網路概述

1.2 基於對等模式的大規模分散式文本內容檢索

1.3 大規模分散式文本內容檢索研究面臨的挑戰

1.4 大規模分散式文本內容檢索技術分類

1.4.1 基於結構化分散式哈希表的分散式全局倒排索引

1.4.2 基於非結構化對等網路的聯邦式搜尋網路

1.4.3 混合對等網路搜尋引擎

1.5 本書內容

參考文獻

第2章 分散式哈希表及單關鍵字全局索引

2.1 分散式哈希表

2.1.1 Chord:基於二分查找的環狀對等結構

2.1.2 CAN:基於多維空間劃分的對等結構

2.1.3 Pastry:基於多分查找的前綴匹配對等結構

2.1.4 Tapestry:基於多分查找的對等結構

2.2 現有分散式哈希表算法的比較

2.3 利用分散式哈希表構建單關鍵字全局索引

2.3.1 eSearch:基於分散式哈希表的水平索引

2.3.2 Minerva:在查詢中挖掘關聯關鍵字

2.3.3 局限性

參考文獻

第3章 布隆濾波

3.1 哈希編碼的時間/空間權衡

3.1.1 一種經典的哈希編碼方法

3.1.2 兩種存在誤判率的哈希編碼方法

3.1.3 計算因子

3.1.4 三種哈希編碼方法的數學分析

3.1.5 時空性能比較

3.2 布隆濾波的基本理論

3.2.1 布隆濾波概念

3.2.2 位向量長度的下界

3.2.3 布隆濾波與集合運算

3.3 布隆濾波的擴展形式

3.3.1 計數布隆濾波

3.3.2 壓縮布隆濾波

3.3.3 動態布隆濾波

3.4 布隆濾波的套用

3.4.1 早期套用

3.4.2 分散式快取

3.4.3 P2P網路

3.4.4 資源路由

3.4.5 數據包路由

3.4.6 基礎設施測量

參考文獻

第4章 基於分散式哈希表單關鍵字索引的搜尋

4.1 結構化對等網多關鍵字檢索麵臨的挑戰

4.2 Top-k查詢策略

4.2.1 倒排索引

4.2.2 Top-k裁剪算法

4.2.3 性能評估

4.3 PWEB系統

4.3.1 PWEB網路結構

4.3.2 多關鍵字搜尋通信開銷最佳化策略

4.3.3 擴展性算法

4.3.4 分散式交集運算執行順序最佳化策略

4.3.5 蒐集關鍵字全局統計信息

4.3.6 模擬仿真方法

4.3.7 性能評估

4.4 小結

參考文獻

第5章 多關鍵字全局索引及搜尋

5.1 分散式關鍵字集索引面臨的挑戰

5.2 文本檢索中的關鍵字權重方法

5.2.1 關鍵字權重模型TF×IDF

5.2.2 理解逆文檔頻率

5.2.3 用逆向總關鍵字頻率替換逆文檔頻率的嘗試

5.2.4 詞頻在相關權重模型中的探索

5.3 HDK:基於高區分關鍵字集的索引技術

5.3.1 關鍵字集倒排索引

5.3.2 高區分關鍵字集索引

5.3.3 基於高區分關鍵字集索引的搜尋

5.3.4 擴展性分析

5.3.5 性能評估

5.4 TSS:基於關鍵字集索引的P2P搜尋系統

5.4.1 TSS系統結構

5.4.2 分散式關鍵字集索引

5.4.3 模擬測試方法

5.4.4 性能評估

參考文獻

第6章 基於複製的聯邦式對等搜尋策略

6.1 理論分析

6.1.1 模型建立

6.1.2 均勻複製策略和比例複製策略

6.1.3 平方根複製策略

6.1.4 混合複製策略

6.1.5 分散式複製算法的實現

6.2 基於隨機遊走的隨機複製策略

6.2.1 生日悖論和理論下界

6.2.2 隨機遊走複製策略和搜尋協定

6.2.3 性能評估

6.3 BubbleStorm:基於隨機多圖的機率窮盡搜尋策略

6.3.1 副本數量的確定

6.3.2 網路大小的測量

6.3.3 隨機多圖與隨機採樣

6.3.4 洪泛和隨機遊走的完美結合

6.3.5 系統分析

6.3.6 性能評估

6.4 BloomCast:基於輕量級分散式哈希表的隨機採樣

6.4.1 BloomCast網路結構

6.4.2 網路結點數量估計

6.4.3 隨機結點採樣

6.4.4 基於布隆濾波的複製算法

6.4.5 多關鍵字搜尋

6.4.6 性能評估

6.5 PlanetP:基於全局摘要索引的複製策略

6.5.1 全局目錄索引複製

6.5.2 結點排序模型

6.5.3 查詢處理算法

6.5.4 性能評估

參考文獻

第7章 基於內容路由的聯邦式搜尋策略

7.1 基於語言模型的路由選擇

7.1.1 聯邦式搜尋引擎的兩層結構

7.1.2 語言模型

7.1.3 相對熵

7.1.4 搜尋算法

7.1.5 性能評估

7.2 基於語義小世界模型的聯邦式對等搜尋

7.2.1 語義空間和向量

7.2.2 構造語義小世界

7.2.3 降低語義小世界的維度

7.2.4 基於語義小世界的搜尋

7.2.5 性能評估

7.3 基於興趣局部性的路由

7.3.1 興趣局部性

7.3.2 基於興趣局部性的拓撲和路由

7.3.3 性能評估

7.4 SemreX系統

7.4.1 SemreX系統模型

7.4.2 語義覆蓋網

7.4.3 基於語義覆蓋網的查詢搜尋算法

7.4.4 性能評估

參考文獻

第8章 混合式對等搜尋策略

8.1 混合對等搜尋面臨的挑戰

8.2 基於預先探測的混合策略

8.2.1 Boon Thau Loo的Gnutella實驗

8.2.2 SimpleHybrid混合P2P搜尋策略

8.2.3 性能評估

8.3 基於Gossip的混合搜尋選擇

8.3.1 收集全局統計信息

8.3.2 使用全局信息進行搜尋選擇

8.3.3 洪泛閾值的調節

8.3.4 性能評估

8.4 難度感知的混合式搜尋策略

8.4.1 很多複本≠很多結點

8.4.2 QRank設計

8.4.3 用QRank進行混合查詢

8.4.4 自適應混合查詢

8.4.5 QRank仿真器設計

8.4.6 性能評估

參考文獻

第9章 大規模線上社會網路搜尋

9.1 大規模線上社會網路搜尋面臨的挑戰

9.2 線上社會網路系統研究現狀

9.3 流行線上社會網路的數據劃分與定位

9.4 大規模線上社會網路內容搜尋關鍵技術

9.4.1 流式文本摘要技術

9.4.2 基於摘要索引的排序算法

9.4.3 多跳鄰居摘要聚合技術

9.4.4 基於社區局部性降低摘要索引開銷

參考文獻

相關詞條

相關搜尋

熱門詞條

聯絡我們