編輯推薦
本書特色:
國內垂直搜引擎的扛鼎之作;
集開源搜尋引擎之大成,融會貫通,自成一體;
無線搜尋引擎核心技術零距離接觸;
Web信息挖掘專用程式設計語言,語法標準首次發布;
垂直爬蟲專業並行虛擬機核心技術展示;
多年商業搜尋引擎開發運營經驗之提煉總結;
真實的中型分散式搜尋引擎開發案例全景展現;
最新Java前沿技術在經典計算機理論上的優秀套用;
專業信息檢索理論與商業搜尋需求的完美結合;
Java軟體工程設計模式最佳實踐。
內容簡介
隨著網路信息資源的急劇增長,人們越來越多地關注如何快速有效地從海量的網路信息中,抽取出潛在的、有價值的信息,使之有效地在管理和決策中發揮作用。搜尋引擎技術解決了用戶檢索網路信息的困難,目前搜尋引擎技術正成為計算機科學界和信息產業界爭相研究、開發的對象。
本書的作者是一位資深的搜尋引擎開發人員,書中對數據獲取(網路信息挖掘)與數據檢索(搜尋引擎)兩個方面作了深入的介紹。本書首先提出了一套“網路數據挖掘”的完整理論,並給出一個實際的智慧型爬蟲系統,通過理論與實際的完整呈現,使讀者能夠對“網路數據挖掘”有一個比較具體的認識,然後介紹了一個專用程式語言IRS,並給出了這個語言的編譯器以及虛擬機的實現方法。本書還通過對多個開源搜尋引擎項目抽絲剝繭的細緻分析,引出搜尋引擎的一些基本原理與開發方法,並介紹了一個商業化搜尋引擎的實例。本書的最後還結合一個Java框架介紹了一些軟體設計思想。
本書涉及網路數據挖掘、搜尋引擎原理、編譯原理、資料庫原理、正則表達式、軟體工程、設計模式、Ruby語言、HTTP協定等計算機科學與技術的知識,適合搜尋引擎開發人員作為參考,也適合有一定計算機基礎的讀者閱讀,以擴展視野。
本書的內容中,既有教科書式的理論闡述,也有“七天入門”式的實例解析,還有《Linux核心情景分析》風格的細緻的代碼分析,甚至還有一些英語文獻翻譯,從初學者到有一定經驗的搜尋引擎開發人員,各個層次的讀者都能找到一些適合自己閱讀的章節。
作者簡介
王亮,主持或參與過多個大中型索引擎開發與運營,具有豐富的搜尋引擎算法理論知識與實際開發運營經驗。曾任職於愛立信、上海網村、上海邁眾,2009年創立上海睿驛信息技術有限公司並任CEO,致力於提供搜尋引擎相關的產品和服務。
目錄
第1章 網頁數據挖掘
1.1 網頁數據挖掘定義
1.2 Web數據挖掘面臨的問題
1.3 Web數據挖掘的分類
1.4 網頁數據的結構與特點
1.4.1 HTML超文本標記語言
1.4.2 WML無線標記語言
1.5 網頁數據挖掘的基本方法
1.5.1 預備知識
1.5.2 變數模板匹配方法
1.5.3 樹節點直接標識方法
1.5.4 語義規則識別方法
第2章 智慧型網路爬蟲
2.1 智慧型網路爬蟲的定義與特點
2.2 抓取入口定義
2.3 次級頁面自動發現
2.4 次級頁面地址拼接
2.5 已爬地址處理
2.6 信息採集強度控制
2.7 模擬用戶登錄
2.8驗證碼識別
2.9 代理伺服器設定
2.10 JavaScript解析控制
第3章 網頁信息挖掘專用程式設計語言IRS
3.1 IRS語言的簡介與設計原則
3.2 IRS腳本語法結構
3.2.1 頁面配置塊
3.2.2 頁面名語句
3.2.3 爬蟲配置聲明語句
3.2.4 入口聲明語句
3.2.5 編碼配置
3.2.6 步長配置
3.2.7 重試次數配置
3.2.8 正則模式匹配語句
3.2.9 匹配名聲明
3.2.10 IEE表達式
3.2.11 模式匹配修飾符
3.2.12 節點模式匹配語句
3.2.13 次級頁面入口語句
3.2.14 保存語句
3.2.15 Ruby控制語句
3.2.16 爬蟲配置語句
3.2.17 系統配置語句
3.2.18 外部配置檔案
3.2.19 執行語句塊
3.2.20IRQL存儲語句
3.2.21 IRQL語言中的數據表
3.2.22 IRQL內部函式
3.2.23 實例解析
第4章 IRS虛擬機及編譯器實現原理
4.1 Ruby基本語法
4.1.1 字句構造和表達式
……
第5章 搜尋引擎設計原理
第6章 搜尋引擎的商業化實現
第7章 Hivemind
後記與感謝