搜尋引擎開發權威經典

這《搜尋引擎開發權威經典》引基於Lucene的當前最新版本(2.1)精解了Lucene搜尋引擎的相關知識,從基礎知識到套用開發,精練簡潔,恰到好處。

基本信息

內容簡介

搜尋引擎開發權威經典

這《搜尋引擎開發權威經典》基於Lucene的當前最新版本(2.1)精解了Lucene搜尋引擎的相關知識,從基礎知識到套用開發,精練簡潔,恰到好處

《搜尋引擎開發權威經典》共包括16章,分為6部分。第1部分Lucene基礎。介紹了Lucene的基礎知識,包括Lucene的歷史和發展情況、使用Lucene創建索引和執行搜尋的基本方法以及中文分詞的套用,最後做了兩個套用項目。第2部分:數據解析。介紹解析不同格式數據(如Word、PDF等)的方法,包括常用的數據解析組件、Lucene自身的數據解析機制和Lius類庫。第3部分:索引的高級知識。介紹了 Lucene建立索引的過程,索引的查看和刪除,索引的同步,索引的合併和最佳化等內容。第4部分:搜尋的高級知識。介紹使用不同的Query對象構建搜尋請求,使用QueryParser解析用戶的搜尋請求,搜尋結果的過濾和排序等內容。第5部分:Lucene套用實例。套用本節介紹的所有知識構建一個桌面搜尋引擎和一個Web搜尋引擎。這部分作為對前面所有內容的總結。第6部分:Nutch搜尋引擎框架。介紹了基於Lucene的完整搜尋引擎Nutch。

《搜尋引擎開發權威經典》適合從Lucene初學者到高級開發人員之間的一切Lucene愛好者。

作者簡介

於天恩,現任某大型軟體開發公司技術總監,高級軟體工程師,精通主流軟體編程技術(100多種),具有大量軟體項目開發經驗。主持開發過大中型企業網站,簡訊服務系統,辦公自動化系統(OA),CRM系統等。

已經出版的作品:《PHP精解案例教程》、《做自己的搜尋引擎——搜尋引擎精解案例教程》、《迅速搭建全文搜尋平台——開源搜尋引擎實戰教程》。

目錄

第1章 Lucene簡介

1.1 認識Lucene

1.1.1 Lucene是什麼

1.1.2 Lucene的作者

1.1.3 Lucene的歷史

1.1.4 Lucene的現在

1.2 Lucene體驗實例

1.2.1 下載Lucene

1.2.2 編寫輔助類

1.2.3 最簡單的搜尋引擎

1.2.4 索引器的開發

1.2.5 索引器的運行

1.2.6 搜尋器的開發

1.2.7 搜尋器的運行

小結

第2章 創建索引

2.1 創建索引的基本方式

2.1.1 理解創建索引的過程

2.1.2 創建Field

2.1.3 創建Document

2.1.4 創建IndexWriter

2.2 創建索引實例

2.2.1 簡單索引

2.2.2 複雜一點的索引

2.2.3 為檔案創建索引

2.2.4 為某一目錄下的所有檔案創建索引

小結

第3章 執行搜尋

3.1 執行搜尋的基本方式

3.1.1 創建搜尋器對象:Indexsearcher

3.1.2 封裝搜尋條件:使用Tem和Query對象

3.1.3 執行搜尋

3.1.4 提取搜尋結果:了解Hits對象

3.1.5 提取搜尋結果:了解Document對象

3.1.6 提取搜尋結果:了解Field對象

3.2 執行搜尋實例

3.2.1 簡單搜尋

3.2.2 分詞問題

小結

第4章 中文分詞

4.1 說說分詞

4.1.1 分詞的方法

4.1.2 做分詞器

4.2 Lucene的分詞器

4.2.1 二分法分詞器

4.2.2 Lucene自帶的中文分詞器

4.2.3 NGram分詞器的原理和用法

4.2.4 JE分詞器的原理和用法

4.2.5 IK分詞器的原理和用法

4.2.6 其他分詞器

小結

第5章 Lucene搜尋引擎開發基礎實例

5.1 概述

5.2 桌面搜尋引擎:索引器

5.2.1 索引器簡介

5.2.2 索引器設計

5.2.3 索引器實現

5.2.4 實例效果

5.3 桌面搜尋引擎:搜尋器

5.3.1 搜尋器簡介

5.3.2 搜尋器設計

5.3.3 搜尋器實現

5.3.4 實例效果

5.4 web搜尋引擎:搜尋器

5.4.1 搜尋器簡介

5.4.2 搜尋器界面

5.4.3 搜尋器實現

5.4.4 搜尋器部署

5.4.5 實例效果

小結

第6章 常用的數據解新組件

6.1 常見二進制文檔的解析

6.1.1 解析PDF文檔

6.1.2 解析Word文檔

6.1.3 解析Excel文檔

6.2 XML文檔的解析

6.2.1 使用Dom4j解析XML文檔

6.2.2 XML文檔標準解析器

6.3 HTML文檔的解析

6.3.1 下載htmlparser組件

6.3.2網頁編碼問題

6.3.3 網頁解析的一般方法

6.3.4 常見的解析要求

6.4 集成的數據解析器

6.4.1 文本檔案解析器

6.4.2 集成解析器

6.5 改良的搜尋引擎

6.5.1 改良的索引器

6.5.2 測試搜尋器

小結

第7章 Lucene自身的數據解新方

7.1 處理PDF文檔——LucenePDFDocument

7.2 處理純文本檔案——TextDocument

7.3 綜述

小結

第8章 Lius類庫

8.1 初識Lius

8.1.1 Lius簡介

8.1.2 Lius的功能

8.1.3 下載Lius

8.1.4 Lius的目錄結構

8.1.5 一個簡單的例子

8.2 藉助Lius解析普通數據

8.2.1 取我所需,為我所用

8.2.2 解析Word

8.2.3 解析Excel

8.2.4 解析PDF

8.2.5 解析PowerPoint

8.2.6 解析RTF

8.2.7 解析TXT

8.2.8 解析XMI

8.3 藉助Lius解析HTML數據

……

第3部分 索引的高級知識(第9~10章)

第4部分 搜尋的高級知識(第11~12章)

第5部分 Lucene套用實例(第13~14章)

第6部分 Nutch搜尋引擎框架(第15~16章)

……

序言

說說搜尋引擎

搜尋引擎這幾年熱起來了。

作為世界上最大、最出名的搜尋引擎,Google在很多地方發揮了重要的作用,下面是筆者的一點總結。

第一,搜尋。

Google給人上網瀏覽資源提供了方便。

第二,行銷

。利用Google做廣告,針對Google的搜尋算法去開發網站,就可以賺取眼球經濟。

第三,小軟體的開發

。利用Google提供的搜尋接口,可以開發許多商用的客戶端搜尋軟體。如GoogleEanh地圖軟體等。

第四,

Google為長尾理論提供了實驗數據,奠定了網際網路經濟的理論基礎,引發了“管理學界”的變革。

第五,

看到了Google搜尋的好處之後,人們更重視搜尋。找人做網站的人總是會提出加個搜尋功能。提供搜尋服務的公司也越來越多,因為他們發現這裡有利可圖。甚至,連苦讀聖賢書多年的大學畢業生(包括一些博士)也認為應聘搞搜尋的公司是一件光彩的事情。

相關搜尋

熱門詞條

聯絡我們