《信息檢索系統導論》

《信息檢索系統導論》,對信息檢索及信息檢索系統的基本概念、原理、算法進行詳盡介紹。主要內容包括信息檢索模型、文本操作技術、文本索引和搜尋技術、查詢處理與Web檢索技術、分散式信息檢索、文本分類與聚類、信息過濾等,並給出Web信息檢索的實現實例。

圖書信息

作者:劉挺等編著
出版社:機械工業出版社
出版時間:2008-12-1
版次:1
頁數:257
印刷時間:2008-12-1
.開本:16開
紙張:膠版紙
印次:1
ISBN:9787111246077
包裝:平裝

內容簡介

本書對信息檢索及信息檢索系統的基本概念、原理、算法進行詳盡介紹。主要內容包括信息檢索模型、文本操作技術、文本索引和搜尋技術、查詢處理與Web檢索技術、分散式信息檢索、文本分類與聚類、信息過濾等,並給出Web信息檢索的實現實例。
本書內容豐富,源於作者多年的教學及科研心得,適合作為高等院校計算機專業本科生及研究生相關課程的教材,也可作為技術人員研究信息檢索與搜尋引擎的參考讀物。

作者簡介

劉挺,教授,博士生導師。哈爾濱工業大學計算機研究所副所長,信息檢索研究室主任。國家863”中文處理”重點項目總體組專家。中國中文信息學會理事.信息檢索專委會副主任.計算語言學專委會委員,《中文信息學報》編委。中國計算機學會中文信息技術專委會委員,YOCSEF委員。曾任IJCNLP、AIRS等國際會議的程式委員會委員,以及全國信息檢索會議NCIRCS的程式委貫會主席,JSCL的多屬委員等。主要研究方向為信息檢索和自然語言處理,主持多項國家、部委、國際金作、企業合作等科研項目.在相關領域發表論文60餘篇。

圖書目錄


前言
作者簡介
教學建議
第1章緒論
1.1信息檢索簡介
1.1.1信息檢索的概念和處理對象
1.1.2信息檢索的基本流程
1.1.3與信息檢索相關的學科
1.2信息檢索的研究內容
1.2.1信息檢索要解決的問題
1.2.2信息檢索中的基礎研究課題
1.2.3信息檢索中的關鍵技術
1.2.4信息檢索中的套用研究
1.3信息檢索的歷史、現狀與未來
1.3.1信息檢索的歷史
1.3.2信息檢索的現狀與未來
1.4本書結構
本章小結
思考練習
第2章信息檢索模型
2.1信息檢索模型的定義和分類
2.1.1信息檢索模型的定義
2.1.2信息檢索模型的分類
2.2布爾模型
2.2.1布爾模型的定義
2.2.2布爾模型示例
2.3向量空間模型
2.3.1向量空間模型的定義
2.3.2常見相似度計算方法
2.3.3向量空間模型與布爾模型的比較
2.4機率模型
2.4.1機率模型的定義
2.4.2機率模型的優缺點
2.5擴展布爾模型
2.5.1擴展布爾模型簡介
2.5.2基本模糊集合模型
2.5.3擴展模糊集合模型
2.6統計語言模型
2.6.1語言模型簡介
2.6.2數據稀疏和平滑
2.6.3基於語言模型的檢索模型
2.6.4基於語言模型的信息檢索模型的優缺點分析
2.7隱性語義索引模型
2.7.1隱性語義索引
2.7.2隱性語義索引模型原理
2.7.3隱性語義索引實例
2.7.4隱性語義索引模型的特點
2.8基於本體論的模型
2.8.1本體論的概念
2.8.2描述本體的語言
2.8.3本體的構造
2.8.4常用的本體庫簡介
2.8.5本體論在信息檢索系統中的套用
本章小結
思考練習
參考文獻
第3章信息檢索系統的評價
3.1引言
3.2性能評價指標
3.2.1準確率和召回率
3.2.2單值評價方法
3.2.3一些特殊的評價方法
3.2.4其他測度方法
3.3國外信息檢索評測
3.3.1TREC評測
3.3.2NTCIR評測
3.3.3CLEF評測
3.4國內信息檢索評測
3.4.1863信息檢索評測
3.4.2SEWM中文Web評測
3.5信息檢索評價的研究
3.5.1現有研究成果介紹
3.5.2今後的研究問題與趨勢
本章小結
思考練習
參考文獻
第4章文本操作技術
4.1引言
4.2英文詞法分析
4.2.1斷詞
4.2.2詞幹提取
4.3中文詞法分析
4.3.1最大匹配法
4.3.2歧義詞切分
4.3.3未登錄詞識別
4.3.4分詞系統介紹
4.3.5語料及評測
4.4相關資源
4.4.1停用詞
4.4.2詞典資源
4.5英文拼寫檢查
4.5.1形態還原
4.5.2詞語相似度計算
本章小結
思考練習
參考文獻
第5章文本索引和搜尋
5.1引言
5.2倒排檔案
5.2.1倒排檔案簡介
5.2.2倒排檔案的使用
5.2.3倒排檔案的建立
5.2.4倒排檔案的維護
5.2.5倒排檔案的壓縮
5.2.6倒排檔案性能分析
5.3辭彙表的存取
5.3.1排序數組
5.3.2B樹
5.3.3Trie樹
5.4後綴數組
5.4.1後綴數組的構造
5.4.2後綴數組的使用
5.4.3後綴數組的分析
5.5簽名檔案
5.5.1簽名檔案的構造
5.5.2簽名檔案的使用和維護
5.5.3簽名檔案的分析
5.6文本搜尋技術
5.6.1BF算法
5.6.2kmp算法
5.6.3BM算法
5.6.4精確模式匹配算法的選擇
本章小結
思考練習
參考文獻
第6章查詢處理技術
6.1引言
6.2查詢構造方法
6.2.1單一詞查詢
6.2.2上下文查詢
6.2.3布爾查詢
6.3相關反饋與查詢重構
6.3.1向量空間模型中的反饋與查詢重構
6.3.2機率模型中的反饋與查詢重構
6.3.3布爾模型中的反饋與查詢重構
6.3.4相關反饋的評價
6.4自動查詢擴展技術
6.4.1查詢擴展的全局分析方法
6.4.2查詢擴展的局部分析方法
6.4.3基於詞典庫的查詢擴展
6.5互動式查詢擴展
6.6查詢處理的發展趨勢
本章小結
思考練習
參考文獻
第7章Web檢索技術
7.1引言
7.2Web檢索的工作流程及系統結構
7.2.1工作流程
7.2.2系統結構
7.3Web數據的採集
7.3.1Web數據採集系統的工作原理
7.3.2Web數據採集系統的相關概念及協定
7.3.3Web數據採集系統的基本結構
7.3.4Web數據採集系統的分類
7.4網頁的預處理
7.4.1網頁去重
7.4.2正文提取
7.5相關性排序系統
7.5.1早期的相關性排序技術
7.5.2連結分析技術
7.5.3多特徵融合的相關性排序算法
7.6Web檢索系統的其他模組
本章小結
思考練習
參考文獻
第8章分散式信息檢索
8.1引言
8.2分散式信息檢索系統體系結構
8.3文檔集合的劃分
8.4文檔集合的選擇
8.4.1文檔集合的表示
8.4.2集合選擇算法
8.4.3文檔集合選擇算法的評價
8.5檢索結果的合併
本章小結
思考練習
參考文獻
第9章Web信息檢索實踐
9.1引言
9.2利用Lucene建立索引
9.2.1在Lucene中建立索引的主要步驟
9.2.2基本索引程式
9.2.3深入控制Lucene索引過程
9.2.4與索引相關的並發問題
9.3利用Lucene進行搜尋
9.3.1IndexSearcher
9.3.2Hits
9.3.3Query與QueryParser
本章小結
思考練習
參考資源
第10章文本分類與聚類
10.1引言
10.2文本分類
10.2.1文本分類概述
10.2.2文本分類的過程
10.2.3分類算法
10.2.4文本分類的評估指標
10.2.5相關評測和相關資源
10.3文本聚類
10.3.1文本聚類概述
10.3.2層次聚類
10.3.3基於劃分的聚類
10.3.4基於密度的方法
10.3.5自組織映射
10.3.6基於模型的方法
10.3.7文本聚類結果的描述
11.3.8文本聚類的評價方法
本章小結
思考練習
參考文獻
第11章信息過濾技術
11.1引言
11.2信息過濾的概念及主要研究內容
11.2.1信息過濾的概念和主要特點
11.2.2信息過濾與信息檢索、信息抽取以及分類等研究的區別
11.2.3信息過濾系統的分類體系
11.3信息過濾系統的結構及評價
11.3.1信息過濾系統的組成
11.3.2信息過濾系統的評價
11.4基於內容的信息過濾
11.4.1信息過濾中套用的統計模型
11.4.2信息過濾中套用的文本分類方法
11.5協作過濾
11.5.1基於用戶的協作過濾
11.5.2基於模型的協作過濾
11.5.3基於項目的協作過濾
本章小結
思考練習
參考文獻
第12章問答系統
12.1引言
12.2問答系統的發展歷程
12.3問答系統的種類
12.3.1問答系統分類方法
12.3.2自然語言的資料庫問答系統
12.3.3對話式問答系統
12.3.4基於常問問題集的問答系統
12.3.5基於大規模文檔集的問答系統
12.3.6閱讀理解系統
12.3.7基於知識庫的問答系統
12.4基於常問問題集的問答系統實現
12.4.1候選問題集的建立
12.4.2句子相似度計算
12.5基於大規模文檔集的問答系統實現
12.5.1問答的任務與系統實現流程
12.5.2問題分析
12.5.3相關文檔檢索
12.5.4句段檢索
12.5.5答案抽取
12.5.6問答結果的答案評測及其面對的問題和困難
本章小結
思考練習
參考文獻

相關詞條

熱門詞條

聯絡我們