基本信息
作者:羅剛
時長:20小時
出版社:機械工業出版社
發行商:華章培訓網
ISRC:CN-M10-305-11/V.T
內容簡介
隨著網際網路的快速發展,大大小小的網站每天都在誕生,開發網站搜尋系統成為了網站開發中的一個難題。如果一個網站沒有自己的網站搜尋系統,用戶將無法從快速增長的內容中找到自己想要的信息。使用中文分詞等自然語言處理技術來提高搜尋準確度是另外一個需要深入解決的難題。
接下來要共同學習的內容,就是要解決這些難題。我們共同來建立一套“網站搜尋系統”,開發語言選擇Java,主要用Lucene和Solr來開發。
作者介紹
羅剛,獵兔搜尋創始人,當前獵兔搜尋在北京和上海均設有研發部。帶領獵兔搜尋技術開發團隊先後開發出獵兔中文分詞系統、獵兔智慧型垂直搜尋系統以及網路信息監測系統等,實現網際網路信息的採集、過濾、搜尋和實時監測。
目錄
第01講lucene搜尋引擎第02集全文檢索與Lucene簡介
第03集使用lucene
第04集Lucene與中文分詞
第05集查詞典的方法
第06集查詞典的方法
第07講N元分詞方法
第08講語料庫
第09講詞性標註
第10講識別未登錄詞語發現新詞
第11講有限狀態機
第12講樸素貝葉斯文本分類
第13講特徵選擇
第14講支持向量機文本分類