word分詞 是一個Java實現的分散式的中文分詞組件,提供了多種基於詞典的分詞算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置檔案來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分散式環境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結果,還能使用詞性標註、同義標註、反義標註、拼音標註等功能。同時還無縫和Lucene、Solr、ElasticSearch、Luke集成。
相關詞條
-
word[Java分散式中文分詞組件]
Java分散式中文分詞組件 - word分詞
-
中文分詞
中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成...
基本信息 算法分類 技術難點 套用 常見項目 -
Lucene+nutch搜尋引擎開發
《Lucene+nutch搜尋引擎開發》是2008年人民郵電出版社出版的圖書。
版權資訊 編輯推薦 目錄 入門篇 目錄 核心揭秘篇 目錄 實戰篇 -
開源搜尋
一樣。XQEngine只是一個用Java開發的很緊湊的可嵌入的組件...意料中,儘管包括中文在內的許多語言還都無法使用,但使用過維基搜尋的人會明顯...索引PDF,Word,Excel,和PowerPoint文檔...
說明 優點 歷史介紹 搜尋引擎 -
開發自己的搜尋引擎
6.4.1 現有的中文分詞方式簡介6.4.2 中科院的分詞軟體和JE分詞6.5...平均使用的關鍵字的個數多。中文用戶的搜尋使用水平相對於西文用戶目前仍然...,同時也希望有更多的中文開發人員能積極投入到Lucene的相關項目開發中去...
編輯推薦 內容簡介 作者簡介 圖書目錄