庖丁解牛分詞器

庖丁系統是個完全基於lucene的中文分詞系統,它就是重新建了一個analyzer,叫做PaodingAnalyzer,這個analyer的核心任務就是生成一個可以切詞TokenStream。

名片

庖丁系統是個完全基於lucene的中文分詞系統,它就是重新建了一個analyzer,叫做PaodingAnalyzer,這個analyer的核心任務就是生成一個可以切詞TokenStream。

庖丁系統的核心內容

net.paoding.analysis.dictionary 字典抽象—提供查詢字典
net.paoding.analysis.knife 切割抽象—分詞算法
net.paoding.analysis.analyzer 封裝適配器到lucene接口

庖丁分詞系統的缺點

這種切分還是有很明顯的缺點.例如下面一段文字:
“發展社區老年活動場所和服務設施”
如果想搜尋日本的和服相關資料,輸入關鍵字“和服”的時候,上面的資料也會被搜尋出來
搜尋引擎是第一步搜尋:
在浩瀚的信息中,快速集結最後可能是所想要的結果, 按照可能是最好的順序展現出來。
人的眼睛是第二步搜尋:
找尋最符合要求的結果,同時將機器無法輕易識別的少數“無效”結果過濾
“和服”問題,涉及了漢語語義的問題,幾乎不可完全解決(可作為“特例”解決,或通過排序方法,將他排到相對靠後等價解決)。

庖丁與IK性能比較

所用版本:
IKAnalyzer2.0.2 & paoding_analysis2.0.4alpha
測試環境
InterCore 1.8雙核,1G記憶體,XP,Java1.6Se
結果:
對長度為96256中文分詞:
IK-Analyzer:203ms 55296 單詞 272394詞/秒
paoding:94ms 47104單詞 501106詞/秒
對長度為3008中文分詞:
IK-Analyzer:31ms 1728單詞 55741詞/秒
paoding:15ms 1472單詞 98133詞/秒

版本

現在已經支持lucene3.0以上的版本了,在lucene官網的trunk目錄下。

相關詞條

熱門詞條

聯絡我們