mmseg4j用Chih-Hao Tsai 的MMSeg算法實現的中文分詞器,並實現lucene的analyzer和solr的TokenizerFactory以方便在Lucene和Solr中使用。 MMSeg 算法有兩種分詞方法:Simple和Complex,都是基於正向最大匹配。Complex加了四個規則過慮。官方說:詞語的正確識別率達到了 98.41%。mmseg4j已經實現了這兩種分詞算法。