word分詞是一個Java實現的分散式的中文分詞組件,提供了多種基於詞典的分詞算法,並利用ngram模型來消除歧義。能準確識別英文、數字,以及日期、時間等數量詞,能識別人名、地名、組織機構名等未登錄詞。能通過自定義配置檔案來改變組件行為,能自定義用戶詞庫、自動檢測詞庫變化、支持大規模分散式環境,能靈活指定多種分詞算法,能使用refine功能靈活控制分詞結果,還能使用詞性標註、同義標註、反義標註、拼音標註等功能。同時還無縫和Lucene、Solr、ElasticSearch、Luke集成。
相關詞條
-
word分詞
Java分散式中文分詞組件 - word分詞
-
word[Java分散式中文分詞組件]
Java分散式中文分詞組件 - word分詞
-
中文分詞
中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成...
基本信息 算法分類 技術難點 套用 常見項目 -
五筆字型及Word排版基礎與提高
1.2.1 1.2.3 2.3.1
圖書信息 內容簡介 目錄 -
英語語法
介詞、分詞介詞 連詞conj. (conjunction) 用來連線詞與詞...沒有不定式、分詞等形式。感嘆詞感嘆詞是用來表示說話時表達的喜、怒、哀、樂...單獨充當謂語的動詞,可分為不定式、動名詞、現在分詞和過去分詞。3.分詞...
詞類和句類 詞語 時態 語態 語氣 -
Friso
14M】2。mmseg四種過濾算法,分詞準確率達到了98.41%。3。支持...匹配。11。自動停止詞過濾。分詞速度測試環境:2.8GHZ/2G... install2。分詞測試:運行如下命令來啟動friso測試程式:friso...
相關簡介 功能特色 分詞速度 軟體信息 使用方法 -
SCWS
Segmentation 的縮寫,即簡易中文分詞系統。 這是一套基於詞頻詞典的機械中文分詞引擎,它能將一整段的漢字基本正確的切分成詞。詞是漢語的基本...的分詞一直是中文分詞的攻關難點。 SCWS 在概念上其實並無創新成分...
簡介 特色與內容 版本情況 C語言範例 PHP調用範例 -
Lucene+nutch搜尋引擎開發
《Lucene+nutch搜尋引擎開發》是2008年人民郵電出版社出版的圖書。
版權資訊 編輯推薦 目錄 入門篇 目錄 核心揭秘篇 目錄 實戰篇 -
開源搜尋
索引PDF,Word,Excel,和PowerPoint文檔...的內容。Zilverline可以從PDF, Word, Excel...Database/Data source),或用於管理PDF,Word ...
說明 優點 歷史介紹 搜尋引擎