ICTCLAS簡介
ICTCLAS特色一、國內和國際權威的公開評測、三萬客戶的認可
有些公司為了商業目的,關門自測,自稱準確度99.50%,沒有介紹測試環境和測試方法,封閉測試或者小規模的開放測試準確度100%都不足為奇的,ICTCLAS1.0在國內973專家組組織的評測中活動獲得了第一名,ICTCLAS2.0在第一屆國際中文處理研究機構SigHan組織的評測中都獲得了多項第一名,具體的參見系統評測部分。這些都是權威機構進行大規模現場開放測試的結果,真實可信。
目前,ICTCLAS已經向國內外的企業和學術機構頒發了30,000多份授權,其中包括3721、NEC、中華商務網、矽谷動力、雲南日報等企業,新疆大學、清華大學、華南理工、麻省大學;同時,ICTCLAS廣泛地被《科學時報》、《人民日報》海外版、《科技日報》等多家媒體報導。您可以訪問Google進一步了解ICTCLAS的套用情況。
二、綜合性能最優
分詞系統能否達到實用性要求主要取決於兩個因素:分詞精度與分析速度,這兩者相互制約,難以平衡。大多數系統往往陷入“快而不準,準而不快”的窘境。我們研製出了完美PDAT大規模知識庫管理技術(200510130690.3),在高速度與高精度之間取得了重大突破,該技術可以管理百萬級別的詞典知識庫,單機每秒可以查詢100萬詞條,而記憶體消耗不到知識庫大小的1.5倍。基於該技術,ICTCLAS3.0分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數據壓縮後不到3M,是當前世界上最好的漢語詞法分析器。
三、統一的語言計算理論框架
漢語分詞牽涉到漢語分詞、未定義詞識別、詞性標註以及語言特例等多個因素,大多數系統缺乏統一的處理方法,往往採用鬆散耦合的模組組合方式,最終模型並不能準確有效地表達千差萬別的語言現象,而ICTCLAS採用了層疊隱馬爾可夫模型(Hierarchical Hidden Markov Model),將漢語詞法分析的所有環節都統一到了一個完整的理論框架中,獲得最好的總體效果,相關理論研究發表在頂級國際會議和雜誌上,從理論上和實踐上都證實了該模型的先進性。
四、全方位支持各種環境下的套用開發
ICTCLAS全部採用C/C++編寫,支持Linux、FreeBSD及Windows系列作業系統,支持C/C++/C#/Delphi/Java等主流的開發語言。
五、應需而變,量身定做
所有功能模組均可拆卸組裝,ICTCLAS有GB2312和BIG5版本,可分別處理目簡繁體中文;支持當前廣泛承認的分詞和詞類標準,包括計算所詞類標註集ICTPOS3.0,北大標準、濱州大學標準、國家語委標準、台灣“中研院”、香港“城市大學”;用戶可以直接自定義輸出的詞類標準,定義輸出格式;用戶可以根據自己的需求,進行量身自助式定做適合自己的分詞系統。
六、ICTCLAS的性能評估
ICTCLAS在973評測中的測試結果
2002年7月6日,ICTCLAS參加了國家973英漢機器翻譯第二階段的開放評測,測試結果如下:
領域 | 詞數 | SEG | TAG1 | RTAG |
體育 | 33,348 | 97.01% | 86.77% | 89.31% |
國際 | 59,683 | 97.51% | 88.55% | 90.78% |
文藝 | 20,524 | 96.40% | 87.47% | 90.59% |
法制 | 14,668 | 98.44% | 85.26% | 86.59% |
理論 | 55,225 | 98.12% | 87.29% | 88.91% |
經濟 | 24,765 | 97,80% | 86.25% | 88.16% |
總計 | 208,213 | 97,58% | 87.32% | 89.42% |
說明:
1、數據來源:國家973英漢機器翻譯第二階段評測的評測總結報告
2、標註相對正確率RTAG=TAG1/SEG*100%
3、由於我們採取的詞性標註集和973專家組的標註集有較大出入,所以詞性標註的正確率不具可比性
4、專家組的開放評測結果表明:基於HHMM的ICTCLAS能實際的解決漢語詞法分析問題,和兄弟單位的類似系統對比,ICTCLAS的分詞結果表現出色
第一屆國際分詞大賽的評測結果
為了比較和評價不同方法和系統的性能,第四十一屆國際計算語言聯合會(41st Annual Meeting of the Association for Computational Linguistics, 41th ACL )下設的漢語特別興趣研究組(the ACL Special Interest Group on Chinese Language Processing, SIGHAN;於2003年4月22日至25日舉辦了第一屆國際漢語分詞評測大賽(First International Chinese Word Segmentation Bakeoff)[28]。報名參賽的分別是來自於大陸、台灣、美國等6個國家和地區,總計19家研究機構,最終提交結果的是12家參賽隊伍。
大賽採取大規模語料庫測試,進行綜合打分的方法,語料庫和標準分別來自北京大學(簡體版)、賓州樹庫(簡體版)、香港城市大學(繁體版),台灣“中央院” (繁體版)。每家標準分兩個任務(Track):受限訓練任務(Close Track)和非受限訓練任務(Open Track)。
ICTCLAS分別參加了簡體的所有四項任務,和繁體的受限訓練任務。其中在賓州樹庫受限訓練任務中綜合得分0.881[28],名列第一;北京大學受限訓練任務中綜合得分0.951[28],名列第一;北京大學受限訓練任務中綜合得分0.953[28],名列第二。值得注意的是,我們在短短的兩天之內,採取ICTCLAS簡體版的核心代碼,將多層隱馬模型推廣到繁體分詞當中,同樣取得了0.938[28]的綜合得分。
ICTCLAS3.0的評測結果
我們利用了《人民日報》1998年1月的新聞純文本語料進行開放測試,ICTCLAS3.0測試的精度與速度如
開放測試一 開放測試二 開放測試三
功能描述 分詞 分詞+命名實體與新詞識別 分詞+命名實體與新詞識別+詞性標註
測試檔案大小 4,092,478 Bytes 4,092,478 Bytes 4,092,478 Bytes
時間(s) 4.094000 6.467561 9.094001
核心數據所占記憶體 5.5MB 7.2MB 8.9MB
速度 999.63 KB/s 632.77 KB/s 450.02 KB/s
精度 分詞精度:96.56% 分詞精度:98.13% 分詞精度:98.13% 詞性標註精度:94.63%
說明:
1. 測試機器配置:CPU: PIV3.0G;記憶體:512M;
2. 分詞精度指的是正確切分的詞數占正確結果總詞數的百分比;詞性標註精度指的是切分與詞性標註均正確的詞數占正確結果總詞數的百分比。
3. 開放測試:指的是測試樣本不屬於訓練樣本集合,否則稱為封閉測試;封閉測試相當於考試試題都出自於學習過的書本,這種測試並沒有實質意義,而往往有一些商家故意混淆視聽,以封閉測試來冒充開放測試,製造準確率99.5%的噱頭,實際上,通過機械記憶小樣本的封閉測試取得100%的精度不存在任何問題。這一點特別提請用戶注意。
ICTCLAS官方網站提供所有的代碼接口支持,官方文檔聲稱支持Delphi接口,但是在5.0即2011版本中難覓Delphi接口檔案,對於Delphi的支持只能由開發人員自己基於C的dll檔案編寫頭檔案實現。在實現過程中發現ICTCLAS的官方文檔相對混亂,出現代碼與接口文檔不一致的情況,如果按照文檔接口去聲明Delphi 2010/2011 的dll頭檔案,多會出錯。只有按照其調試通過的C Demo程式改寫才有效,csdn上有調試通過的Delphi2010/2011的ICTCLAS5.0的頭檔案,需要的開發人員可以通過百度搜尋“ICTCLAS Delphi“下載使用。