LJParser文本搜尋與挖掘開發平台包括:全文精準搜尋,新詞發現,漢語分詞標註,詞語統計與術語翻譯,自動聚類與熱點發現,分類過濾,自動摘要,關鍵字提取,文檔去重,正文提取等十餘項功能。針對網際網路內容處理的需要,融合了自然語言理解、網路搜尋和文本挖掘的技術,提供了用於技術二次開發的基礎工具集。開發平台由多箇中間件組成,各箇中間件API可以無縫地融合到客戶的各類複雜套用系統之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同作業系統平台,可以供Java,C,C#等各類開發語言使用。
LJParser是一套專門針對原始文本集進行處理和加工的軟體,提供了中間件處理效果的可視化展示,也可以作為小規模數據的處理加工工具。用戶可以使用該軟體對自己的數據進行處理。
二、功能
LJParser文本搜尋與挖掘開發平台的十大功能:
1. 全文精準檢索
支持文本、數字、日期、字元串等各種數據類型,多欄位的高效搜尋,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文本處理系統與資料庫系統融合。
2. 新詞發現:
從檔案集合中挖掘出內涵的新詞語列表,可以用於用戶專業詞典的編撰;還可以進一步編輯標註,導入分詞詞典中,從而提高分詞系統的準確度,並適應新的語言變化。
3. 分詞標註:
對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標註以及詞性標註。並可在分析過程中,導入用戶定義的詞典。
4. 統計分析與術語翻譯
針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計(統計兩個詞左右連線的頻次即機率)。針對常用的術語,會自動給出相應的英文解釋。
5. 文本聚類及熱點分析
能夠從大規模數據中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文本和簡訊、微博等短文本的熱點分析。
6. 分類過濾
針對事先指定的規則和示例樣本,系統自動從海量文檔中篩選出符合需求的樣本。
7. 自動摘要
能夠對單篇或多篇文章,自動提煉出內容的精華,方便用戶快速瀏覽文本內容。
8. 關鍵字提取
能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的辭彙或短語,可用於精化閱讀、語義查詢和快速匹配等。
9. 文檔去重
能夠快速準確地判斷檔案集合或資料庫中是否存在相同或相似內容的記錄,同時找出所有的重複記錄。
10. HTML正文提取
自動剔除導航性質的網頁,剔除網頁中的HTML標籤和導航、廣告等干擾性文字,返回有價值的正文內容。適用於大規模網際網路信息的預處理和分析。
三、檔案說明
1. LJParser.exe 執行檔,本版本為試用版本,大規模語料處理需要購買正式版
2. 演示語料 演示用語料,用戶可替換,必須為文本檔案,演示只支持GBK;正式版本可以支持UTF-8編碼;
3. 各種dll為各組件的調用接口,本演示程式全部基於已有的調用接口實現;
4. 文檔說明,參見當前目錄下的
5. 白皮書下載:http://www.lingjoin.com/download/LJParser%20Manual.doc
6. 軟體下載:http://www.lingjoin.com/download/LJParser.rar