概況
研究所招收具有計算機套用和套用語言學背景的碩士研究生、博士研究生,並接受國內外高級進修生,致力於學科交叉發展,培養掌握自然語言處理理論和技術的高級專門人才。
歷史:
始建於1987年,研究所第一任所長是馬希文教授(1987年),第二任所長是張普教授(1987年-2001年),第三任所長是宋柔教授(2001年至今)。1990年代曾 先後設立5個研究室或教研室:辦公自動化研究室、基礎理論研究室、CAI研究室、現代遠程教育研究室、計算機基礎課教研室,並籌建計算機套用系統研究室、古籍整理研究現代化技術研究室。隨著學校規模擴大,現代遠程教育研究室發展成 網路教育學院,CAI研究室的主要人員成為對外漢語研究中心CAI研究骨幹, 計算機基礎課教研室發展成為計算機科學與技術系的計算機基礎教研室。2001年年底研究所的行政管理歸入計算機系,2003年4月歸入信息科學學院。
發表文章
[1]宋柔. 統計和規範中的誤區,中文信息處理的若干重要問題,科學出版社,2003,11
[2]宋柔. 計算機輔助漢語校對系統,當代語言學,2001.No.1
[3]宋柔,尚英,趙瑾. 簡單短語及線性鄰接屬性研究,對外漢語教學國際研討會, 北京,2004.11
[4]宋柔,樊太志,岳炳詞. 面向語言教學研究的漢語語料檢索系統CCRL 及其套用,第七屆國際漢語教學討論會論文集,上海,2002.8.
[5]婁珽,宋柔,李衛亮,羅智勇. 現代漢語分詞系統通用接口設計與實現,中文信息學報,2001.No.5
[6]魯松,宋柔. 漢英機器翻譯中描述型複句的關係識別與處理,軟體學報,Vol. 12, No.1, 2001.pp83-93.
[7]許勇,荀恩東,賈愛平,宋柔. 基於互連網的術語定義獲取系統. 中文信息學報. 2004, 18(4): 37-43.
[8]許勇,宋柔. 基於CRF的百科全書文本段落劃分,計算機工程,2007年7月.
[9]婁珽,宋柔,李衛亮,羅智勇. 現代漢語分詞系統通用接口設計與實現. 中文信息學報. 2001.No.5
[10]XUN Endong ,Huang hangning, A unified statistical model for identification of English baseNP, 2000 Annual computing linguistics
[11]XUN Endong. Extract Chinese Term definition from database and Internet, the 6th East Asia Forum on Terminology, 2003.
[12]荀恩東,錢揖麗,套用二叉樹剪枝識別韻律短語邊界,2006,中文信息學報,第三期
[13]荀恩東,顏偉,基於語義網計算英語詞語相似度,2005,情報學報,第一期
[14]荀恩東,宋柔,非母語寫作水平自動評測,2006, 哈佛大學漢語書面語研討會
[15]羅智勇,宋柔:現代漢語自動分詞中專名的一體化、快速識別方法,2001 International Conference of Chinese Computing(ICCC’2001),Singapore,2001.11
[16]羅智勇,宋柔.現代漢語通用分詞系統中歧義切分技術.計算機研究與發展. 2006,43(6):1122-1128
[17]羅智勇,宋柔.基於多特徵的自適應新詞識別.北京工業大學學報.2007年6月
[18]羅智勇,宋柔.一種基於可信度的人名識別方法.中文信息學報.2005,19(3):67-86
[19]Luo Zhiyong, Song Rou. An Integrated Method for Chinese Unknown Word Extraction. Proceedings of the Third SIGHAN Workshop on Chinese Language Learning, Barcelona, Spain, 2004:148-155
科研項目
面向百科辭典的知識提取技術 | 國家“863計畫” | 2001.10~2003.12 |
面向語言信息智慧型接口的線性文法研究 | 國家自然科學基金 | 2002.1~2002.12 |
線性文法及其在智慧型信息處理中的套用 | 國家自然科學基金 | 2003.1~2005.12 |
基於詞語相似關係的統計數據平滑研究 | 國家自然科學基金 | 2006.1~2007.12 |
非母語寫作水平計算機自動評測技術研究 | 國家自然科學基金 | 2006.1~2007.1 |
多語言基礎資源庫研製與共享 | 國家“863計畫”重點項目 | 2007.5~2009.12 |
詞典文本知識自動提取研究 | 教育部科學技術研究重點項目 | 2001.1~2003.12 |
面向對外漢語教學的多媒體資源庫及檢索分析工具研究 | 教育部人文社會科學基地重大項目 | 2002.12~2004.12 |
術語標準的輔助編寫及信息服務系統研究 | 中國標準化研究院 | 2003.9~2005.10 |
自然科技資源信息共享及服務平台 | 中國標準化研究院 | 2005.3~2005.12 |
國際標準術語資料庫開發 | 中國標準化研究院 | 2005.6~2005.12 |
中文語音合成前段分析 | 富士通研究院 | 2005.6~2005.12 |
基於可信度的漢語命名實體識別研究 | 教育部科學技術研究重點項目 | 2007.1~2009.12 |
英漢機器翻譯中樹庫構建 | 東芝研究院 | 2005.9~2008.3 |
人物資料抽取 | 香港慧科訊業有限公司 | 2007.3~2007.7 |