人物經歷
1998年從湘潭師範學院中文系畢業,獲學士學位,愛好文學。
2002年從雲南師大畢業,獲碩士學位,主攻語言學。
2002-2005在教育部語用所從事計算語言學工作。
2005年畢業於北京語言大學中文信息處理專業,獲博士學位,主攻計算語言學。
研究方向
語料庫語言學、計算語言學、漢語移動學習、華語等語言科技方面的創新研究與軟體開發。
主要貢獻
出版專著1部,共發表CSSCI以上期刊論文40餘篇,其中12篇被3大索引檢索,主持國家社科基金一般項目2項、主持省部級項目4項(重大課題1項),參與國家級課題多項。
參編教材
《海外華文教師培訓教程》第七部分《現代華文教育技術》,2009。
學術專著
《詞語計算與套用》,暨南大學出版社,2010。
論文
1. 計算語言學
(1)新詞語發現:提出了一個基於網頁連結分析的新詞語發現與聚類的新算法,“中國語言生活狀況報告:年度新詞語”(2007、2008、2009、2010年,國家語委發布,商務印書館出版)連續四年採用了用此方法提取的新詞語。
(2)詞語聚類:基於任意語料,無需先驗知識,自動進行詞語聚類。該方法已用於分領域漢語教學用詞表建設、智慧型廣告。國家漢辦採用該方法構建的商務詞表作為《BCT商務漢語考試辭彙大綱》。
(3)短語方法:在理論上論證了漢語信息處理中短語優勢的理據,並利用文本分類的實驗證明之。
(4)語塊與搭配:基於“語塊”理論,在超大規模的語料庫中自動提取搭配,人工校對,構建大規模語塊教學資源。計算和研究搭配的類連線、語義韻等語言學特徵規律,用於漢語教學。
2. 語料庫語言學
建設了22億字的“全球華語語料庫 ”:海外華語媒體語料庫、華文教材語料庫、留學生作文語料庫、中國大陸分類語料庫、中國大陸小學生作文語料庫、漢語教材語料庫,已分詞標註詞性。教育部、“國家語言資源監測與研究中心”已利用該語料庫發布、出版了相關報告和論文,教育部語信司已採用該報告。
正在進行海外華語語言生活狀況調查及多媒體語言資源庫(個人、家庭、社區的口語語言生活場景錄音錄像)建設的研究。
完成“全球華語語料庫”網路版字詞檢索系統,完成“語料庫建庫統計一體化軟體”。
3. 中文信息處理、信息檢索
從大規模分類語料庫中智慧型挖掘關鍵字及其主題度作為領域知識,完成了一個綜合自動標引系統,集成文本分類、主題詞標引和自動文摘功能。該系統已套用於機械工業研究院等多家機構。
在輔助對外漢語教學中,如分領域分話題的對外漢語教學中,利用分類、關鍵字標引功能自動聚集某話題語料,同時,生成該話題的話題詞表,並進行話題對應常用句、詞語搭配、影視資源的研究。
4. 計算語言學輔助漢語(華語)及漢語教學研究
基於大規模語料庫、利用計算語言學方法輔助海外華語字詞調查研究,發表多篇論文和研究報告(《中國語言生活狀況報告》,國家語委發布,商務印書館出版)。