信息處理中心

簡介

是指用計算機對中文的音、形、義等信息進行處理和加工。中文信息處理是自然語言信息處理的一個分支,是一門與計算機科學、語言學、數學、信息學、聲學等多種學科相關聯的綜合性學科。信息處理技術在現代有廣泛的套用,從1980年代開始,中文信息處理進入了快速發展階段,並極大地提高了中文社會的信息處理效率。

中文信息處理分為漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。

中文信息處理的文字。不僅包括簡體漢字、繁體漢字,也包括藏文、蒙文、壯文、維吾爾文等大量少數民族的文字,還包括古漢語文字等。

研究內容

基礎研究:漢字字頻統計、詞頻統計、漢語自動分詞、句法屬性研究、漢字編碼字元集、通用漢字樣本庫、漢字屬性字典、語料庫等
輸入技術:中文輸入法、中文手寫輸入、中文語音輸入、文字識別等
輸出技術:漢字字模技術(字型庫)、漢字雷射照排、漢語語音合成等
存儲技術:漢字型檔標準等
轉換技術:繁簡轉換等
信息處理:中文情報檢索、中文文本校對、機器翻譯、自然語言理解、中文人機界面等

相關詞條

相關搜尋

熱門詞條

聯絡我們