基本信息
作者:俞士汶
全書三部分:基礎部分、算法部分、套用部分。本書系統的介紹了計算語言學的數學和語言學基本概念、計算語言學的常用技術和算法以及自然語言處理套用系統。
內容概述
基礎部分
基礎部分(包括一、二、三章)主要講述計算語言學的數學和語言學基本概念,計算語言學和自然語言處理技術的關係,自然語言處理的基本流程等內容。此外,作為計算語言學的重要分支之一,語料庫語言學得到了較大發展,有關語料庫語言學的基礎概念、基本理論、近年來的一些發展概況在第三章中加以介紹。介紹這部分內容的目的,是讓讀者在不涉及技術細節的情況下,對計算語言學有一個初步的,同時也是較為全面的理解和掌握。算法部分
算法部分(包括第四、五章)主要介紹計算語言學的常用技術和算法。從處理對象來講,主要包括詞法層面的分析技術、句法層面的分析技術和語義層面的處理技術;從處理方法來講,既有傳統的規則方法,也有基於語料庫的統計方法的介紹。這部分內容的主旨是希望通過本章學習後,使學生能對計算語言學的領域中的一些主流技術(比如隱馬爾可夫模型在詞性標註中的套用,GLR算法,部分分析技術等)有一個概要的認識,並能運用這些技術進行計算語言學相關的工作實踐。
套用部分
套用部分(包括第六、七章)主要講授自然語言處理套用系統。需要說明的是,基於語言信息處理技術的套用系統很多,本教材只是重點介紹一些常見的系統,介紹這些系統的工作機理、發展、取得的成績,也客觀介紹這些系統存在的問題和困難。主要包括機器翻譯系統,信息檢索系統、信息提取系統,文本分類系統等。本教材從“基礎”“算法”和“套用”三個方面,較為系統地介紹計算語言學的基礎理論、相關的自然語言處理技術和套用。
作者簡介俞士汶,男,1938年12月出生,安徽宣城人,漢族。1964年畢業於北京大學數學力學系。之後,一直在北大從事計算機學科的研究與教學工作。現任北京大學信息科學技術學院教授、計算語言學研究所學術指導委員會主席。兼任中國中文信息學會和中國語文現代化學會常務理事、全國標準化技術委員會委員和三分會主任、新加坡《漢語語言與計算學報》聯合主編等職。主持了多個國家973重點基礎研究項目、國家863高技術項目、國家重點科技攻關項目、國家自然科學基金項目、國家社會科學基金項目以及國際、兩岸合作項目。發表論文140多篇,著作8本。《現代漢語語法信息詞典》等研究成果有廣泛影響。得到政府部門和北京大學的多項獎勵和表彰。培養了數十名計算語言學領域的博士生、碩士生,也與一批博士後和訪問學者進行了合作研究。
出版信息
出版社:商務印書館
ISBN:9787100037969
出版時間:2003-09-01
版次:1
頁數:357
裝幀:平裝
目錄
第一章緒論:什麼是計算語言學
第一節計算語言學的研究對象
第二節計算語言學的研究方法
第三節計算語言學的實際套用
第四節小結
第二章語言知識的形式化表達
第一節語言與語言知識
第二節形式化表達手段
第三節語法知識的形式化表述理論體系
第四節語義知識的形式化表述理論體系
第五節語篇知識的形式化表述理論體系
第六節小結
第三章語料庫:語言知識的另一種表示形式
第一節語料庫研究概況
第二節語料的收集與加工
第三節語料庫的套用
第四節小結
第四章詞法分析
第一節概述
第二節“詞”的識別
第三節詞性標註
第四節詞義標註
第五節小結
第五章句法分析
第一節句法分析導引
第二節廣義LR分析算法
第三節基於線圖的分析技術
第四節其他句法分析技術
第五節小結
第六章機器翻譯
第一節機器翻譯概述
第二節基於規則的機器翻譯
第三節基於語料庫的機器翻譯以及混合式機器翻譯
第四節機器翻譯的困難、對策和評價
第五節小結
第七章面向文本的智慧型信息處理
第一節信息檢索
第二節信息提取
第三節文本自動分類
第四節小結
術語表
後記