簡介
本教材從“基礎”“算法”和“套用”三個方面,較為系統地介紹計算語言學的基礎理論、相關的自然語言處理技術和套用。
基礎部分(包括一、二、三章)主要講述計算語言學的數學和語言學基本概念,計算語言學和自然語言處理技術的關係,自然語言處理的基本流程等內容。此外,作為計算語言學的重要分支之一,語料庫語言學得到了較大發展,有關語料庫語言學的基礎概念、基本理論、近年來的一些發展概況在第三章中加以介紹。介紹這部分內容的目的,是讓讀者在不涉及技術細節的情況下,對計算語言學有一個初步的,同時也是較為全面的理解和掌握。
算法部分(包括第四、五章)主要介紹計算語言學的常用技術和算法。從處理對象來講,主要包括詞法層面的分析技術、句法層面的分析技術和語義層面的處理技術;從處理方法來講,既有傳統的規則方法,也有基於語料庫的統計方法的介紹。這部分內容的主旨是希望通過本章學習後,使學生能對計算語言學的領域中的一些主流技術(比如隱馬爾可夫模型在詞性標註中的套用,GLR算法,部分分析技術等)有一個概要的認識,並能運用這些技術進行計算語言學相關的工作實踐。
套用部分(包括第六、七章)主要講授自然語言處理套用系統。需要說明的是,基於語言信息處理技術的套用系統很多,本教材只是重點介紹一些常見的系統,介紹這些系統的工作機理、發展、取得的成績,也客觀介紹這些系統存在的問題和困難。主要包括機器翻譯系統,信息檢索系統、信息提取系統,文本分類系統等。
目錄
第一章緒論:什麼是計算語言學
第一節計算語言學的研究對象
第二節計算語言學的研究方法
第三節計算語言學的實際套用
第四節小結
第二章語言知識的形式化表達
第一節語言與語言知識
第二節形式化表達手段
第三節語法知識的形式化表述理論體系
第四節語義知識的形式化表述理論體系
第五節語篇知識的形式化表述理論體系
第六節小結
第三章語料庫:語言知識的另一種表示形式
第一節語料庫研究概況
第二節語料的收集與加工
第三節語料庫的套用
第四節小結
第四章詞法分析
第一節概述
第二節“詞”的識別
第三節詞性標註
第四節詞義標註
第五節小結
第五章句法分析
第一節句法分析導引
第二節廣義LR分析算法
第三節基於線圖的分析技術
第四節其他句法分析技術
第五節小結
第六章機器翻譯
第一節機器翻譯概述
第二節基於規則的機器翻譯
第三節基於語料庫的機器翻譯以及混合式機器翻譯
第四節機器翻譯的困難、對策和評價
第五節小結
第七章面向文本的智慧型信息處理
第一節信息檢索
第二節信息提取
第三節文本自動分類
第四節小結
術語表
後記