歷史發展
早在一二千年以前,人們便對語言進行了研究。由於沒有適當的儀器設備,長期以來,一直是由耳傾聽和用口模仿來進行研究。因此,這種語言研究常被稱為“口耳之學”。所以對語聲只是停留在定性的描寫上。19世紀60年代,H·von亥姆霍茲套用聲學方法對元音和歌唱進行了研究,從而奠定了語言聲學的基礎。1876年電話的發明,以及電話通信的飛速發展,促進了語言信號的聲學特性及其與語言感知的關係的研究。電子技術的發展,為語聲的定量研究,提供了有力的手段。20世紀40年代,一種語言聲學的專用儀器──語圖儀問世了。它可以把語聲的聲學特徵用語圖表示出來,從而得出了“可見語言”。這對語言聲學的發展作出了重要貢獻。50年代對語言產生的聲學理論開始有了系統的論述。到了60年代語言聲學研究得到了計算技術的幫助,使得過去受人力、時間限制的大量的話聲統計分析工作,得以在電子計算機上進行。在此基礎上,語言聲學不論在基礎研究方面,還是在技術套用方面,都取得了突破性的進展。反過來,電子技術和計算技術的發展,又對語言聲學提出了新的課題。當前,計算機的語言輸入和語言輸出、自動應答裝置、自動語言識別、嗓音鑑別、語言理解系統等,都迫切需要對語言信號的許多基本問題作出新的解答。
40年代出現的語圖儀,可以把可聽的語言描繪成可見圖樣——語圖。這便是所謂“可見語言”。語圖可以表現語聲的三維特性,橫軸代表時間,縱軸代表頻率,而黑度代表強弱。語言頻譜顯示設備可以在一個電視螢幕上把說的話用語圖的形式顯示出來。此外,還發展了許多用於語言分析的專用軟體,以便於利用計算機進行語言分析。
用人工模擬語言產生的過程,以合成出語言來,供直接套用或進行研究。最初是用機械的方法來模擬人講話。在18世紀便做出了可以產生連續語言的機器。一直到20世紀30年代還在研製結構更為複雜的機械發聲裝置。它們所發出的語聲的音質都很不好。
1939年出現了所謂語言合成儀。它是用電子線路來模擬發聲器官的動作。其工作方式很像電子琴。一個受過訓練的人,可以用它“演奏”出可以聽懂的語言。另一種語言合成方法稱為語圖還音。把語圖用墨線畫在透明膠帶上,再用一個音輪調製線光源來照射走動的膠帶。根據膠帶透射過去的光通量的變化放出語聲來。由於在繪製語圖時改動方便,所以語圖還音裝置曾在語言合成中起過重要作用。
20世紀50年代開始採用傳輸線來模擬聲道。既可以整體模擬,也可以分段模擬。由一個適當的電源激勵,經過放大器和揚聲器,便可發出語聲來。改變傳輸線的參量,便可以發出不同的語聲。,利用電子計算機,根據語言產生的原理,把它寫成一些發聲規則和參量,再將其組合成語言。
自動語言識別的實現,面對著三個重大的語言聲學基礎課題:首先,語言知覺的基本單位是什麼,是音素、音節還是單詞;其次,是否存在音素的心理常量,如果有,它是什麼;最後,如何對連續語言進行分段。有限辭彙的、在一定條件下適用的自動語言識別裝置,已進入實際套用。適用於多數發話人的、不怕環境噪聲干擾的和無限辭彙的自動語言識別系統還有待於大量的基礎研究。
產生
主要研究發聲器官產生語聲的聲學過程及聲學特性。根據聲學觀點,語言的產生可分成三個部分:聲源激勵、聲道調製和聲波輻射。其中決定語聲性質的是聲源激勵和聲道調製。語言產生的研究內容包括:激勵聲源的特性、發聲器官的工作狀態和聲道的聲學性質等。所採用的研究方法,大多是用電-力-聲類比的方法,以建立聲帶波產生的模型、聲道模型和語言產生的參量模型。
在聲學理論的指導下,自50年代以後,對語聲描寫從定性走向定量。實驗表明,由聲道形狀決定的共振峰,是主要的信息要素。從語聲中準確地分離出聲源特性和聲道調製特性來,還存在許多困難。為研究語言的產生,除對語聲的物理特性進行研究之外,還對發聲生理進行研究,如利用肌電圖配合聲學測量,來研究發聲器官的肌肉活動(見生理聲學)。
研究方法
語言分析是用分析的方法來研究語言的自然特性。主要內容是:分析語聲的時間特性和頻率特性,以及發聲器官的發聲分析。語聲的時間特性和頻率特性包括:波形、長度、強度隨時間的變化、短時間相關函式和功率譜、短時頻譜分析、長時平均功率譜、共振峰分析和基頻分析等(見聲譜分析)。在說話時,語聲是處在語流之中的。
從一個短暫的時間視窗去觀察語聲的聲學特性,便是短時頻譜分析,而長時平均頻譜則表示語言的統計平均特性。共振峰分析,是根據語音的頻譜和語言產生的原理,推算出聲道的共振頻率。基頻分析,是從語言波中提取出聲帶振動的基本頻率,其方法既可以是測量基頻本身,也可以是利用諧波來求出基頻。基頻隨時間的變化方式,構成了聲調和語調,它們是重要的語聲特徵。在專用的語言分析設備問世以前,曾採用浪紋計和示波器分析語言波形,以後又使用濾波器組或頻率分析儀。但是,對於大量的多變的語聲來說,這些分析方法都有很大的局限性。因此,對語言特性的認識也受到一定的限制。40年代出現的語圖儀,可以把可聽的語言描繪成可見的圖樣──語圖。這便是所謂“可見語言”(見彩圖)。
語圖可以表現語聲的三維特性,橫軸代表時間,縱軸代表頻率,而黑度代表強弱。語言頻譜顯示設備可以在一個電視螢幕上把說的話用語圖的形式顯示出來。此外,還發展了許多用於語言分析的專用軟體,以便於利用計算機進行語言分析。
語言合成用人工模擬語言產生的過程,以合成出語言來,供直接套用或進行研究。最初是用機械的方法來模擬人講話。在18世紀便做出了可以產生連續語言的機器。一直到20世紀30年代還在研製結構更為複雜的機械發聲裝置。它們所發出的語聲的音質都很不好。1939年出現了所謂語言合成儀(voder)。它是用電子線路來模擬發聲器官的動作。其工作方式很像電子琴。
一個受過訓練的人,可以用它“演奏”出可以聽懂的語言。另一種語言合成方法稱為語圖還音。把語圖用墨線畫在透明膠帶上,再用一個音輪調製線光源來照射走動的膠帶。根據膠帶透射過去的光通量的變化放出語聲來。由於在繪製語圖時改動方便,所以語圖還音裝置曾在語言合成中起過重要作用。20世紀50年代開始採用傳輸線來模擬聲道。既可以整體模擬,也可以分段模擬。由一個適當的電源激勵,經過放大器和揚聲器,便可發出語聲來。改變傳輸線的參量,便可以發出不同的語聲。利用電子計算機,根據語言產生的原理,把它寫成一些發聲規則和參量,再將其組合成語言。這種按規則的語言合成,已做出了由文字合成語言的系統。使用者按鍵輸入文字,機器便發出比較自然的語言。合成具有個人特徵的語言還在研究中。語言合成技術已經用在或準備用在下述方面:自動應答裝置、股票報價、查詢電話號碼、貨物清單報告等。此外,語言合成還可以用來檢驗分析所得到的參量,哪些參量比較重要、參量變化了會有什麼影響。
自動語言識別是根據語言信號的聲學待征,有時加上語言的結構規則和語意線索,由機器認出輸入的語言來。可以根據使用要求,由機器以不同的方式作出回響,如列印出與該語聲相應的文字、符號,完成規定的動作等。它分為孤立單詞自動識別和連續語言自動識別。自20世紀50年代開始系統而廣泛的研究。對單個人小量辭彙(例如200個詞)的自動識別已取得了較大的進展;但是,很快便在更換髮話人和擴大辭彙容量方面遇到了困難。
自動語言識別的實現,面對著三個重大的語言聲學基礎課題:①語言知覺的基本單位是什麼,是音素、音節還是單詞;②是否存在音素的心理常量,如果有,它是什麼;③如何對連續語言進行分段。經過一個低潮以後,由於計算技術,特別是語言聲學基礎研究和信號處理技術的發展,到了70年代自動語言識別又獲得了新的進展,並開始進入了一個更高的發展階段──連續語言自動識別。,有限辭彙的、在一定條件下適用的自動語言識別裝置,已進入實際套用。可以接受口令輸入的電子計算機,正在研究發展中。適用於多數發話人的、不怕環境噪聲干擾的和無限辭彙的自動語言識別系統還有待於大量的基礎研究。
嗓音鑑別
也稱為發話人鑑別,它包括兩個方面:發話人鑑定和發話人辨別。發話人鑑定是根據發話人已存貯的嗓音(口聲)材料與發話人現時提供的材料相比較,鑑定是不是發話人本人在說話。這可用於銀行業務中,存款人用嗓音代替印鑑,以便於通過電話來辦理存取手續。發話人辨別是從大量的已存的嗓音樣本中,辨別出哪一個與發話人的嗓音最相似或者與它們都不相似。與自動語言識別不同,嗓音鑑別在於利用語聲當中代表發話人個性特徵的部分,而自動語言識別則是利用不同發話人或同一發話人在不同時刻發同一語聲時的共性特徵。嗓音鑑別多採用聽音—看圖法,即由有訓練的專業人員審聽嗓音材料、檢視語圖特徵──聲紋,以作出判斷,藉助電子計算機進行自動嗓音鑑別也正在發展中。嗓音鑑別已在法律程式中作為一種證據使用。聲碼器
是一種自動分析—合成電話系統。它在傳送端把語言信號加以分析,提取出負載信息的諸參量加以編碼傳送,在接收端經解碼後,再用這些參量去調製本地激勵源,合成出原傳送的語言信號。這種方法不但可以大量壓縮語言信號在傳遞過程中占有的信號容量,還可以賦予語言通信保密能力。
2400b/s(比特/秒)的聲碼器已被普遍套用,數碼率更低(到800b/s)的已有發展。聲碼器是H.達德利在1939年發明的。由於語音質量較差、體積龐大、造價高昂,以致很長時間未能獲得廣泛套用。套用大規模積體電路做成的聲碼器,已可隨身攜帶,其音質與普通電話相仿。因而不只可用於政府首腦通信和軍事通信,而開始進入商用通信。根據工作原理,聲碼器分為:通道聲碼器、半聲碼器(語聲激勵聲碼器)、相關聲碼器、諧和聲碼器、共振峰聲碼器、線性預測聲碼器和同態聲碼器等多種,發展較多的是通道聲碼器和線性預測聲碼器。用聲碼器來壓縮語言信號的數碼率,是實現人—機對話的重要手段。一個中國設計的通道聲碼器的方框圖示於上圖。
評價
是對任一種語言通信或處理系統輸出的語言質量作出評價和診斷,以評定和改進語言通信。由於語言通信系統是包括發話人和收話人以及傳遞、處理設備在內的一個整體(信號源是發話人的發聲器官,接收器是收話人的聽覺器官),因此在對語言通信質量進行評價時,必然涉及到發聲器官和聽覺器官的特性。語言清晰度試驗是進行語言質量評價的重要方法。它已發展成為研究語言和聽覺以及通信系統的一種心理—物理方法。語言清晰度試驗,採用經過專門設計的語言材料(音節表、詞表和句表),經由受過訓練的試驗隊進行。清晰度試驗得分是,在一定傳遞條件下,正確接收的語言單位數占傳送總數的百分比。各種失真和干擾對模擬通信系統的影響,已經進行了系統的研究。根據語言通信系統的工作特性通過清晰度指數AI的計算,來預測音節清晰度,進而推算出單詞可懂度和單句可懂度,這稱之為可懂度理論。由於輔音容易受傳遞條件的影響,為評價和診斷語言信號處理系統的工作,也可按照輔音的區別特徵設計診斷用的押韻試驗。這種試驗不但給出總的輔音清晰度,還可以給出各區別特徵的清晰度;它既包括某一區別特徵錯成其他特徵的百分數,又考慮其他特徵誤聽成該特徵的百分數。此外,美國電氣和電子工程師協會(IEEE)還推薦了一些相對指標和對比測試方法。國際電報電話諮詢委員會(CCITT)第十二研究組建議採用參考當量,並將其逐步過渡到響度評定值,作為評價電話傳遞質量的指標。
相關學科
次聲學、超聲學、電聲學、大氣聲學、音樂聲學、建築聲學、生理聲學、生物聲學、水聲學、物理學、力學、熱學、光學、聲學、電磁學、核物理學、固體物理學。
物理學
力學 | 靜力學 | 動力學 | 流體力學 |分析力學 | 運動學 | 固體力學 | 材料力學 | 複合材料力學 | 流變學 | 結構力學 | 彈性力學 | 塑性力學 |爆炸力學 | 磁流體力學 |空氣動力學 | 理性力學 | 物理力學 | 天體力學 | 生物力學 | 計算力學 |
熱學 | 熱力學 |
光學 | 幾何光學 | 波動光學 | 大氣光學 | 海洋光學 | 量子光學 | 光譜學 | 生理光學 | 電子光學 | 集成光學 | 空間光學 |
聲學 | 次聲學 | 超聲學 | 電聲學 | 大氣聲學 | 音樂聲學 | 語言聲學 | 建築聲學 | 生理聲學 | 生物聲學 | 水聲學 |
電磁學 | 磁學 | 電學 | 電動力學 |
量子物理學 | 量子力學 | 核物理學 | 高能物理學 | 原子物理學 | 分子物理學 |
固體物理學 | 高壓物理學 |金屬物理學 | 表面物理學 |