歷史發展
1876年,電話機的發明使人類得以超越空間的限制進行交談,開始了語言通信的新時期。1904年,電子管的發明給電話通信提供了新的手段。放大器比加感應線圈對加長通話距離更有效;載波技術使一條線路可以進行多路通信。第二次世界大戰後,數位化技術帶來了許多新的通信方式,並產生了各種脈碼調製。但是,一般的電話通信是以波形原理為基礎的。這樣的高頻多路通信占用的頻帶很寬。1939年,人們發明了一種新的電話通信設備──聲碼器。它把語言信號加以分解,只傳送描述發音器官狀態的參數,並在收到參數後重新合成語言。聲碼器可以使語言信號電報化,所以不僅可以壓縮頻帶,而且有可能進行保密通信。語言通信的領域從人與人之間的通信,擴展到人與機器之間的通信。70年代以後,各種語言機器相繼出現。口呼數字識別的進展及計算機的口語輸入和輸出、自動應答設備、自動閱讀設備、語言理解系統等也都從試驗研究向實用化發展。此外,生理上有缺陷、喪失說話和聽話能力的人,藉助於助講裝置和助聽裝置也能參與語言通信。
分類
利用通信設備進行語言通信,需要對語言信號進行加工處理,例如能量轉換、濾波、放大、調製解調、量化、編碼解碼,以及各種數學變換。根據語言通信的工作原理,可以將語言通信技術分成三類。
波形處理
電話機輸出電流強度的變化,與語音合成的空氣密度的變化成正比。語言清晰度試驗研究表明,語言信號的波形可允許有較大的失真而不影響可懂度。自然語言的頻帶是100~10000赫或更寬,而電話語言的頻帶是 300~3400赫。採用調製解調或時間分割等技術,可以把電話語言分配在頻率域或時間域的不同位置上,形成多路語言通信。語言波形經過無限截幅,仍有很高的可懂度,從而產生了限幅單邊帶通信。根據採樣定理,對語言信號進行採樣,同時按照不同的方法加以量化,便形成了數位化語言通信(見數字通信)。
參數處理 傳送語言信號的波形,需要較寬的頻帶或較高的數碼率。電話語言占用頻帶300~3400赫,信噪比保持在30分貝時,要求數碼率約為30000比/秒,為實現多路通信和各種語言機器,都需要大幅度地壓縮電話語言的數碼率,把語言信號加以分解,並提取描述發音器官狀態的一套參數來加以傳送。發音器官的變化是緩慢的(大約10~20次每秒),所以表示發音器官特徵的參數也是緩變的。這些參數包括:①激勵聲源的狀態,是清音還是濁音,即是噪聲激勵還是周期脈衝激勵。如果是濁音,那聲帶振動的基頻是多少。②聲道的狀態,用聲道的面積函式或共振峰頻率來表示。
語言參數處理的典型套用,就是分析合成電話,即聲碼器。
信息處理 任何一種語言,都是語音按規則組成的序列,每一種語言都有其特定的語音規則和語法規則。這些規則構成了語言的內部信息。它可以提高語言通信的抗干擾能力,這是參與通信過程的發話人和受話人所起的作用。語言機器學會這些規則,不但比參數處理能更有效地壓縮數碼率,而且還可以產生一些新的通信方式。語音規則和超音段特徵描述了語音在語流中的相互影響和語意在語音上的體現。因此,只有考慮到這些因素,語言合成才能產生自然流暢的語言輸出。語法規則決定語言的組織結構,只有進行語法分析和語意分析才能構成語言理解系統。
語言通信的套用 隨著語言通信技術的發展,其套用也在不斷擴大。現代語言通信已遠遠超出一般電話業務的範圍。語言通信的套用,可以分為語言傳遞、語言分析合成、語言識別、語言轉換及助講助聽。
語言傳遞 把發話人或機器發出的語言信號,經由通信設備和媒質傳送給受話人或機器。在傳遞過程中對語言信號進行必要的處理,以提高語言通信的有效性和可靠性。從圖1可以看出,採用不同的處理方法,傳遞語言信號所需要的數碼率,大約是75~200000比/秒。為保護所傳遞的語言信息不被竊取,在傳遞過程中還可以加裝保密裝置。當語言信息不需要或不可能實時地傳遞給受話人時,可以把它存儲起來,需要時立即重放出來。存儲方式是磁錄聲和數位化存儲,後者更為經濟、方便。
語言分析合成 按照一定的處理方法,分析語言信號和提取必要的特徵參數,並用這些參數按照語音產生的模型合成語音的技術。語言分析合成技術有多方面的套用,可以說是現代化語言通信的技術基礎,其典型套用是語言分析合成電話,即聲碼器。它可以大幅度地壓縮通信頻帶,並且便於實現保密通信。語言分析合成可以利用語言參數進行經濟有效的存儲和重放。此外,還能做成自動語言應答系統,進行自動語言信息服務,如航班、火車時刻的自動查詢、市場報價等。人們可以用鍵盤提出詢問,應答系統用語言作出回答。普通的按鍵電話就可以接入這種系統。語言分析合成技術還可以改善在低劣條件下的語言通信質量,如潛水員在水下作業時的通話質量。此外,利用同態處理的方法,還可以消除混響對語言信號的影響。
語言識別 包括自動語音識別、發話人鑑定和發話人辨別。自動語音識別是一個既可以接受口語輸入,又能完成某種動作的系統。它可以把口語輸入列印成文字材料,也可以完成其他動作,如口呼電話自動接線、口呼自動郵件分揀等。在使用自動語音識別系統進行工作之前,使用人需要對這種系統進行訓練。所以它一般只適於專人套用,辭彙量也還有限。
發話人鑑定是根據發話人的請求,確認他是不是本人。發話人事先應把語言樣品存放在識別機內。當發話人提出請求,並發出已存作樣品的語音後,機器把當前的輸入與已存的樣品相比較,從而作出是與否的判斷。發話人辨別是從已存的所有語音參考樣品中,尋找出與發話人的語音最接近的樣品。其處理方法是,在語音的多維特徵空間中,對發話人的語音輸入與 N個參考樣品之間,做 N個距離測量,以找出最接近的那個樣品。發話人鑑定可以用於銀行的自動信貸業務。在某些國家,發話人鑑定還用於法庭審訊。
文-語轉換 把文字材料或鍵盤操作變換成自然語言輸出。這是一種高級的語言合成系統(圖4)。可以用光電輸入印刷符號,也可以用鍵盤打字輸入,機器可讀出輸入的內容。它與一般的語言合成不同,需要根據語音規則,把字母組合按單詞讀出來,並加上語調。它可用於為盲人讀書報的自動閱讀機和計算機的語言輸出等。
助講助聽 為生理上有缺陷的、不能講話和聽話的人提供的輔助手段,如將按圖說話圖板接入文-語轉換系統,可以幫助不能說話的人說話;觸覺聲碼器可通過觸覺幫助聾人聽話。其他尚有人工喉和電子耳蝸等助講和助聽手段。