語音技術

語音技術

 語音技術在計算機領域中的關鍵技術有自動語音識別技術(ASR)和語音合成技術(TTS)。

讓計算機能聽、能看、能說、能感覺,是未來人機互動的發展方向,其中語音成為未來最被看好的人機互動方式,語音比其他的互動方式有更多的優勢。

最早的語音技術因“自動翻譯電話”計畫而起,包含了語音識別、自然語言理解和語音合成三項非常主要的技術。語音識別的研究工作可以追溯到20世紀50年代AT&T貝爾實驗室的Audry系統,此後研究者們逐步突破了大辭彙量、連續語音和非特定人這三大障礙。

讓計算機說話需要用到語音合成技術,其核心是文語轉換技術(TexttoSpeech),語音合成甚至已經套用到汽車的信息系統上,車主可以將下載到系統電腦中的文本檔案、電子郵件、網路新聞或小說,轉換成語音在車內收聽。

語音識別和語音技術是實現人機語音通信,建立一個有聽和講能力的口語系統所必需的兩項關鍵技術.使電腦具有類似於人一樣的說話和聽懂人說話的能力,是90年代信息產業的重要競爭市場.和語言識別相比,語言合成的技術相對說來要成熟一些,是該領域中近期最有希望產生突破並形成產業化的一項技術.
語言合成或者讓計算機說話包含著二個方面的可能性:一是機器能再生一個預先存入的語音信號,就象普通的錄音機一樣,不同之處只是採用了數字存儲技術.簡單地將預先存入的單音或詞組拼接起來也能作到"機器開口",但是"一字一蹦",機器味十足,人們很難接受.然而如果預先存入足夠的語音單元,在合成時採用恰當的技術手段挑選出所需的語音單元拼接起來,也有可能生成高自然度的語句,這就是波形拼接的語音合成方法.為了節省存儲容量,在存入機器之前還可以對語音信號先進行數據壓縮.另一種可能是採用數位訊號處理的方法,將人類發聲過程看作是一個模擬聲門狀態的源,去激勵一個表征聲道諧振特性的時變數字濾波器,這個源可能是周期脈衝序列,它代表濁音情況下的聲帶振動,或者是隨機噪聲序列,代表不出聲的清音.調整濾波器的參數等效於改變口腔及聲道形狀,達到控制發不同音的目的,而調整激勵源脈衝序列的周期或強度,將改變合成語音的音調、重音等.因此,只要正確控制激勵源和濾波器參數(一般每隔10~30ms送一組),這個模型就能靈活地合成出各種語句來,因此又稱作為參數合成的方法.根據時變濾波器的結構形式不同,又有LPC合成和共振峰合成器等之分.
按照人類言語功能的不同層次,語言合成也可分成三個層次,它們是:(1)從文字到語音的合成(Text-To-Speech);(2)從概念到語音的合成(Concept-To-Speech);(3)從意向到語音的合成(Intention-To-Speech).這三個層次反映了人類大腦中形成說話內容的不同過程,涉及人類大腦的高級神經活動.不難想像,即使是按規則的文字到語音合成(文語合成)也已經是相當困難的任務.為了合成出高質量的語言,除了依賴於各種規則,包括語義學規則、辭彙規則、語音學規則外,還必須對文字的內容有很好的理解,這將涉及自然語言理解的問題.從這一點講,文語轉換系統實際上也可看作一個人工智慧系統.圖1顯示了一個完整的文語轉換系統示意圖.文語轉換過程是先將文字序列轉換成音韻序列,再由語音合成器生成語音波形.其中第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規則;第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流.因此一般說來,文語合成系統都需要一套複雜的文字序列到音素序列的轉換程式,也就是說,文語轉換系統不僅要套用數位訊號處理技術,而且必須有大量的語言學知識的支持.當然其中語音合成終究還是最基本的部分,它相當於"人工嘴巴",任何語言合成系統包括文語轉換系統,都離不開語音合成器.

語音技術的方式

語音技術方式講可分為波形編輯合成、參數分析合成以及規則合成等三種.
波形編輯合成,這種合成方式以語句、短語、詞或音節為合成單元,這些單元被分別錄音後直接進行數字編碼,經適當的數據壓縮,組成一個合成語音庫.重放時,根據待輸出的信息,在語料庫中取出相應單元的波形數據,串接或編輯在一起,經解碼還原出語音.這種合成方式,也叫錄音編輯合成,合成單元越大,合成的自然度越好,系統結構簡單,價格低廉,但合成語音的數碼率較大,存儲量也大,因而合成辭彙量有限.
參數分析合成,這種合成方式多以音節、半音節或音素為合成單元.首先,按照語音理論,對所有合成單元的語音進行分析,提取有關語音參數,這些參數經編碼後組成一個合成語音庫;輸出時,根據待合成的語音的信息,從語音庫中取出相應的合成參數,經編輯和連線,順序送入語音合成器.在合成器中,通過合成參數的控制,將語音波形重新還原出來.
規則合成,這種合成方式通過語音學規則來產生目標語音.規則合成系統存儲的是較小的語音單位(如音素、雙音素、半音節或音節)的聲學參數,以及由音素組成音節、再由音節組成詞或句子的各種規則.當輸入字母符號時,合成系統利用規則自動地將它們轉換成連續的語音波形.由於語音中存在協同發音效應,單獨存在的元音和輔音與連續發音中的元音和輔音不同,所以,合成規則是在分析每一語音單元出現在不同環境中的協同發音效應後,歸納其規律而制定的如共振峰頻率規則、時長規則、聲調和語調規則等.由於語句中的輕重音,還要歸納出語音減縮規則.

國內外語音技術發展現狀

綜觀語言合成技術的研究已有二百多年的歷史,但是真正有實用意義的近代語音合成技術是隨著計算機技術和數位訊號處理技術的發展而發展起來的,主要是讓計算機能夠產生高清晰度、高自然度的連續語音.近幾十年來國際和國內的研究主要集中在按規則文語轉換,即將書面語言轉換成口頭語言.在語音合成技術的發展中,早期的研究主要是採用參數合成方法.值得提及的是Holmes的並聯共振峰合成器(1973)和Klatt的串/並聯共振峰合成器(1980),只要精心調整參數,這兩個合成器都能合成出非常自然的語音.而最具代表性的文語轉換系統數美國DEC 公司的DECtalk(1987),該系統採用Klatt的串/並聯共振峰合成器,可以通過標準的接口和計算機連網或單獨接到電話網上提供各種語音信息服務,它的發音清晰,並可產生七種不同音色的聲音,供用戶選擇.但是經過多年的研究與實踐表明,由於準確提取共振峰參數比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語音,但是整體合成語音的音質難以達到文語轉換系統的實用要求.自八十年代末期至今,語言合成技術又有了新的進展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基於時域波形拼接方法合成的語音的音色和自然度大大提高.九十年代初,基於PSOLA技術的法語、德語、英語、日語等語種的文語轉換系統都已經研製成功.這些系統的自然度比以前基於LPC方法或共振峰合成器的文語合成系統的自然度要高,並且基於PSOLA方法的合成器結構簡單易於實時實現,有很大的商用前景.最近幾年,一種新的基於資料庫的語音合成方法正引起人們的注意.在這個方法中,合成語句的語音單元是從一個預先錄下的龐大的語音資料庫中挑選出來的, 不難想像只要語音資料庫足夠大,包括了各種可能語境下的語音單元,理論上講有可能拼接出任何語句.由於合成的語音基元都是來自自然的原始發音,合成語句的清晰度和自然度都將會非常高.
國內的漢語語音合成研究起步較晚些,但從八十年代初就基本上與國際上研究同步發展.大致也經歷了共振峰合成、LPC合成至套用PSOLA技術的過程.在國家863計畫,國家自然科學基金委,國家攻關計畫,中國科學院有關項目等支持下,漢語文語轉換系統研究近年來取得了令人舉目的進展,其中不乏成功的例子:如中國科學院聲學所的KX-PSOLA(1993), 聯想佳音(1995);清華大學的TH_SPEECH(1993);中國科技大學的KDTALK(1995)等系統.這些系統基本上都是採用基於PSOLA方法的時域波形拼接技術,其合成漢語國語的可懂度、清晰度達到了很高的水平.然而同國外其它語種的文語轉換系統一樣,這些系統合成的句子及篇章語音機器味較濃,其自然度還不能達到用戶可廣泛接受的程度,從而制約了這項技術的大規模進入市場. -----1998年中國科技大學在國家863 計畫和國家自然科學基金委支持下,研製成功KD-863漢語文語轉換系統.和採用國內外流行的PSOLA技術的系統相比,在輸出語音的音質和自然度上有了突破性的提高.KD-863採用了一種全新的基於語音資料庫的語音合成方法, 該技術的基本思想是將實際語流中漢語音節千變萬化的音變進行聽感上的量化歸併,設計出多樣本的漢語語音基元庫,這個庫蘊涵了漢語韻律變化信息,合成時只要通過對基元庫樣本的選取便可實現韻律控制.同時語音基元庫中的樣本是直接從自然語音中截取,避免了採用信號處理技術獲取音變單元對音質的損害,因而合成語音具有接近自然語音的音質.KD-863文語轉換系統一經推出,就因其合成語音的高清晰度與高自然度引起了社會各方的重視.先後套用於為深圳華為技術公司設計的"114自動電話報號系統",和為國家工商總局設計的"工商企業語音(傳真)查詢系統".使得漢語語音合成技術走出實驗室,向市場套用邁出了重要的一步.KD-863系統參加了在1998年4月國家科委組織的全國漢語語音合成系統的性能評測,其輸出語音的自然度居同類系統之首,是唯一達到用戶可以接受程度的系統.KD-863還在日本,新加坡,香港的有關研究所和大學進行過演示,均得到了有關方面專家的認同.最近中國科技大學又推出了KD-2000漢語文語轉換系統,不僅在語音合成技術方面有進一步的發展,特別是在文本預處理中圍繞層次化結構思想,運用大量的統計和規則的方法,較好地解決了三個大的處理環節:特殊符號處理,分詞處理和拼接處理,使得漢語文語轉換系統的整體性能有很大提高.以KD-2000文語轉換為核心的"暢言2000"智慧型漢語平台軟體已開始進入市場.

語音技術的發展方向

1.提高合成語音的自然度
提高合成語音的自然度仍然是高性能文語轉換的當務之急.就漢語語音合成來說,目前在單字和詞組一級上,合成語音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時其自然度問題就比較大.-----基於語音資料庫的語音合成方法有望進一步提高語音合成的自然度.因為這是一種採用自然語音波形直接拼接的方法,進行拼接的語音單元是從一個預先錄下的自然語音資料庫中挑選出來的,因此有可能最大限度地保留語音的自然度.但由此產生了一系列新的需要研究的問題,包括:如何確定語音合成的基元,根據什麼準則去挑選合適的基元;韻律參數定量化問題,對資料庫進行定標問題;以及如何將統計的方法和規則方法相結合使機器能自動發現和找出所需的語音單元,保證最高的合成語句自然度等等.-----無論用哪種合成方法,韻律規則的總結,特別是連續語音的韻律規則總結,儘可能將定性的規則描述定量化,對自然度始終有最重要的影響.還有前端文本處理,對合成語音的自然度也具有舉足輕重的影響,完整全面的解決,需要自然語言理解的突破.
2豐富合成語音的表現力
目前國內外大多數語音合成研究是針對文語轉換系統,且只能解決以某種朗讀風格將書面語言轉換成口語輸出,缺乏不同年齡、性別特徵及語氣、語速的表現,更不用說賦予個人的感情色彩.隨著信息社會的需求發展,對人機互動提出了更高的要求,人機口語對話系統的研究也提到了日程上.即語音合成研究已開始從文字到語音的轉換階段向概念到語音的轉換階段發展.這不僅對語音合成技術提出了更高的要求,而且涉及到計算機語言生成,涉及人類大腦的高級神經活動.但就語音合成來說,仍是一個要豐富合成語音的表現力問題.相對來說採用波形拼接方法來增強合成語音表現力比較困難,儘管也可以通過增加音庫容量和音庫個數來達到改變合成語音的特性,但畢竟它對韻律的控制能力非常有限.更為有效的辦法是採用參數合成法,分析參數特徵,通過對相關參數的調整來實現對年齡、性別特徵的改變,進一步實現語氣、語調的變化,由於這種改變是連續的,對象特徵可以千千萬萬,顯得更有生命力.近年來提出的基於LMA(對數振幅近似)技術的語音合成器,HybridHarmonic/Stochastic模型,Sinusoidal模型等已被證實是一些新穎的能合成出高質量語音的參數合成方法,為此應繼續深入這方面的研究,以期在參數合成技術上取得突破.
3降低語音合成技術的複雜度
語音合成技術正在走向市場.為了適應社會的需求,擴大文語合成的套用場合,除了解決好上面兩個問題,提高合成語音的質量和增強語音合成的表現力以外,在其他實用化方面也有要加以改進的地方.就目前漢語文語轉換系統而言,減小音庫容量就是一個重要課題.目前高質量的漢語文語轉換系統一般需要幾兆位元組到幾十兆,甚至幾百兆位元組的存儲容量,這在以PC機或工作站為硬體平台的套用中是沒有問題的,而對於象HPC,PDA及無線通信手機,商務通等資源有限的設備上就沒法承受.解決的方法可以是通過語音壓縮編碼的方法來壓縮音庫所需的容量,或者採用更小的合成基元,例如用聲母、韻母或雙音素、半音節,以及減少合成語音所需的音節基元數等等.然而又不能增加算法的複雜度,因為運算量及系統開銷同樣會直接影響漢語語音合成的套用.既要提高語音合成的質量,又要降低語音合成的複雜度,這始終是一個矛盾的兩個方面.
4多語種文語合成
語言是人們交流的工具,不同民族有自己不同的語言,不同語言之間的交流在今天開放的信息社會和網路時代顯得十分重要,多語種的文語合成有著獨特的套用價值.例如在自動電話翻譯,有聲的電子郵件等中都提出多語種的合成,即使是對漢語合成也有多方言文語轉換的需求.理想的多語種合成系統最好是各種語言共用一種合成算法或語音合成器,但是現有的語音合成系統大多是針對某一種語言或若干種語言開發出來的,所採用的算法及規則都是和某種語言密切相關的,因此很難推廣到其他的語種.例如漢語就和西方語言有很大的差異,國內的系統都是做漢語文語轉換,它的一套韻律控制規則完全不適合於英語,而且主要是合成漢語國語,即使推廣到廣東話和上海話都有相當的難度.可見要真正解決多語種的文語合成,從文本處理到語音合成都必須有新的思路.美國貝爾實驗室在多語種文語轉換方面作了大量的工作,其中包括漢語國語合成,值得注意.

VoWLAN測試方法學探討與無線網語音技術

目前的IT產業領域中,WLAN和VoIP是人們關注的熱點,因此使用WLAN提供語音服務(VoWLAN)的終端設備也就應運而生.VoWLAN終端設備利用現有的WLAN網路實現無線的VoIP語音通話,用戶可以通過VoWLAN終端設備在WLAN網路的覆蓋範圍內隨時進行語音通話.這既發揮了IP網路成本低的特點,又使得用戶獲得WLAN帶來的方便性.
一、VoWLAN套用方式
VoWLAN系統有兩種套用方式,一種針對有線辦公和住宅電話,也就是基於傳統終端的解決方案,如圖1所示.
對於傳統的語音終端,為了實現VoIP,需要添加VoIP網關設備.網關的主要功能是信令處理、協定轉換、語音編碼和解碼以及路由協定處理等,對外分別提供與PSTN網和IP網連線的接口.因此,基於WLAN的網關設備其實是無線接入點(AP)和VoIP網關設備相結合的產品.一方面用戶端設備通過模擬語音接口接入VoIP網關;另一方面,該網關通過內置的WLAN功能將語音打包成IP分組包之後,通過無線鏈路傳送至起中繼作用的接收站無線網橋.這種套用方式類似於有線LAN的VoIP解決方案,只是利用了已經敷設的WLAN,解決了VoIP的布線問題,用戶終端無需做大的改動,從而節省了用戶費用.
二、VoWLAN關鍵技術
雖然基於WLAN的VoIP技術與有線網路類似,但是由於無線網路固有的特性,在支持上層的實時業務時與有線網路有很大差異,導致無線網路傳輸的語音質量有可能比有線網路要差很多,因此必須採取特殊的措施來保障一定的業務質量.VoWLAN的關鍵技術主要包括信令技術、編碼技術、實時傳輸技術以及服務質量QoS保證技術等.
2.1信令技術
VoWLAN系統中,信令技術保證呼叫的順利實現和語音質量.目前被廣泛接受的信令體系包括ITU-T的H.323系列和IETF的會話初始協定SIP.
ITU的H.323系列建議定義了在無業務質量保證的網際網路或其他分組網路上多媒體通信的協定及其規程.H.323標準是區域網路、廣域網和Internet上多媒體技術的基礎保障,它是ITU-T有關多媒體通信的一個協定集,包括用於ISDN的H.320,用於B-ISDN的H.321和用於PSTN終端的H.324等建議.其編碼機制,協定範圍和基本操作類似於ISDN的Q.931信令協定的簡化版本,並採用了比較傳統電路交換方式.相關的協定包括用於控制的H.245,用於建立連線的H.255.0,用於大型會議的H.332,用於補充業務的H.450.1、H.450.2和H.450.3,有關安全的H.235,以及與電路交換業務互操作的H.246等.H.323提供設備之間、高層套用之間和提供商之間的互操作性,它不依賴於網路結構,獨立於作業系統和硬體平台.同時,H.323還具備相當的靈活性,支持包含不同功能的節點之間的會議和不同網路之間的會議.
雖然H.323提供了窄帶多媒體通信所需要的所有子協定,但H.323不支持多點傳送(Multicast)協定,只能採用多點控制單元(MCU)構成多點會議,因而同時只能支持有限的多點用戶.H.323也不支持呼叫轉移,且建立呼叫的時間比較長.
與H.323不同,SIP是一種比較簡單的會話初始化協定.它不像H.323那樣提供所有的通信協定,而是只提供會話或呼叫的建立與控制功能,且既支持單點傳送(unicast)也支持多點傳送,會話參加者可以隨時加入一個已經存在的會議.
SIP是一種套用層協定,可以用UDP或TCP作為其傳輸協定.與H.323不同的是:SIP是一種基於文本的協定,用SIP規則資源定位(SIPUniformResourceLocations)語言描述,這樣易於實現和調試,更重要的是靈活性和擴展性好.由於SIP僅用於初始化呼叫,而不傳輸媒體數據,因而造成的附加傳輸代價也不大.SIP的URL甚至可以嵌入到Web頁或其他超文本鏈路中,用戶只需點擊滑鼠就可以發出呼叫.與H.323相比,SIP還有建立呼叫快,支持傳送號碼的特點.
2.2編碼技術
語音壓縮編碼技術是VoWLAN技術的一個重要組成部分.目前主要的編碼技術有ITU-T定義的G.729、G.723、G.723.1等.其中,G.729可將經過採樣的64kbit/s語音以幾乎不失真的質量壓縮至8kbit/s.由於在分組交換網路中,業務質量不能得到很好保證,因而需要語音編碼具有一定的靈活性,即編碼速率、編碼尺度的可變可適應性.G.729原來是8kbit/s現在的工作範圍擴展至6.4kbit/s~11.8kbit/s,語音質量也在此範圍內有一定的變化.G.723.1採用5.3/6.3kbit/s雙速率語音編碼,其話音質量好,但是處理時延較大.
此外還需要注意的一個問題是,語音編碼的頻寬和實際所占用的頻寬是不同的,語音編碼的頻寬是實際語音包的頻寬,而語音包在網路上傳輸時,還需要增加各種報頭,如RTP包頭、UDP包頭和IP包頭.由於語音包本身很小,所以這些額外的頻寬都是很可觀的.表2中列出了各種編碼方式下和打包時長所對應的實際頻寬.
2.3服務質量QoS保證技術-802.11e
VoWLAN系統中,由於無線鏈路引入的串擾和多徑傳播將導致衰落和色散,從而引起系統的附加時延和抖動.而語音業務對於時延和抖動非常敏感,因此在VoWLAN系統中提供一種QoS保證技術就顯得非常重要.
IEEE802.11標準定義了兩種不同的信道訪問機制:一種是點協調機制(PCF),基於CSMA/CA方式;另一種是分散式協同機制(DCF),基於輪詢方式.但是這兩種都沒有劃分優先權,因此隨著用戶數的增多,MAC不能保證為實時語音業務提供可靠的分組傳輸且傳輸時延和抖動在規定範圍內.為此,IEEE802.11工作組的媒體訪問控制(MAC)改進任務組(即E任務組)對802.11的MAC層協定進行改進,使其可以支持具有QoS要求的套用,即IEEE802.11e標準.
IEEE802.11e中,MAC接入採用混合協同功能(HCF)控制機制.HCF與PCF和DCF直接兼容,而且可以支持優先權和參數化的媒體訪問服務.HCF結合了競爭和輪詢兩種機制,其中,基於競爭的訪問機制稱為增強式點協同功能(EPCF),而無競爭的訪問機制稱為增強式分布系統功能(EDCF).
EDCF對業務先進行分級,為不同的優先權數據提供不同的服務輸出佇列,每個服務佇列採用EDCF方法來競爭傳輸資源.主要表現在不同優先權佇列擁有的最小閒散時間(DIFS)和競爭視窗不一樣,可利用參數來改變競爭視窗大小,從而可以獲得不同的重發等待時間,保證了實時業務有更高的服務優先權.
EPCF信道訪問方法採用QoS相關的點協同功能,稱為混合協同器(HC).HC利用點協同功能把優先權信道分配給無線終端,用於傳輸有QoS需求的數據,來滿足預定義的傳輸優先權、服務速率、延時和抖動.有QoS需求的移動終端可以給HC傳送預留請求(RR).移動終端可以在EDCF模式或者EPCF模式下傳送RR,也可以在受控競爭間隔(CGI)內傳送.
由上可見,隨著對QoS研究的不斷深入,IEEE802.11e協定也在逐步完善,一方面在原有的框架內修改了分散式和集中式的協調機制,並保持了對傳統協定的兼容;另一方面也提出了一些獨特的解決方案,如批應答和準入控制.根據國外做出的研究和仿真報告,IEEE802.11e可以實現很好的QoS性能.
2.4實時傳輸技術
VoWLAN系統中也用到了實時傳輸技術,主要是採用實時傳輸協定RTP.RTP是提供端到端的包括音頻在內的實時數據傳送的協定.RTP包括數據和控制兩部分,後者叫RTCP.RTP提供了時間標籤和控制不同數據流同步特性的機制,可以讓接收端重組傳送端的數據包,可以提供接收端到多點傳送組的服務質量保證.
此外,靜音檢測技術和回波消除技術也是十分關鍵的技術.靜音檢測技術可有效剔除微弱信號,從而使語音信號的占用頻寬進一步降低到3.5kbit/s左右;回波消除技術主要利用數字濾波器技術來消除對通話質量影響很大的回波干擾,保證通話質量,這點在時延相對較大的VoWLAN系統尤為重要.
三、VoWLAN系統測試
VoWLAN系統測試中,主要可劃分為語音質量分析和傳輸性能分析兩個方面.由於VoWLAN完全建立在分組交換基礎上,而分組交換固有的時延、丟包等弱點使VoWLAN系統的通話質量得到不保證,因此在VoWLAN系統中,通話質量一直是人們最為關注的問題之一,語音質量的測試也就成了一項關鍵的指標.
影響VoWLAN系統通話質量的因素
由於本身的技術特定,影響VoWLAN系統通話質量的因素很多.從用戶通話過程中的主觀感受而言,主要有以下幾個方面.
頻寬:
當頻寬不足時,語音質量會明顯的下降;充足的頻寬是保證語音質量的基礎.
時延:
由於IP電話需要對語音包進行編碼和解碼,再加上傳輸的時延,這就使得IP電話的時延要比普通電話大的多.當時延大於400ms時,人就可以明顯的感覺出來,當時延大於2s時,交流就會比較困難.IP電話的編碼時延大約在120ms左右,傳輸時延是影響IP電話時延的主要因素.
抖動:
所謂抖動,就是每個語音包傳輸時間之間的差別:當抖動超過一個語音包的時長時,語音質量就會明顯下降.通過提高打包時長,可以減少抖動對語音質量的影響.
丟包:
一般來說,丟包對語音質量影響不大,當丟包在10%以下時,不會有明顯的感覺;但是當丟包大於20%時,就會影響語音的質量.
靜音檢測:
靜音檢測檢測能夠減少傳送的語音包數量,減少所需的頻寬.但同時靜音檢測可能會丟掉一些微弱的聲音,在靜音到非靜音的轉換過程中,會給用戶不連貫的感覺.
背景噪聲生成:
背景噪聲主要解決當靜音檢測時靜音和非靜音轉換時的問題,通過加入背景噪聲,用戶會覺得語音比較連貫,但背景噪聲畢竟不是真實的,實際上也降低了語音質量.
回波抵消:
由於IP網路時延的不確定性,回波抵消本身就有可能導致語音的失真.
四、VoWLAN系統語音質量測試
4.1主觀評價與客觀評價
端到端語音質量的評價方法主要有兩種:主觀評價和客觀評價.
主觀評價方法的依據是ITU-TP.800(傳輸質量的主觀評價方法),利用人本身的主觀感覺給聽到(或對話)的語音的滿意度打分,打分的基本原則是可懂度.依此分數來評價端到端的語音質量.
主觀評價試驗是需要設計的.設計的內容主要包括物理條件,例如空間大小,噪聲環境等;試驗人員的選擇,如是否有聽力問題,是否第一次參與試驗等;語音樣本的選擇以及測試數據的收集與整理方法等等.
同時,主觀評價試驗的結果是一個統計的結果,是對眾多評價數據進行收集、統計,最後得到一個"平均意見得分",也就是MOS分.特別需要說明的是,每一次主觀評價試驗的結果可能是不同.
由此看出,主觀評價方法並不適用於實驗室對某個特定連線進行語音質量的評定,它僅適用於在實驗室環境下,對受控的連線和語音樣本進行綜合評價.
客觀評價主要解決如何利用客觀的方法評價語音質量.根據聲學特性以及人的心理聲學模型,歸納出客觀評價指標.但是需要說明的是,任何客觀評價方法都是以主觀評價為基礎的.也就是說,客觀評價方法是否正確、合理,一定需要通過主觀評價來評估.只有結果與主觀評價取得一致的客觀評價方法,才是正確的方法.
另外,語音質量的客觀評價是可以重複的,即在相同測試條件下得到的客觀評價分數是相同的(這一點與主觀評價非常不同).
從上述分析看出,作為實驗室測試設備和系統應採用客觀評價方法.但採用何種客觀方法更合理、更準確,則需通過主觀試驗來驗證.
4.2VoWLAN系統語音質量測試-客觀評價
目前,客觀評價語音質量的方法是在聽覺模式下,在語音通道中(端到端地)傳送語音樣本信號;再將接收到的語音信號與(經適配後的)原始樣本信號進行比較,以得到一個結果,然後根據ITU-TP.800.1建議的方法,計算出MOS分值.因此,VoWLAN系統語音質量測試客觀評價方法如圖3所示.
圖3客觀評定測試方法
需要注意的是,由於WLAN受空中電磁波影響很大,因此測試中應將待測設備與測試儀表的射頻接口通過射頻電纜相連,且置於禁止箱內,才能保證待測設備處於"乾淨"的環境內,得到的結果是可靠且可重複的.
此外,傳輸性能主要指設備的響度評定值、頻率回響、噪聲特性、失真特性、回聲特性等,此外還有背景噪聲傳輸和雙向通話特性等等.這些指標全面地考察了VoWLAN系統在通話過程中的特性,由此能夠分析設備的設計缺陷.
因此,傳輸性能的測試不僅可以完善語音質量的評價,還可以幫助提高設備的設計水平.
五、總結
VoWLAN設備在未來通信市場上的前景廣闊,因此很多廠商都提供了相應的解決方案,市場上也出現了許多相關產品.但是VoWLAN移動終端並不僅僅是VoIP和WLAN的簡單疊加,還需要基於WLAN基礎設施解決QoS、無縫漫遊、安全等諸多問題.而一旦擁有標準化的QoS、增強的安全性,可靠的及易操作的網路,VoiceoverWLAN的套用將會非常繁榮,與蜂窩系統形成有益的競爭和互補.
語音技術在車載設備中的套用
車載電子的發展從傳統的收音機功能開始,然後沿著CD、VCD/DVD/移動TV、GPS/EOBD、車載電話、移動辦公的路線不斷引入新技術,並開拓出範圍越來越廣、越來越智慧型化和人性化的車載套用.本文介紹語音技術在車載設備中的套用,利用這種技術可將汽車內的文字信息以語音形式播放出來,使司機不會因為要看這些信息而分散注意力,從而提高駕駛的安全性.
語音技術在車載設備中具有廣泛的套用.以閱讀為例,隨著網路時代的到來和辦公自動化的日益普及,越來越多的信息正以文字的形式存在,但受車載環境的限制,用眼睛來閱讀文字信息無論對司機和乘客都存在極大不便,此時利用語音合成技術改造傳統汽車音響,就可讓汽車音響不僅能聽廣播和音樂,還能夠聽用戶自主選擇的各種文字信息.今後的汽車音響除了提供CD、磁帶歌曲和收音機功能,還可將各種類型的文字信息比如小說、Word文檔,Email等下載到車上來聽,並且可以讓用戶選擇自己喜歡的各種信息,實現真正的會朗讀的人性化汽車音響.
語音車載電話
車載電話可為司機在開車期間提供便捷的溝通方式.從安全的角度考慮,在行車途中看信息是非常不方便的,比如看來電號碼、時間、簡訊息等.採用嵌入式語音合成技術,可以實現車載電話信息變看為聽,大大加強了信息獲取的途徑,較低了駕駛的危險,給手機增加更多人性化功能.
系統實現如圖1所示.語音車載電話在原有車載電話的基礎上增加嵌入式語音合成晶片,實現信息內容的播放.車載電話通過GSM/CDMA網路獲取各類型信息,比如來電信息、短訊息等;手機控制模組將需要合成的各類型信息如來電信息、短訊息、通訊錄信息、記事本信息等內容轉換成標準的文本信息並傳送給嵌入式語音合成晶片;嵌入式語音合成晶片再將文本信息轉換為語音通過車內音響系統播放給用戶聽.
要在車載電話上實現語音合成功能,可以選擇嵌入式語音晶片或者語音模組.車載電話本身尺寸較小,功耗也不大,選擇語音晶片比較合適,雖然語音晶片在任意文本合成上的效果比語音模組差,但完全可以達到實用要求.另外通過定製的數字小系統對"來電通知"等也能取得很好的合成效果.語音車載電話採用的S3111語音合成晶片,其工作原理如圖2所示.
S3111語音晶片通過RS-232異步串口與車載電話主控晶片進行數據互動,將手機主控晶片上的信息轉換為語音信息通過揚聲器播放給用戶聽.
語音車載電話通過變看為聽,提高駕駛安全係數.其功能包括:
1.來電號碼播報.將手機收到的來電信息,包括來電次序、來電人、來電號碼、來電時間等信息,以清晰、流暢的語音實現自動播報,手機使用者可以立刻知道來電信息,決定是否接聽;
2.時間及日程提醒.任何時候,只需要按鍵就可以播報出當前的時間,在日程提醒時播報出預約的任務等;
3.信息播報.配合嵌入式語音合成軟體,可以將收到的各種簡訊播報出來,解決手機螢幕小,閱讀困難的問題,方便人們獲取信息.
語音車載GPS
目前GPS技術已經廣泛套用於汽車領域.隨著城市車輛的日益增多,交通壓力日趨嚴重,如何使駕駛員方便、快捷地獲取信息,變看為聽,降低駕駛危險,已經越來越重要.通過嵌入式語音合成技術也可以將GPS信息轉變為聲音,播放給司機.
車輛通過車載GPS可實現自身定位,再將自身的位置和狀態(如速度、方位等)信息通過GPS通訊模組功能傳送至信息中心;同樣,信息中心也可以向車輛傳送中文簡簡訊息(如導航信息、天氣預報、各類定製信息等).GPS增強了汽車的防盜性能和輔助駕駛功能(導航信息),但司機獲取信息往往是在駕車的過程中,一邊駕車一邊閱覽信息十分不安全,存在著交通隱患,採用語音技術能很好解決這個問題.
系統實現示意圖如圖3.系統由GPS解析模組、控制模組、信號處理模組、嵌入式語音合成模組構成.其工作過程如下:車載GPS通過GPS信息提供網路(如GPRS/CDMA)獲取各類型信息,如導航信息、路況信息、天氣預報或用戶通過信息中心定製的個人信息等;控制模組將需要合成的各類型信息從GPS解析模組下載到信號處理模組;信號處理模組將信息內容轉換成標準的文本信息並傳送給嵌入式語音合成模組;嵌入式語音合成模組再將文本信息轉換為語音通過車內音響系統播放給用戶.
語音車載GPS需要合成的文本比較多,而且較為隨意,不好定製,另外每個用戶需要定製的服務內容都不一樣,因此語音合成的效果要求高一些.另外車載GPS本身尺寸較大,很容易找到嵌入語音模組的空間.從功能上考慮,用戶希望通過GPS實現與信息中心的語音通信功能,這就需要解決語音編解碼的問題,而嵌入式語音合成模組支持語音編解碼功能.綜合考慮,建議在語音車載GPS採用嵌入式語音合成模組.
車載GPS可使用S3231語音合成模組,其工作原理如圖4.S3231語音模組通過RS-232異步串口與車載GPS主控晶片進行數據互動,實現TTS服務和語音編解碼服務.在TTS服務中,S3231將接收到的文本轉化為聲音,然後通過音頻輸出通道直接輸出語音;在語音解碼服務中,S3231將接收到的編碼的數據(用戶定製信息,信息中心以語音編碼數據方式下傳到車載GPS)解碼成語音數據,然後通過音頻輸出通道輸出;而在語音編碼服務中,S3231將接收到的音頻數據(用戶通過麥克風輸入)進行編碼壓縮,然後通過串口通信將語音數據傳送給GPS主控晶片.
語音車載GPS功能可以播放導航信息,讓司機知道最佳行走路線,也可以播放路況信息,讓司機提前做好準備,以及堵車、緊急事故處理等等.另外還能播放天氣預報、定製信息,各地信息中心獲知車輛到達當地後將當地的天氣預報、用戶定製的內容服務告訴司機,用戶定製的信息內容模式可為語音壓縮數據.
語音技術在可視對講產品中的套用
語音信號處理技術是20世紀70年代以來通信領域和人工智慧領域的重要課題,其研究內容包括:語音分析、語音編碼、語音壓縮與解壓縮、語音合成和語音識別等.語音技術簡單來說就是讓計算機、手機等信息終端能夠像人一樣"能聽會說"的技術.近年來以植根安徽、落戶合肥的科大訊飛為龍頭,匯集安徽多家機構、研究院所與國內眾多的語音專家,已成功地將語音領域的局部優勢整合成民族語音產業的整體優勢,科大迅飛被認定為"國家863計畫語音成果產業化基地",並牽頭制訂了中文語音標準.據CNNIC(中國網際網路信息中心)和有關專家分析,未來五年內中文語音產業將具有1000多億元人民幣的潛在市場.精誠合作,讓我們共同推動語音產業的早日到來.
當今,小區智慧型化安防這個新興產業在我國經歷十餘年的快速發展已深入千家萬戶,一個個智慧型化小區如雨後春筍拔地而起,諸如可視對講與防盜報警、閉路電視監控、出入口管理、電子巡更、三表遠程抄收與管理用IC卡、車輛出入與停車場管理、緊急廣播與背景音樂系統,以及供電設備、公共照明、電梯、供水等主要設備監控管理、物業管理計算機信息化系統等智慧型化技術得以廣泛套用.然而樓宇可視對講聯網系統經過十多年的發展,仍然存在以下諸多弊端:1、機型結構繁雜、互換性差,需要向模組化、接口標準化方向發展;2、接線方式多樣化,施工、調試、維護、檢修繁瑣,需簡化,向高速、寬頻數位化方向發展;3、高端機型操作專業化,用戶使用繁瑣,以至於部分功能不會用而閒置,需要向操作簡單、快捷明了、易懂易學的傻瓜型方向發展;
由於小區物業管理人員素質不整齊,安防系統的有效運行更多依賴於工程建設單位或生產廠家,一旦售後服務跟不上,則會對小區物業管理帶來負面影響.據《中國樓市報導》,現在的智慧型化小區,3到5年內有35%左右的系統癱瘓,還有30%的系統工作不正常,僅有20%多的系統能正常使用.
套用一:語音提示
針對當前可視對講系統在布線、調試、維護上的繁瑣現狀,CX-400系列主機利用CPU內置多路A/D轉換器實時檢測系統設備線上狀態,根據不同線上狀態,分別向訪客或檢修者提供語音提示.如"分機線路短路"、"分機線路開路"、"分機未掛好"……當門口機遭遇不法分子惡意破壞,而導致主機殼變形、按鍵卡鍵時,提示"主機鍵盤卡鍵了".當住戶休息期間,在室內分機設定關閉鈴音後,訪客來訪時,會提示"請勿打擾",或者"請勿打擾,請留言",當住戶允許訪客進入並通過室內分機實施遙控開瑣時,會在分機、主機中聽到溫馨提示"請進".這種"能說會道"的可視對講系統一定會讓廣大用戶與工程商倍感親切和方便明了.CX-400系列"能說會道".
門口機分直按式和數碼式兩類,前者適用多層,後者適用高層.直按式匯集了以往匯流排制與分線制系統的優點,採用"1+1"的結構布線方式,且無須安裝樓層解碼器,即一根公共線加一根呼叫線,類似電話機的兩線無極性接線方式,這樣就做到了某一分機短路不影響其它用戶使用.該系列門口機還內置了多首鈴聲,經典金屬鈴、手搖電話鈴、語音門鈴、和弦音樂鈴,可通過鍵盤操作設定自己所喜歡的鈴聲,還可按工程商的要求定製開機問候語.
套用二:語音識別先練習使用者的聲音特性來加以辨認,然後進入語音適應階段.以下是CX-D480/sb主機辨識的一個範例:在程式中我們通過三條語句的訓練演示特定人連續音識別,其中第一條語句為觸發名稱.另外兩條為命令,訓練完畢開始辨識,當識別出觸發名稱後,開始發布命令,則會聽到自己設定的應答,具體命令如下:
提示音輸入語音
"請輸入觸發名稱""請開門"
"請輸入第一條命令""我是302"
"請輸入第二條命令""你在乾什麼?"
"請再說一遍"(以上提示音每說完一遍出現此命令)
"沒有聽到任何聲音"(當沒有檢測到聲音時出現此命令)
"兩次輸入名稱不相同"(當兩次輸入的名稱不同時出現此命令)
"兩次輸入命令不相同"(當兩次輸入的命令有差異時出現此命令)
"準備就緒,請開始辨識"(以上三條語句全部訓練成功時,進入識別)****************識別*******************************
用戶發布命令主機應答
"請開門""你是誰"
"我是302""請再說一遍"
"我是302""請進"(CPU發出開鎖信號打開電鎖)
"你在乾什麼?""我在巡邏"/"我在休息
"注意:在每次提示音結束後2-3秒再輸入命令或當上次應答結束2-3秒後再發布命令.
可以預言,今後中文語音識別技術以及指紋識別技術在智慧型化小區安防產品中,必將得到廣泛運用,智慧型化安防產品也將變得更加精彩.
語音將成為下一代作業系統和應用程式的用戶界面
計算機語音識別就性質而言是非常複雜的,是跨學科的邊緣性研究,涉及數學、聲學、生理學、數位訊號處理、心理學、統計學、語言學等諸多領域.語音識別技術的原理看起來似乎並不複雜,它主要依賴於計算機發達的運算能力和存儲能力,就像戰勝棋王的"深藍",其致勝的關鍵是擁有大型棋譜資料庫和每秒上億次的是非判斷能力.
一般來說,計算機語音識別是一個模式識別匹配的過程.在這個過程中,計算機首先要根據人的語音特點建立語音模型,對輸入的語音信號進行分析,並抽取所需的特徵,在此基礎上建立語音識別所需的模板.而計算機在識別過程中要根據語音識別的整體模型,將計算機中存放的語音模板與輸入的語音信號的特徵進行比較,根據一定的搜尋和匹配策略,找出一系列最優的與輸入的語音匹配的模板.然後,據此模板號的定義,通過查表就可以給出計算機的識別結果.顯然,這種最優的結果與特徵的選擇、語音模型的好壞、模板是否準確都有直接的關係,這也是目前語音識別過程中的一個難點.
總而言之,語音識別的任務是利用語音學知識和語言學知識,首先對語音信號進行基於信號特徵的模式分類,這是語音信號處理的範疇,分類的結果是得到拼音串;其次是利用語言學知識對拼音串做進一步處理,得到一個符合語法和語義的句子.而對於漢語,還要在其中完成音字的轉換.
語音識別就套用來說,有低水準和高水準之分.高水準的語音識別用來實時地控制和操作計算機,不允許出錯;低水準語音識別的套用則更為廣泛,諸如聽寫系統.但是每個語音識別系統都有下列特徵:
·連續性與不連續性:如果語音識別系統是連續的,用戶就能正常地與系統對話;如果是不連續的,用戶就需要字字停頓.顯然,連續的識別比不連續的識別更受歡迎,但它卻需要更多的處理能量.
·單詞量:語音識別系統可以有或大或小的辭彙量.辭彙量小的識別系統需要用戶發出簡單的命令,而宣讀檔案時,這一系統就必需有大的辭彙量,大辭彙量識別系統比小辭彙量識別系統需要更多的處理能量和儲存空間.雖然日常生活中常用的辭彙最多不超過一兩萬個,但每個專業的術語一般不少於幾萬條.
·揚聲器的獨立性:獨立揚聲器語音識別系統可以在機器外獨立工作,而非獨立揚聲器語音識別系統則需要用戶用大約三十分鐘的時間訓練該系統來適應他或她的聲音.
·特定人與非特定人:例如有男聲、女聲、童聲之分.
·規則句式與自由句式:識別結構化的句式比較容易,因為它有規則可循,有一定的範圍;而人們說話大多採用任意句式,增加了計算機識別的難度.
漢語語音識別系統按發音方式可分為孤立字發音識別系統、連線詞發音識別系統和連續語音識別系統;按識別對象可分為特定人及非特定人識別系統;按辭彙表的大小可分為小辭彙表識別系統、中等辭彙表識別系統、大辭彙表識別系統和無限辭彙表識別系統.實踐證明,對漢語而言,只能用連續的語音識別技術;目前,代表漢語語音識別技術最高水平的是非特定人無限辭彙的連續語音識別系統,例如IBM的ViaVoice98/2000.
正像Windows揚棄Dos一樣,計算機生產及使用的下一次飛躍將由人機界面的革新開始.毫無疑問,語音將摒棄鍵盤和滑鼠,成為下一代作業系統和應用程式的用戶界面.
高速處理器和低成本記憶體的發展促使語音技術的產品進入市場
語音識別技術的研究與發展舉步維艱.在50年代以前,由於計算機的計算能力和有關語音信號處理方面的理論都處於比較低的水平,有關語音識別的研究工作未能形成規模.而對這一課題開展大規模研究是在60年代末和70年代初.儘管初期的研究常常未能達到預期的目標,卻使人們認識到了語音識別研究的艱巨性.
像計算機的許多關鍵性技術一樣,IBM也做了語音識別的開創性的工作.1972年,IBM成立了一個專門小組從事計算機語音識別技術的開發.開發初期,一頁紙的辭彙需要整整一房間的計算機同時處理,而且這些辭彙必須是由一個特定的人非連續地讀出.IBM在所有語音識別技術關鍵性領域的研究均獲得了成果,包括:(1)識別語音特徵:語音符號首先被數位化,並根據經過抽取和導向的語音頻率、力度等特徵被分割成每百分之一秒的時間點.包含導向成分的數位化的信息是增強識別能力所必須的.(2)語音模型:技術人員根據語言的基礎語音元素對真實聲音的錄音進行分析、分類和分級,研製成能使一組特定人員的動態語音型式特徵化的統計模型.語音上特徵明顯的語言或方言的識別要求特徵明顯的語音模型.(3)統計語言模型:語言使用類型特徵化的統計模型是建立在大量實體的收集的基礎上的,為了更好地識別同一種語言的不同的使用方法,需要不同的語言模型.(4)規則發展:除了建立語音和語言模型的基礎的規則,還需要各種各樣的規則去概括和研究潛在的辭彙序列,通過組合相應的語音和語言模型統計來衡量每個侯選序列的可能性,並且選擇最有可能的一個,該方法被證實在有效地縮小研究範圍和改善極端複雜的正確的辭彙序列研究過程方面是具有核心意義的.正是因為這種規則的發展,實時識別大量辭彙、連續的速度才成為可能.
語音識別的困難涉及語音信號和自然語言的多變性及複雜性問題,主要包括以下幾方面:
·在連續語音中,詞與詞之間沒有明顯的停頓間隙,詞與詞之間的分割困難;
·每一個基本的聲學識別單元(如音素)受前後音素髮音方式的影響(稱為交調),而使語音聲學信號的特徵變得不穩定;
·不同人或不同的心理和生理以及在不同的說話環境,即便說同一個詞,聲學信號特徵也會發生變化;
·一個詞的讀音不僅包含了與詞義有關的特徵,而且還包含了說話人的性別、年齡、情緒等大量與詞義無關的信息,而後面這些信息對語音的識別造成了干擾,而且把這些互不相關的信息分離開比較難;
·自然語言的多變性難以藉助一些基本的文法規則進行描述,從而使計算機的編程產生困難.
可以說,研究的最大的成果是80年代初R.Rabiner和F.Jelinek等人將隱含馬爾可夫模型(HiddenMarkovModel,HMM)引入語音識別中.他們把HMM與矢量量化(VectorQuantization,VQ)結合起來,用於與人無關的孤立詞識別,並取得成功.HMM語音識別模型和算法以及動態規劃模板匹配技術(又稱動態時間歸整DynamicTimeWarping,DTW)已成為當今國際上的主流技術.
因為人耳對不同頻率的聲波有不同的聽覺靈敏度,從200Hz到5KHz之間的語音信號對語音的清晰度影響最大;低音掩蔽高音容易,反之則較困難;在低頻處的聲音掩蔽的臨界頻寬較高頻端小.所以,人們從低頻到高頻這一頻段內按臨界頻寬的大小由密到疏安排一組帶通濾波器,對輸入信號進行濾波.將每個帶通濾波器輸出的信號能量作為信號的基本特徵,對此特徵進一步處理後就可作為語音識別系統的輸入特徵.由於這種特徵不依賴於信號的性質,對輸入的信號不作任何假設和限制,又利用了聽覺模型研究的成果,因此,這種參數與基於LPC(LinearPredictionCoding,語音處理的線性預測編碼)的全極點模型參數相比具有較好的魯棒性,當信噪比降低時仍然具有較好的識別性能.目前,這種基於聽覺模型的語音特徵在語音識別系統中也已獲得了廣泛的套用.
要建立一個語音識別系統僅有一個好的語音特徵還不夠,還要有一個好的語音識別的模型和算法.為研究方便,在語音識別系統中通常分為兩部分:聲學層部分主要研究如何充分利用語音信號中的信息,語音學層部分主要研究如何充分利用已有語音學知識來提高系統的解析度.
常用算法有基於神經網路的訓練和識別算法、基於動態時間歸整匹配的DTW算法和基於統計的隱含馬爾可夫模型(HMM)識別和訓練算法;連同基於規則的方法、基於統計的方法、基於文法規則的方法和基於對語料庫統計的方法相結合;近年來,又有人將神經網模型與HMM模型結合起來,使其優勢互補,進一步提高了系統的識別率;另外,也有人將模糊識別的方法套用於語音識別中.我們可以從以二元文法模型為例說明模型如何通過訓練得到,進而擴展為三元文法模型,可以預見,隨著高速處理器和低成本存儲器的發展,語音識別的效率會不斷地提高.
隨著微機的中央處理器從4位到64位、時鐘頻率從8MHz到2GHz的飛躍,記憶體(RAM)從16K到256M,外存(硬碟)容量從10M到100G的發展,語音識別技術經歷了從最初的特定人、小辭彙量、非連續、非獨立揚聲器的語音識別到今天的非特定人、大辭彙量、連續、獨立揚聲器的語音識別的發展歷程,而且識別速度和準確率都有了極大提高.
無論如何,語音技術已成為計算機工業發展的趨勢,使全球億萬人享受著與計算機對話的便利與樂趣,是電腦走向人性化的重要一步.
語音技術產品將是信息產業界的又一次革命
如果我們能夠突破人機互動的瓶頸,就能使任何人都可以對計算機"發號施令",口授文章,甚至"親切交談",真正全面地實現"君子動口不動手"的人機互動方式.
正是這充滿潛力的市場前景使世界上一些知名公司無不看重"語音識別"這塊正待開發的市場,IBM、Dragon、INTEL、Microsoft、PHILIPS、MOTOROLA、Apple、NATIONAL、NORTEL等大公司都設有專門的語音識別技術研發部或子公司,每年投入的研究經費達數千萬美元.INTEL公司推出的PentiumⅢ為語音產品的實時化提供了進一步的保證.反過來,語音產品的發展也將為半導體工業提供新的契機.
在國際市場上,由於中國的國際地位與日俱增以及在經濟和市場方面所處的重要地位,漢語語音識別越來越受到重視;各大公司都相繼投入到漢語語音識別系統的開發中,其投資也在逐年增加.
智慧型翻譯機、語音撥號、語音查詢、語音自動定票系統、語音工業控制等等,可以想見,凡用計算機的地方都會有語音識別.在計算機輔助教育方面,計算機就成為專業的家庭輔導教師;在幼兒進行啟蒙教育的玩具中,語音識別也將倍受歡迎.
電腦語音合成技術即CTI(ComputerTelephoneIntegration),是用計算機技術處理電話語音.通常是建一個信息呼叫中心,用戶打來電話時計算機會自動地一層層地轉給相關部門,一直到為用戶解決問題為止.有的語音信箱可以支持不同語種.CTI並非新技術.與網路電話把數據壓縮打包進行傳輸有所不同,CTI到底還是一種語音模擬傳輸技術,只不過用上了計算機對語音進行智慧型管理而已.已開發國家早幾年就普及了這項套用,"是個機構就有呼叫中心",以保證客戶或合作夥伴打來的每一個電話都有回應.中國卻還沒有走到這一步,目前除了電信部門普遍開通了"呼叫中心"服務之外,大多數企業還剛剛起步.這個差距反映了管理和競爭意識方面的問題.
中文語音瀏覽器產品"Interversa"使我們能夠用"嘴"遨遊網際網路實現了"所說即所得".Interversa已針對PentiumⅢ的SSE指令集進行了最佳化,並將在PentiumⅢ上實現最好的性能和識別率.
常見的語音識別系統還有"命令和控制(Command&Control)"(是連續的,擁有小辭彙量和獨立揚聲器)、"語音導航"、微軟的"不連續聽寫(DiscreteDictation)"(是不連續、大辭彙量和非獨立揚聲器的),IBM的ViaVoice則屬於連續聽寫.
日漸火爆的語音市場再一次給我們帶來了機遇和挑戰;不斷湧現和日新月異的新產品將證明,語音識別產品是繼電話、計算機、Internet之後,信息產業界的又一次革命.

相關詞條

相關搜尋

熱門詞條

聯絡我們