語音合成(Text To Speech),簡稱TTS技術,涉及聲學、語言學、數位訊號處理技術、多媒體技術等多個學科技術,是中文信息處理領域的一項前沿技術。
語音合成就是一個將文本轉化為語音輸出的過程,這個過程的工作主要是將輸入的文本按字或詞分解為音素,並且對文本中的數字、貨幣單位、單詞變形以及標點等要特殊處理的符號進行分析,以及將音素生成數字音頻然後用揚聲器播放出來或者存為聲音檔案以後用多媒體軟體播放。
與一些用預先錄製的聲音檔案實現發聲的應用程式相比,TTS的發聲引擎只有幾兆大小,不需要大量的聲音檔案支持,因此可以節省很大的儲存空間,並且可以朗讀預先未知的任何語句。現在已經有許多套用軟體套用TTS技術實現語音功能,例如一些播音軟體可以用來讀小說或作校對工作,還可以朗讀電子郵件,一些電子詞典可以讀出單詞,還可以用於查詢中心自動播放服務信息等。
TTS語音合成技術體現的比較好的是一款叫TTSUU(Text-to-Speech Universal Utility)的文本朗讀軟體,這個軟體能朗讀和復讀幾乎任何語言的文本內容,具有20級音調變聲和20級語速調節能力,在朗讀時能根據文本中的標點符號自動判斷朗讀停頓,也允許用戶在文本的任意位置設定任意長的停頓時間,TTSUU軟體能把文本導出成Wav和MP3檔案,同時能導出相應的LRC以及SMI同步歌詞字幕檔案,還能錄音並輸出Wav和MP3檔案。TTSUU軟體能夠通過切換語音引擎、重複朗讀、放慢或者加快朗讀速度、調高或者調低朗讀音調等功能幫助學生學習外語,提供包括中、英、日、韓、德、法、西、葡、俄等近30個語音引擎,發音標準,語氣感情色彩豐富,幾可亂真。TTSUU軟體允許您通過手工輸入、拷貝貼上、打開TXT文本檔案、Word檔案以及PDF檔案等方式對文本內容進行朗讀、導出音頻和字幕,您也可以從任何網頁、Email、電子文檔中拷貝任何文本內容,然後以隨機彩色標籤的方式貼上在主界面左右兩根柱子上供您隨時編輯、閱讀、或者進行語音檔案轉換,是工作、學習、聽小說,語音校對、語音廣告、音效素材製作等不可缺少的好幫手。