基音周期
語音是語言的聲學表現,語言是人類交流信息最自然、最有效、最方便的手段。在高度信息化的今天,用現代手段研究語音處理技術,使人們能更加有效地產生、傳輸、存儲、獲取和套用語音信息,這對於促進社會的發展具有十分重要的意義。
語音處理的研究目標多種多樣,所涉及的學科門類也是豐富多彩的,其中包括了語音和語言學、聲學、心理學、認知科學、計算機、數理統計、信號處理、人工智慧和模式識別等等,並且它始終與當前信息科學中最活躍的前沿學科,如神經網路理論、小波變換理論、模糊集理論、時頻分布理論和混沌與分形理論等保持密切聯繫並共同發展著。語音處理研究者常常從這些領域的進展中找到突破口,使語音處理技術研究取得突破性的進展,其研究成果具有重要的學術及套用價值。語音信號處理主要包括語音識別、語音合成、語音壓縮編碼和語音增強等分支 。
語音識別技術是指計算機系統能夠根據輸入的語音識別出其代表的具體意義,進而完成相應的功能。一般的方法是事先讓用戶朗讀有一定數量文字、符號的文檔,通過錄音裝置輸入、存儲到計算機,作為聲音樣本。以後,當用戶通過語音識別系統操作計算機時,用戶的聲音通過轉換裝置進入計算機內部,語音識別技術便將用戶輸入的聲音與事先存儲好的聲音樣本進行對比。系統根據對比結果,輸入一個它認為最“象”的聲音樣本序號,就可以知道用戶剛才念的聲音是什麼意義,進而執行此命令。因此通過語音識別技術,計算機可以“聽”懂人類的語言。
語音合成是人機語聲的一個重要組成部分,語音合成技術賦予機器“人工嘴巴”的功能,即解決讓機器說話問題。是將計算機自己產生的或外部輸入的文字信息,比如文本檔案內容、WORD檔案內容等文字信息,按語音處理規則轉換成語音信號輸出,即使計算機流利地讀出文字信息,使人們通過“聽”就可以明白信息的內容。也就是說,使計算機具有了“說”的能力,能夠將信息“讀”給人類聽。這種將文字轉換成語音的技術稱之為文語轉換技術,簡稱TTS( Text to Speech)技術,也稱為語音合成技術。
語音編碼就是將模擬語音信號數位化,數位化之後可以作為數位訊號傳輸、 存儲或處理,可以充分利用數位訊號處理的各種技術。為了減小 存儲空間或降低傳輸比特率節省頻寬,還需要對數位化之後的語音信號進行壓縮編碼,這就是語音壓縮編碼技術。語音壓縮編碼的目的就是用儘可能低的數碼率獲得儘可能好的合成語音質量,同時又要使編碼過程的計算代價儘可能小。語音壓縮編碼技術在移動通信、衛星通信、多媒體技術以及IP電話通信中得到普遍套用,起著舉足輕重的作用。
語音增強就是從帶噪語音中提取純淨語音,也即語音消噪。語音增強主要套用範圍是降低聽覺噪聲、識別系統的預處理和線性預測編碼的預處理,這種技術對於語音識別和說話人識別是十分重要的。
語音信號分析是語音信號處理的前提和基礎,只有分析出可表征語音信號本質特徵的參數,才有可能利用這些參數進行高效的語音合成、語音識別、語音壓縮編碼等處理,其中基音周期是最重要的語音信號的特徵參數之一 。