介紹
語音作為一種搭載著特定的信息模擬信號,已成為人們社會生活中獲取信息和傳播信息的重要的手段。語音信號處理的目的就是在複雜的語音環境中提取有效的語音信息。環境干擾在語音傳播過程中對信號的影響不容小覷,因此語音信號處理的抗噪聲能力已經成為一個重要的研究方向。
基本概念
語音產生的過程
語音的形成過程:空氣由肺部排入喉部,經過聲帶進入聲道,最後由嘴輻射出聲波,形成語音。
聲音的分類
1、濁音:聲帶繃緊,氣流通過時會使得開口變成一開一閉的周期性動作,造成周期性的激發氣流,如a,o;
(由聲帶震動產生的音),包括所有的元音和一些輔音。
2、清音:聲帶完全舒展,聲道某部位收縮形成一個狹窄的通道,產生空氣湍流,如t,d;
(不由聲帶震動產生的音)
3、爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點突然開啟,空氣壓力快速釋放,如b,p。
語音的兩個重要聲學特性
基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等於聲帶張開和閉合一次的時間的倒數(此處去掉就是基音周期的定義)。人類基音頻率的範圍在80~500Hz左右。
共振峰(Fn,n=1,2,...):聲道是一個諧振腔,它放大聲音氣流的某些頻率分量而衰減其他頻率分量,被放大的頻率我們稱之為共振峰或共振峰頻率。
共振峰特性
共振峰是聲道的重要聲學特性。聲道對於一個激勵信號的回響,可以用一個含有多對極點的線性系統來近似描述。每對極點都對應一個共振峰頻率。這個線性系統的頻率回響特性稱為共振峰特性,它決定信號頻譜的總輪廓,或稱譜包絡。
語音的頻率特性主要是由共振峰決定的。而聲道的共振峰特性決定所發聲音的頻譜特性,即音色。
元音的音色和區別特徵主要取決於聲道的共振峰特性。共振峰特性可以從語音信號頻譜分析得到的幅頻特性觀察到。
完整的語音信號產生的數字模型
我們可將語音信號看成準周期序列或隨機噪聲序列作為激勵的線性非移變系統的輸出,此模型可分為三個部分:激勵模型、聲道模型、輻射模型。
語音信號模型
激勵模型
a.濁音激勵:氣流在通過繃緊聲帶時,衝激聲帶產生振動,使聲門處形成周期性的脈衝串,並用它去激勵聲道。由於脈衝串類似於斜三角形的脈衝,故以基音周期為周期的單位取樣序列串作為激勵。
b.清音激勵:聲帶鬆弛而不振動,氣流通過聲門直接進入聲道。由於發清音時,聲道被阻礙形成湍流,可將激勵模擬成隨機白噪聲。
聲道模型
a.聲管模型:將聲道視為由多個不同截面積的管子串聯而成的系統。
b.共振峰模型:聲道視為一個諧振腔,共振峰就是這個腔體的諧振頻率。
級聯型:適用於一般單元音,認為聲道是一組串聯的二階諧振器,用一個全極點模型。
並聯型:適用於非一般元音及大部分輔音,發這些音時發音腔體具有反諧振特性,必須在模型中加入零點以減弱諧振強度,故要考慮用零極點模型。
混合型:我們可以根據發音的需要自動切換串聯或並聯通路,此外並聯部分還有一條直通路徑,其幅度控制因子為AB,這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增強反諧振特性。
輻射模型
在發音腔道內形成的氣流經由嘴唇端輻射出來到達聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波的特性常用一個一階的數字高通濾波器來模擬。
倒譜分析
其可以採集到頻譜包絡信息用來表現音韻的特徵參數,也可以採集到細微的結構信息。聲道特性和聲門特徵可以通過頻譜分析得到有效的參數,這些參數的獲取可以通過語音來精確地分辨一個人。對語音信號進行頻譜分析,可以提取到聲道和聲門參數,以便通過聲音來區分不同的人。倒譜分析在各類信號分析中經常使用,要獲取倒譜需要先取得信號的頻譜,再對頻譜的對數進行快速傅立葉變換,然後可得信號倒譜。頻譜圖展示了採集的語音信號在不同頻率上所攜帶的能量的狀況,而倒譜是檢測採樣信號頻譜周期性的工具。倒譜圖中存在多個峰值表示主要頻率成分,通過對語音倒譜的峰值提取得到的共振峰對人的聲音具有較高的辨識度。