關鍵字檢測

關鍵字檢測(Spokenkeywordspotting或SpokenTermDetection)是語音識別領域的一個子領域。

簡介

關鍵字檢測(Spoken keyword spotting或Spoken Term Detection)是語音識別領域的一個子領域,其目的是在語音信號中檢測指定詞語的所有出現位置。

主要有以下幾種類型:

•無約束語音中的關鍵字檢測

•孤立詞識別

無約束語音中的關檢測檢測主要針對關鍵字沒有被其他詞分隔,並且在原句中沒有語法信息。以下算法常被用於該目的:

•滑動視窗和垃圾模型

•K最優假設

•疊代Viterbi解碼

孤立詞識別主要針對關鍵字在文本中通過靜音進行分隔。套用到該問題的主要技術手段是動態時間規整技術。

語音識別

語音識別(speech recognition; 語音辨識/ 言語辨別)技術,也被稱為 自動語音識別(英語: Automatic Speech Recognition, ASR)、 電腦語音識別(英語: Computer Speech Recognition)或是 語音轉文本識別(英語: Speech To Text, STT ,其目標是以電腦自動將人類的語音內容轉換為相應的文字。與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的辭彙內容。

語音識別技術的套用包括語音撥號、語音導航、室內設備控制、語音文檔檢索、簡單的聽寫數據錄入等。語音識別技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的套用,例如語音到語音的翻譯。

語音識別技術所涉及的領域包括:信號處理、模式識別、機率論和資訊理論、發聲機理和聽覺機理、人工智慧等等。

歷史

早在計算機發明之前,自動語音識別的構想就已經被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的"Radio Rex"玩具狗可能是最早的語音識別器,當這隻狗的名字被呼喚的時候,它能夠從底座上彈出來。最早的基於電子計算機的語音識別系統是由AT&T貝爾實驗室開發的Audrey語音識別系統,它能夠識別10個英文數字。其識別方法是跟蹤語音中的共振峰。該系統得到了98%的正確率。。到1950年代末,倫敦學院(Colledge of London)的Denes已經將語法機率加入語音識別中。

1960年代,人工神經網路被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear Predictive Coding(LPC), 及動態時間規整Dynamic Time Warp技術。

語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的套用。從Baum提出相關數學推理,經過Rabiner等人的研究,卡內基梅隆大學的李開復最終實現了第一個基於隱馬爾科夫模型的大辭彙量語音識別系統Sphinx。此後嚴格來說語音識別技術並沒有脫離HMM框架。

儘管多年來研究人員一直嘗試將“聽寫機”推廣,語音識別技術在目前還無法支持無限領域,無限說話人的聽寫機套用。

相關詞條

熱門詞條

聯絡我們