唇讀

唇讀(lip—reading/speech—reading),可以通過觀察說話者的口型變化,“讀出”或“部分讀出”其所說的內容。唇讀研究的目的是利用視覺信道信息補充聽覺信道信息,提高計算機系統的理解力。英國科學家已研製出可以分辨不同語言的唇讀計算機,能夠識別英語、法語、德語、阿拉伯語、漢語國語及粵語、義大利語、波蘭語和俄語等語種。這項技術對耳聾患者、執法機構以及嘈雜環境中的工作者具有實際套用意義。

概述

唇讀中的口型唇讀中的口型

唇讀是口型(或圖像)語言分析學的一種套用。唇讀技術源於聽力弱者或者聽力障礙者學習、了解正常人的表達的一種技巧,它亦可用於特定場合的信息獲取(如情報等)。如今,該技術被廣泛套用於語音識別、身份識別、人機智慧型接口以及多媒體系統等領域。

早期人類聾人的比例相當高。聾人與別人交流思想,除了手語外,往往會根據自己理解或旁人指導,張口“說”話。人們聽不懂時,常常要通過聾人“說話”時的口型變化,分析意思。同時,聾人有時還需要通過觀察正常人說話的口型變化,判斷語意。可以說,人類有聲語言形成的同時,也形成了口型語言分析學的萌芽。古代印度的口語分析學曾達到較高的水平。古代印度的不少部落甚至規定母親要能基本“看懂”耳聾子女的“口語”。

近當代,口型語言分析學的興起則與刑事偵探與反恐有關。一些人認為,有時在無法竊聽的地方,面對面“語傳”,常常最安全。當傳遞信息“不怕露面,只怕錄音”時,往往巧定地點,“快速面談”。他們交談的地點不是客房、包房等容易安放竊聽器的地方,而是公開場所,如公園廣場的隨意一隅,熙熙攘攘的街頭路邊等。他們知道,這樣的地點警方要事先準確安放竊聽器,非常難。即使放好了,也難以清楚竊聽。這似乎應驗了西方刑偵學的“名言”:“最原始的往往是最安全的。”

911事件後,美國對恐怖嫌疑人的偵聽到了無孔不入的地步。迫於這種形勢,恐怖分子不得不採用上述的面談法傳遞信息。911事件5周年之際,法克尼在部落格留言:“在刑事偵探上,一門新技術的出現常常會經歷一個誤差率很高的階段。只要堅持不懈研究,就能不斷降低誤差,直到被法務部門認可。上世紀70年代測謊儀在偵查部門普遍使用時,誤差率曾高達百分之四十以上。當時曾有許多人,包括不少警察、檢察官與法官都認為,不應該提倡這項技術。現在,這項技術的誤差率已低於百分之五。我堅信,唇讀學也將如此。”

另外,唇部檢測作為唇讀系統的首要環節,主要包含兩個方面的內容,第一是在說話者環境中檢測出臉部的人臉識別技術,第二是在已經識別出的人臉圖像基礎上的唇部識別技術。

科技產品

唇讀的相關研究著作唇讀的相關研究著作

英國科學家已研製出可以分辨不同語言的唇讀計算機。其實研究人員一直在開發可以讀唇語的計算機,但是它們被“教會”識別各種語言還是第一次。科學家指出,這項發明對耳聾患者、執法機構以及嘈雜環境中的工作者具有實際套用意義。

這項研究由英國東安格利亞大學計算機科學學院的Stephen Cox和Jake Newman指導完成。該技術是通過對23位掌握兩種或三種語言的人的唇部動作進行統計建模而開發的。該系統能夠識別單個講話者所說的語言,而且具有很高的準確性。這些語言包括英語法語德語阿拉伯語漢語國語及粵語義大利語波蘭語俄語和日語。

Cox表示:“這是自動唇讀技術的一次令人激動的進步,它第一次科學地證實了我們已有的直觀推斷,即當人們講不同的語言時,他們會以不同的順序出現不同的唇形。”Cox介紹說,“例如,我們發現講法語的人較常出現圓唇形,而講阿拉伯語的人具有很明顯的舌部動作。” Cox補充說:“多年來,科學家一直在進行語音和語言處理法則的基礎研究,比如噪音中的語音識別、公式化語言建模、由語音合成所做的語言處理以及語音處理套用的開發。”

據研究人員介紹,自動唇讀技術中蘊含著許多科學挑戰。現已經解決了其中的幾個主要科學問題,包括面部動作與感知語音之間是什麼關係;講話者的語言以及談話內容如何影響這種關係;語言、講話者的姿勢以及談話內容對識別準確度有什麼影響等。

這項研究屬於一個更寬泛的自動唇讀項目中的一部分。該項目將建立在先進的計算機視頻和語音識別技術之上,對視頻中的自動唇讀進行研究和評估,從而開發能夠對來自視頻中的目標進行自動、語言獨立唇讀的工具和技術。該項目還尋求量化人類以及自動機器的能力。研究人員下一步將使這個系統更加適合個人生理學,以及人們說話的方式。

相關詞條

相關搜尋

熱門詞條

聯絡我們