漢語語音理解系統
正文
指人和計算機之間用漢語口語語音對話的系統。漢語連續語音理解的研究目前尚無具體成果,但漢語單詞和簡單口令的語音識別取得了不少進展,有的系統已投入套用。語音合成方面也建成了一些系統。漢語語音識別 中國科學院聲學研究所於20世紀50年代後期開始研究,做出漢語單元音的識別裝置;60年代對漢語清晰度進行系統試驗,取得了基礎數據;70年代末、80年代初用模式匹配法事先存入發音人的語音樣板,計算機可識別幾十條口令,內容包括數字、算數四則運算符號以及少數操作命令,實現了單呼語音識別。
1980年清華大學計算機系用模式匹配法使計算機能識別中國十幾個大城市的地名。口呼地名語音輸入,螢幕顯示漢字;同時可用口語查詢清華大學內部電話號碼;在此基礎上,於1984年建成"8000台電話聲控查號系統”,已交付使用。用戶查詢電話,由話務員對計算機複述單位名稱,螢幕上即顯示號碼,並通過語音合成將號碼自動報給用戶。方法是:各個話務員事先口呼各單位名稱,貯存在軟碟上作為樣板,話務員上班時換上自己的軟碟。用戶查號時,由話務員將待查單位名稱及所屬地區、部門等口呼輸入。例如用戶查清華大學電話號碼,話務員需口呼“海淀區”、“高校”、“清華大學”三個名稱,螢幕上即顯示漢語拼音Hai Dian Qu,Gao Xiao,QingHua Da Xue,282451。話務員檢查無誤,按“報號”鍵,系統即自動將號碼報給用戶;並設有"改正"、"清除"、"列表”等功能鍵以避免錯誤,可保證報給用戶的號碼準確無誤。與此同時,建成“連續數字語音識別系統”,只需貯存0~9個數字的語音樣板,即可識別連續數字。三位數的識別率為90%。
這方面的研究,目前還停留在模式匹配的語音識別上,需要進一步探索漢語連續語流的語音理解。(見自然語言語音理解系統)
語音合成 中國科學院聲學研究所於1983年在瑞典與瑞典皇家工學院語言通信和音樂聲學系合作,建成"漢語文語轉換系統”。分析了語音頻譜,建立了語音區別特徵,編寫了語音規則和音系規則(包括輕聲和兒化)。文本用漢語拼音(主要元音後加特定調號)鍵盤輸入或光電閱讀輸入,計算機即可用合成語音讀出;並能根據句型調整語調,也可在句中任何單詞上加著重點據以重讀。採用字素-音位轉換,合成語音的辭彙量無限,能根據輸入文本朗讀故事。
清華大學計算機繫於1984年建成“無限辭彙漢語語音合成系統”。將元音、輔音和過渡音的壓縮波形參數存入機內,使用時鍵盤輸入漢語拼音(加四聲),計算機即可調出相應的參數,得出近似的語音波形合成語音輸出。能讀出所有的漢語音節,也可讀出句子。
目前合成語音的自然度尚不夠理想。中國社會科學院語言研究所近年從聲學語音學和發音語音學兩方面入手研究漢語語音特徵,包括輔音過渡、滑音、連續變調、輕重音、節拍等,以提高合成語音的自然度,在單元音和複合元音的合成方面已取得一定成效。
參考書目
中國社會科學院語言研究所語音研究室:《實驗語音學知識講話》,連載《中國語文》, 1979,第 1、2、4、5、6期。