原理介紹
在網路上傳輸音頻的方面存在的問題主要可以歸納為以下幾點:
信號採集回放
在進行音頻信號的採集中我們必須考慮到採樣率的問題,聲音信號的採樣率有8Khz、16Khz、32Khz、44Khz等,每種數據採樣慮產生的數據量都不一樣,越高的採樣率產生的數據量越大,所以我們要選擇合適的採樣率以適應網路的頻寬。
信號編碼解碼
如果把直接採集到的音頻信號數據流在網路上進行傳輸,它所占有的頻寬也是十分大的,以8Khz的採樣率採集14位的音頻數據那么就有以下這樣的一個式子:
從中我們可以看出以這樣的方式傳輸音頻數據,每秒需要向網路中傳送112kb的數據。所以。從節省頻寬的角度考慮,我們很有必要對這樣的數據進行壓縮。對多媒體信號的壓縮我們有許多可以選擇的格式,如mp2、mp3、GSM等等,現在用的最多的是MP3格式。同樣,我們這裡也存在一個對壓縮格式進行選擇的問題,考慮到音頻數據傳輸的及時性,對傳輸的音頻數據質量的要求,以及各種壓縮格式的壓縮比率以及進行壓縮和解壓縮所要耗費的系統資源等方面問題,選擇合適的壓縮格式就顯得尤為重要。
解決方法
下面就針對前面提出的問題討論一下解決的辦法
雙方之間的網路連線
在這方面有其獨特的優勢,Java提供了豐富的網路類庫的支持,可以輕鬆編寫多種類型的網路通信程式。在我下面的例子中我就使用了TCP/IP協定,通過Java的Socket類進行編程2 音頻信號的採集和回放以及音頻數位訊號的編碼與解碼 在解決這兩個問題的時候,在網上很幸運地通過一些文章的介紹,找到了Answer Machine 演示程式的原始碼(由of j的Florian Bomers 和Matthias Pfisterer編寫,網址在這個程式代碼中,有幾個解決我們問題所需要的類,而且作者將這些類封裝的很好,我們基本不需要做什麼改動,只需要禁止其中的調試信息的輸出就行了,更可貴的是它還封裝了幾種常見的音頻格式。其中的GSM格式(Global System for Mobile Telecommunications)就是我們下面例子中採用的壓縮格式,GSM格式可以將128kbps 的音頻數據流 (16bit通過8k Hz的音頻採樣) 壓縮為13kbps 的音頻數據流,非常適合語音信號的傳送,所以可謂是一石二鳥。
介紹
1、考米網
“考米網”是深圳市盈華訊方通信技術有限公司領先推出的能夠電話聊天交友的網站,在網路交友的基礎上增添電話聊天,提供一對一通話、多人通話、二人電話約會、自建會議聊天室、電話中傳送的語音短訊,設定個性化個人資料等十幾種功能。在不方便使用電腦的時候,也能通過手機、電話撥打400熱線,隨時和網上的好友保持聯繫。
2、YY聊天
是一種YY團隊語音工具,是多玩遊戲網針對中文用戶設計的多人語音群聊工具。 它是一款免費語音軟體,穩定清晰的語音工具,用於遊戲玩家交流等。即時通話,是一款不錯的通訊軟體。
3、ISpeak
ISpeak娛樂互動平台(簡稱IS),是國內專業遊戲語音服務商,擁有上千萬註冊用戶,每天活躍用戶上百萬,公會頻道近10萬個的規模,已經成為國內一流的語音互動平台。
IS以網路遊戲用戶為基礎,提供專業的語音、聊天、社區論壇等。為用戶提供免費的語音頻道和無償服務;為公會提供一個更好的實現自我平台,促進和扶持公會的成長;為廠商提供一個遊戲推廣,服務玩家的超大型互動娛樂社區。
4、QQ語音
騰訊公司一直為使用QQ的用戶提供語音聊天服務。其語音聊天的缺點是通話質量差,只能電腦對電腦傳播,所以一直沒有大範圍傳播開。
原始碼分析
我分析過這幾個類的原始碼,不得不佩服它的作者,每個類的原始碼都很精煉,大家可以自己分析一下。好了下面就給大家講講這幾個類,並且將它們用到的Java Sound API中的類和函式等一併做個簡單介紹,讓大家對Java Sound API中常用的類也有個大致的了解。由於Java Sound API中的類比較多。限於篇幅無法對所有用到的類做詳盡的解釋,以下內容只是簡單提及了各個類的用途和使用規範,有關Java Sound API中類的具體介紹請大家訪問這裡[url=http://java./j2se/1.4.2/docs/api/]查找javax.sound.sampled的相關內容。
以下的提到幾個檔案是從Answer Machine 演示程式的原始碼中提取出來的,由於是開放原始碼的程式,大家在使用的時候請注意相關的
公共協定
AMAudioFormat類(封裝在AMAudioFormat.java檔案中)
AMAudioFormat類封裝了CD、FM、TELEPHONE、GSM這四種質量的音頻格式的參數,使用起來也非常簡單,這樣我們在使用Java Sound API時就不用自己去寫那些複雜的代碼了,但為了明白Java Sound API的原理,我們需要對它的代碼做一下分析。它使用了Java Sound API中的AudioFormat這個類,這個類非常重要,在Java中對任何音頻數據的使用都要實現通過它指定所需要使用的音頻格式,AudioFormat類有一個嵌套的類AudioFormat.Encoding,實際上大部分對AudioFormat類的使用都是使用的這個嵌套的類。
AMAudioFormat類的重要方法:
名稱:getLineAudioFormat
調用格式:getLineAudioFormat(整型音頻格式代號)
返回值: 根據傳遞音頻格式代號生成的AudioFormat對象。
說道這裡大家可能要問了,那么通過Java Sound API可以直接使用GSM格式嗎?答案是比較複雜,但同樣有解決的辦法,作者在這裡使用了另外的開源程式的類庫-tritonus的GSM編碼解碼庫。大家需要在這裡下載tritonous_share.jar和tritonus_gsm.jar兩個檔案,並在AMAudioFormat類中引用,這樣就完成了GSM格式的設定。需要告訴大家的是在對AMAudioFormat.java這個類進行編譯後,我們的程式運行的時候就可以不需要tritonous_share.jar和tritonus_gsm.jar這兩個檔案的支持了。
(封裝在AudioCapture.java檔案中)2
AudioCapture類封裝了從音頻硬體捕獲音頻數據並自動編碼為GSM音頻壓縮數據的過程,並且通過它的getAudioInputStream()方法提供給我們一個音頻數據輸入流,我們就可以直接將這個流傳送到網路中。
AudioCapture 類的重要方法:
名稱:getAudioInputStream
調用格式:getAudioInputStream()
返回值:AudioInputStream對象
AudioCapture 類使用了Java Sound API中的AudioInputStream、AudioFormat、AudioSystem這幾個類和TargetDataLine、LineListener接口。除了AudioFormat類我再簡單介紹一下其他的類:
AudioInputStream 類是帶有特殊音頻格式和長度的InputStream類,它有兩個構造方法,分別是AudioInputStream(InputStream stream, AudioFormat format,long length)和AudioInputStream(TargetData -Line line)。
TargetDataLine 接口是DataLine接口的一種,通過它就可以直接從音頻硬體獲取數據了,它有幾個常用的方法,分別是:open(AudioFormat format)、void open(AudioFormat format, int bufferSize)、int read(byte[] b, int off, int len)。
AudioSystem 類是Java標準音頻系統的入口點,在AudioSystem 類中使用他的getLine() 方法創建TargetDataLine對象。
LineListener接口用來對線路狀態改變的時間進行監聽,他的重要的方法是update(LineEvent event)方法。
(封裝在AudioPlayStream.java檔案中)
AudioPlayStream類與AudioCapture類剛好相反,它封裝了GSM壓縮音頻數據的解碼和音頻信號的回放過程,提供給我們一個音頻信號輸出流。AudioCapture類用到的Java Sound API中的類它也基本都用到了,只是它使用了SourceDataLine接口而不是TargetDataLine接口
(封裝在Debug.java檔案中)
Debug類主要用來在調試時輸出訊息,代碼很少,後來我把其中輸出信息的語句都禁止了,對程式運行沒有影響。
為了方便使用以上的幾個類,我們需要對它們進行編譯和打包,編譯時需要設定相關的編譯環境,以下是我們需要用到的命令行
說明一下,我將以上提到的Java源碼檔案放在了am目錄下,編譯之後可以得到一個8k的am.jar檔案,我們下一步所需要做的就是在我們的程式中引用這個包。
實例介紹
有了以上的基本的介紹,我就可以通過對我寫的一個極為簡單的語音對講軟體代碼的解釋讓大家更清楚地了解一下這幾個模組的具體使用方法,大家可以從中獲得開發具有諸如網路電話、自動應答等功能的軟體的類似方法,用於語音數據的傳輸。
程式的結構
整個程式分三層,作用分別如下:
. 頂層: 用戶界面
. 中間層: 控制層
. 底層: 傳輸層
程式有兩個主要的類: (表)
類名描述
CallLink 網路傳輸層,用於接收或傳送音頻數據。
VoiceSender 作為第二個啟動的執行緒提供從音頻硬體捕獲並編碼好的數據給網路傳輸層。
程式的主類jphone使用了Runnable和ActionListener接口,主類除了基本的幾個方法之外,還具有方法initAudioHardware()、ShowMSG、startPhone分別用於初始化AudioCapture類與AudioPlayStream類、顯示程式狀態和開始程式。主類jphone具有兩個子類VoiceSender和CallLink。
子類VoiceSender同樣使用了Runnable接口,它在程式中作為第二個啟動的執行緒負責傳送捕獲到的音頻數據。CallLink子類就是負責建立scoket連線,並且負責接收或傳送網路數據、監聽網路連線等功能的實現。它具有主要的方法是getInputStream()、getOutputStream()、listen()、open()、close()等。
為了讓大家更清楚的了解程式的結構請大家看下面的類圖。
程式工作流程
當程式啟動時首先執行建立當前主類的實例,當按下呼叫按鈕的時候執行startPhone()方法,startPhone()方法通過調用initAudioHardware()方法建立AudioCapture對象和AudioPlayStream對象的實例PhoneMIC和PhoneSPK, 緊接著在建立CallLink子類的實例curCallLink來與具有目標IP位址的計算機進行scoket連線後,startPhone()方法又將子類VoiceSender作為secondThread執行緒啟動,然後又調用run()方法。 run()方法通過已經建立的CallLink子類的實例curCallLink監聽網路上的數據(也就是等待別人的呼叫),一旦有音頻數據到來curCallLink 實例就為AudioPlayStream 對象PhoneSPK 提供網路傳來的音頻數據,而PhoneSPK在一個循環中不斷的將音頻數據轉換為音頻信號,完成類似電話聽筒的功能。
子類VoiceSender 就作為第二執行緒啟動的時候,startPhone() 方法傳遞給它的參數是實例化的CallLink 子類curCallLink , 子類VoiceSender 通過實例化的AudioCapture 對象PhoneMIC 將音頻信號壓縮成GSM數據,並通過curCallLink 將音頻數據傳送到具有目標IP 地址的計算機上,完成類似電話受話器的功能。
在這裡實例化的CallLink 子類curCallLink 就相當於兩個電話之間的電話線,這樣通過我以上的解釋大家對程式的原理就有一個大概的了解了吧。
其中的音頻數據傳送執行緒和音頻數據接收執行緒是同步的,不過考慮到網路的因素,可能在聲音的傳輸上有一些延遲,不過由於延遲比較小對及時聽到對方的話語影響不大。
編寫代碼摘要
在使用AudioCapture 類和AudioPlayStream 類的方法之前需要知道怎樣初始化這兩個類。在聲明AudioCapture 對象的時候需要傳遞給它一個靜態的整型值用於表達將音頻信號壓縮的方式,這個靜態的整型常量可以是AMAudioFormat 類的以下四個值之一: FORMAT_CODE_CD 、FORMAT_CODE_FM 、FORMAT
所以聲明AudioCapture 對象就要用一下的形式:
private AudioCapture PhoneMIC null;
PhoneMIC new AudioCapture
FORMAT_CODE_GSM);
而聲明AudioPlayStream 對象則不同,我們在初始化它的時候需要傳遞給它一個AudioFormat 對象,用於通知它我們所要播放音頻的格式,這個AudioFormat 對象可以通過AMAudioFormat 類的getLineAudioFormat(格式參數值)方法獲得,其中格式參數的取值和上面提到過的AMAudioFormat 的四個值相同,所以聲明AudioPlayStream 對象就要用以下的形式:
private AudioPlayStream PhoneSPK null;
在這之後就可以使用AudioCapture 和AudioPlayStream 對象的open() 方法打開音頻捕獲和音頻回放通道完成它們的初始化了。如以下的形式:
PhoneMIC.open();
PhoneSPK.open();
初始化完成之後要使AudioPlayStream 對象播放聲音還需要以下過程,首先建立一個緩衝區(位元組數組)用於存放從網路傳來的音頻數據流,然後執行AudioPlayStream 對象的start() 方法使AudioPlayStream
對象開始聲音的回放,這時執行一個while 循環,在循環中將音頻流數據寫入緩衝區,再使用AudioPlayStream對象的write()方法將緩衝區的數據還原成語音信號然後播放出來。如下面的例子:
其中complete 的值用於標誌終止聲音播放的異常原因。
類似的,初始化完成之後要使AudioCapture 對象捕獲和壓縮聲音數據還需要其他的操作,首先聲明一個InputStream 對象,賦其值為AudioCapture 對象的getAudioInputStream() 方法的返回值,執行
對象的start() 方法,然後在建立一個循環,將通過InputStream 的read() 方法得到的數據傳送到網路上。例如以下代碼:
sendStream.write(compressedVoice,0,b);
......
通過使用CallLink 的幾個方法,我們可以方便的傳輸和接收音頻數據流。以下是它的代碼:
//使用套接字進行連線
void open() throws IOException, UnknownHostException
//打開網路連線
// 監聽,等候呼叫
inServSock new ServerSocket(TALK_PORT);
inSock inServSock.accept();
public InputStream getInputStream()throws IOException
//返回音頻數據輸入流
H if (inSock != null)
return inSock.getInputStream();
else
return null;
publicOutputStreamgetOutputStream()throwsIOException
//返回音頻數據輸出流
if (outSock != null)
return outSock.getOutputStream();
else
return null;
void close() throws IOException
//關閉網路連線 ;
inSock.close();
outSock.close();
程式的代碼總體有366 行,限於篇幅,這裡就不一一列舉了。
編譯以及程式的使用方法:
運行和編譯本程式需要加上額外的環境參數,為了方便使用可以建立以下內容的批處理檔案:(假設程式所需要的包均在程式所在目錄下的lib 資料夾中)
用於編譯的批處理程式c.bat 的內容
javac -classpath .;lib\am.jar jphone.java
用於運行的批處理程式r.bat 的內容
java -classpath .;lib\am.jar jphone
啟動時在A 計算機的IP 地址框內輸入要進行連線的計算機B 的IP 地址,在計算機B 的IP 地址框內輸入要進行連線的計算機A 的IP 地址,讓後分別點擊“撥出電話”按鈕就可以進行連線了。當然別忘了接上麥克風和打開音箱電源,呵呵。
提醒大家,這裡的IP 地址欄里預先存在的地址是127.0.0.1,也就是說,程式也可以和自己進行連線,點擊“撥出電話”按鈕,等8 秒左右敲敲你的麥克風,聽到沒有,是不是也有“嘣、嘣、嘣”的聲音??