測試方法
如何才能分辨出這些因素帶來的究竟是正面的抑或是反面的影響呢?
ABX測試可以帶給我們答案。ABX測試是音頻套用方面常見的用於衡量或比較相同性質的對象之間不可量化的特性(比如音質)的方法。
在這種測試中,測試人會獲得三個分別被標記為A、B和X的音源。A和B是用作參考的,它們一個是被處理過的,另一個是未被處理過的,比如說,一個是原始的WAV檔案,另一個是從WAV檔案壓縮得到的mp3檔案。X是未知的音源,它可能是A,也可能是B。測試人必須通過聆聽比較它是A還是B。右圖是一個典型的ABX測試軟體的界面。
由於選擇只有兩個,不是選A就是選B,有50%的機會選對,因此單純的一次測試並不能說明問題。需要進行統計分析,也就是說,需要進行不止一次的測試。通常的做法一般要求測試人對一個測試重做15遍,每次測試時都會從A和B兩者中隨機抽出一個作為X。根據所有的測試結果進行分析,便可大大減少碰巧選對的可能。從機率上看,一次測試選對的機率是50%,而重複做16次測試都選對的機率則是50%的16次方,即65536分之一。換句話說,如果A和B 之間的差異非常的小,測試人根本就聽不到區別,則測試人的平均結果應是一個趨向於50%的值。如果A和B之間存在著明顯的差異,則測試人的平均結果應有明顯的傾向性。
比如,我們需要比較兩對喇叭的音質。顯然,他們應該具有不同的表現。我們把測試進行7次後,會有128分之一的機會獲得一個虛假的正確答案,即根據測試結果進行統計後得到的匯總結果與實際情況相比是錯誤的。在統計學上,這種情況被稱為“第一類錯誤”。該類錯誤發生的可能性隨著測試次數的增加而減少,測試次數每增加1次,發生錯誤的可能性就隨之減少2分之1。。
現在,我們在CD播放機旁邊放上一個手鐲,然後再進行測試。可以說,這應該對音質不會有任何影響。我們把測試重複40次,成功分辨出音質不同的可能性是2 的40次方分之1。可以說,出錯的幾率是非常小的。但如果測試結果證明放和不放手鐲的確會產生音質上的差別,那必須有一個解釋:可能是測試人聽到操作人員在移動或放下手鐲時發出了聲音;或者每次手鐲放在播放機旁邊時操作員的動作都會變慢;又或者其它各種各樣的非聽覺因素導致出現這樣的結果。
測試規則
關於統計方面的事情,估計也沒有誰有興趣深入討論,就此打住。但從以上的簡單解釋中,我們可以提煉對於ABX盲聽測試的一些規則:
1、想驗證實際上不存在的事情是不可能的。如果你對一件事情有疑問,比如對認為某個音 頻編解碼器會影響音質,你應該通過測試去證實,而不是基於任何假設去 想當然。
2、測試應該以雙盲條件進行。單盲測試意味著你除非通過實際聆聽否則無法分辨出X究竟是A還是B。雙盲測試則意味著測試過程中操作員和測試人都不知道X是 A還是B,以避免可能出現有意或無意的操作員暗示。也即需要第三人專門負責進行切換。在計算機上有相當多的軟體可以進行ABX測試。
3、確保測試人只有在測試完成後才知道結果,包括正式測試前可能會進行的試驗性測試。否則的話,則應改為在每一次測試之後測試人都能知道結果,並能隨時決 定中止測試。
4、測試必須是首次進行。如果不是的話,之前進行的所有測試結果都應一同被匯總考慮。
5、測試人可以保留意見,即測試過程中可以在對自己的判斷不肯定時保留意見,並要求暫停,待後再續。
6、測試過程必須是可重現的,根據相同的測試過程得到的測試結果也應當是一致的。
7、測試過程中的時序也是一個要考慮的方面。比如在連續的測試過程中,應給予相同的時間間隔等,以免測試人的判斷受不同的時序影響而作出猜測。
當然,測試結果也不一定就是“X是A”或者“X是B”這么簡單。比如在MP3編碼的音質測試中,測試人還需要選擇X對A和B的相似度,並由此計算出 MP3 編碼的音質效果。由此還可以擴展出其它測試方法來。