MP3[一種音頻編碼方式]

MP3[一種音頻編碼方式]
更多義項 ▼ 收起列表 ▲

MP3是一種音頻壓縮技術,其全稱是動態影像專家壓縮標準音頻層面3(Moving Picture Experts Group Audio Layer III),簡稱為MP3。它被設計用來大幅度地降低音頻數據量。利用 MPEG Audio Layer 3 的技術,將音樂以1:10 甚至 1:12 的壓縮率,壓縮成容量較小的檔案,而對於大多數用戶來說重放的音質與最初的不壓縮音頻相比沒有明顯的下降。它是在1991年由位於德國埃爾朗根的研究組織Fraunhofer-Gesellschaft的一組工程師發明和標準化的。用MP3形式存儲的音樂就叫作MP3音樂,能播放MP3音樂的機器就叫作MP3播放器。

特點

MP3是利用人耳對高頻聲音信號不敏感的特性,將時域波形信號轉換成頻域信號,並劃分成多個頻段,對不同的頻段使用不同的壓縮率,對高頻加大壓縮比(甚至忽略信號)對低頻信號使用小壓縮比,保證信號不失真。這樣一來就相當於拋棄人耳基本聽不到的高頻聲音, 只保留能聽到的低頻部分,從而將聲音用1∶10甚至1∶12的壓縮率壓縮。由於這種壓縮方式的全稱叫MPEG Audio Player3,所以人們把它簡稱為MP3。

根據MPEG規範的說法,MPEG-4中的AAC(Advanced audio coding)將是MP3格式的下一代。

最高參數的MP3(320Kbps)的音質較之CD的,FLAC和APE無損壓縮格式的差別不多,其優點是壓縮後占用空間小,適用於移動設備的存儲和使用。

MP3播放器正在走向消亡

剛剛問世時,MP3播放器是數字革命的先鋒。然而隨著消費者轉向智慧型手機等其他數碼產品,2012年英國市場iPod和其他MP3播放器的銷量大幅下降。

根據市場研究公司Mintel的數據,2012年,英國市場MP3播放器的銷售額為1.1億英鎊(約合1.78億美元),僅為2011年3.81億英鎊的29%。Mintel預計,到2017年,英國市場MP3播放器的總銷售額還將下降一半。而在最壞的情況下,5年後英國市場MP3播放器總銷售額將僅為2500萬美元。

1、MP3是一個數據壓縮格式;

2、它丟棄掉脈衝編碼調製(PCM)音頻數據中對人類聽覺不重要的數據(類似於JPEG是一個有損圖像壓縮),從而達到了小得多的檔案大小;

3、MP3音頻可以按照不同的位速進行壓縮,提供了在數據大小和聲音質量之間進行權衡的一個範圍,MP3格式使用了混合的轉換機制將時域信號轉換成頻域信號;

4、32波段多相積分濾波器(PQF);

5、36或者12 tap 改良離散餘弦濾波器(MDCT);每個子波段大小可以在0...1和2...31之間獨立選擇;

6、MP3不僅有廣泛的用戶端軟體支持,還有很多的硬體支持比如攜帶型媒體播放器(指MP3播放器)DVD和CD播放器,去電

歷史

起源

1、MPEG-1 Audio Layer 2編碼開始時是德國Deutsche Forschungs- und Versuchsanstalt für Luft- und Raumfahrt(後來稱為Deutsches Zentrum für Luft- und Raumfahrt, 德國太空中心)Egon Meier-Engelen管理的數字音頻廣播(DAB)項目。這個項目是歐盟作為EUREKA研究項目資助的,它的名字通常稱為EU-147。EU-147 的研究期間是1987年到1994年。

2、到了1991年,就已經出現了兩個提案:Musicam(稱為Layer 2)和ASPEC(自適應頻譜感知熵編碼)。荷蘭飛利浦公司、法國CCETT和德國Institut für Rundfunktechnik提出的Musicam方法由於它的簡單、出錯時的健壯性以及在高質量壓縮時較少的計算量而被選中。基於子帶編碼的Musicam 格式是確定MPEG音頻壓縮格式(採樣率、幀結構、數據頭、每幀採樣點)的一個關鍵因素。這項技術和它的設計思路完全融合到了ISO MPEG Audio Layer I、II 以及後來的Layer III(MP3)格式的定義中。在Mussmann教授(University of Hannover)的主持下,標準的制定由Leon van de Kerkhof(Layer I)和Gerhard Stoll(Layer II)完成。

3、一個由荷蘭Leon Van de Kerkhof、德國Gerhard Stoll、法國Yves-François Dehery和德國Karlheinz Brandenburg 組成的工作小組吸收了Musicam和ASPEC的設計思想,並添加了他們自己的設計思想從而開發出了MP3,MP3能夠在128kbit/s達到MP2 192kbit/s 音質。

4、所有這些算法最終都在1992年成為了MPEG的第一個標準組MPEG-1的一部分,並且生成了1993年公布的國際標準ISO/IEC 11172-3。MPEG音頻上的更進一步的工作最終成為了1994年制定的第二個MPEG標準組MPEG-2標準的一部分,這個標準正式的稱呼是1995年首次公布的ISO/IEC 13818-3。

5、編碼器的壓縮效率通常由位速定義,因為壓縮率依賴於位數(:en:bit depth)和輸入信號的採樣率。然而,經常有產品使用CD參數(44.1kHz、兩個通道、每通道16位或者稱為2x16位)作為壓縮率參考,使用這個參考的壓縮率通常較高,這也說明了壓縮率對於有損壓縮存在的問題。

6、Karlheinz Brandenburg使用CD介質的Suzanne Vega的歌曲Tom’s Diner來評價MP3壓縮算法。使用這首歌是因為這首歌的柔和、簡單旋律使得在回放時更容易聽到壓縮格式中的缺陷。一些人開玩笑地將Suzanne Vega稱為“MP3之母”。來自於EBU V3/SQAM參考CD的更多一些嚴肅和critical 音頻選段(glockenspiel,triangle,accordion...)被專業音頻工程師用來評價MPEG音頻格式的主觀感受質量。

各式各樣的MP3 各式各樣的MP3

走向大眾

為了生成位兼容的MPEGAudio檔案(Layer 1.Layer 2.Layer 3),ISO MPEG Audio委員會成員用C語言開發的一個稱為ISO 11172-5的參考模擬軟體。在一些非實時作業系統上它能夠演示第一款壓縮音頻基於DSP的實時硬體解碼。一些其它的MPEG Audio實時開發出來用於面向消費接收機和機頂盒的數字廣播(無線電DAB和電視DVB)。

後來,1994年7月7日Fraunhofer-Gesellschaft發布了第一個稱為l3enc的MP3編碼器。

Fraunhofer開發組在1995年7月14日選定擴展名.mp3(以前擴展名是.bit)。使用第一款實時軟體MP3播放器Winplay3(1995年9月9日發布)許多人能夠在自己的個人電腦上編碼和回放MP3檔案。由於當時的硬碟相對較小(如500MB),這項技術對於在計算機上存儲娛樂音樂來說是至關重要的。

MP2、MP3與網際網路

1993年10月,MP2(MPEG-1 Audio Layer 2)檔案在網際網路上出現,它們經常使用Xing MPEG Audio Player播放,後來又出現了Tobias Bading為Unix開發的MAPlay。MAPlay於1994年2月22日首次發布,已經移植到微軟視窗平台上。

剛開始僅有的MP2編碼器產品是Xing Encoder和CDDA2WAV,CDDA2WAV是一個將CD音軌轉換成WAV格式的CD抓取器。

Internet Underground Music Archive(IUMA)通常被認為是線上音樂革命的鼻祖,IUMA是網際網路上第一個高保真音樂網站,在MP3和網路流行之前它有數千首授權的MP2錄音。

從1995年上半年開始直到整個九十年代後期,MP3開始在網際網路上蓬勃發展。MP3的流行主要得益於如Nullsoft於1997年發布的Winamp和Napster於1999年發布的Napster這樣的公司和軟體包的成功,並且它們相互促進發展。這些程式使得普通用戶很容易地播放、製作、共享和收集MP3檔案。

關於MP3檔案的點對點技術檔案共享的爭論在最近幾年迅速蔓延—這主要是由於壓縮使得檔案共享成為可能,未經壓縮的檔案過於龐大難於共享。由於MP3檔案通過網際網路大量傳播一些主要唱片廠商通過法律起訴Napster來保護它們的著作權(參見智慧財產權)。

如iTunes Music Store這樣的商業線上音樂發行服務通常選擇其它或者專有的支持數字著作權管理(DRM)的音樂檔案格式以控制和限制數字音樂的使用。支持DRM的格式的使用是為了防止受著作權保護的素材免被侵犯著作權,但是大多數的保護機制都能被一些方法破解。這些方法能夠被計算機高手用來生成能夠自由複製的解鎖檔案。一個顯著的例外是微軟公司的Windows Media Audio 10格式,它還沒有被破解。如果希望得到一個壓縮的音頻檔案,這個錄製的音頻流必須進行壓縮並且帶來音質的降低,

音頻質量

因為MP3是一種有損壓縮格式,它提供了多種不同“比特率”(bit rate)的選項—也就是用來表示每秒音頻所需的編碼數據位數。典型的速度介於128kbps和320kbps(kbit/s)之間。與此對照的是,CD上未經壓縮的音頻比特率是1411.2 kbps(16 位/採樣點 × 44100 採樣點/秒 × 2 通道)。

使用較低比特率編碼的MP3檔案通常回放質量較低。使用過低的比特率,“壓縮噪聲(compression artifact)”(原始錄音中沒有的聲音)將會在回放時出現。說明壓縮噪聲的一個好例子是:壓縮歡呼的聲音;由於它的隨機性和急劇變化,所以編碼器的錯誤就會更明顯,並且聽起來就象回聲。

除了編碼檔案的比特率之外;MP3檔案的質量,也與編碼器的質量以及編碼信號的難度有關。使用優質編碼器編碼的普通信號,一些人認為128kbit/s的MP3以及44.1kHz的CD採樣的音質近似於CD音質,同時得到了大約11:1的壓縮率。在這個比率下正確編碼的MP3隻能夠獲得比調頻廣播更好的音質,這主要是那些模擬介質的頻寬限制、信噪比和其他一些限制。然而,聽力測試顯示經過簡單的練習測試聽眾能夠可靠地區分出128kbit/s MP3與原始CD的區別。在許多情況下他們認為MP3音質太低是不可接受的,然而其他一些聽眾或者換個環境(如在嘈雜的車中或者聚會上)他們又認為音質是可接受的。很顯然,MP3編碼的瑕疵在低端音效卡或者揚聲器上比較不明顯而在連線到計算機的高質量立體聲系統,尤其是使用高保真音響設備或者高質量的耳機時則比較明顯。

Fraunhofer Gesellschaft(FhG)在他們的官方網站上,公布了下面的MPEG-1 Layer 1/2/3的壓縮率和數據速率用於比較:

Layer 1: 384 kbit/s,壓縮率 4:1

Layer 2: 192 - 256 kbit/s,壓縮率 8:1-6:1

Layer 3: 112 - 128 kbit/s,壓縮率 12:1-10:1

不同層面之間的差別是因為它們使用了不同的心理聲學模型導致的;Layer 1的算法相當簡單,所以透明編碼就需要更高的比特率。然而,由於不同的編碼器使用不同的模型,很難進行這樣的完全比較。

許多人認為所引用的速率,出於對Layer 2和Layer 3記錄的偏愛,而出現了嚴重扭曲。他們爭辯說實際的速率如下所列:

Layer 1: 384 kbit/s 優秀

Layer 2: 256 - 384 kbit/s 優秀,224 - 256 kbit/s 很好,192 - 224 kbit/s 好

Layer 3: 224 - 320 kbit/s 優秀,192 - 224 kbit/s 很好,128 - 192 kbit/s 好

當比較壓縮機制時,很重要的是要使用同等音質的編碼器。將新編碼器與基於過時技術甚至是帶有缺陷的舊編碼器比較可能會產生對於舊格式不利的結果。由於有損編碼會丟失信息這樣一個現實,MP3算法通過創建人類聽覺總體特徵的模型儘量保證丟棄的部分不被人耳識別出來(例如,由於noise masking),不同的編碼器能夠在不同程度上實現這一點。

一些可能的編碼器:

Mike Cheng在1998年早些時候首次開發的LAME。 與其他相比,它是一個完全遵循LGPL的MP3編碼器,它有良好的速度和音質,甚至對MP3技術的後繼版本形成了挑戰。

Fraunhofer Gesellschaft:有些編碼器不錯,有些有缺陷。

許多的早期編碼器已經不再廣泛使用:

ISO dist10

Xing

BladeEnc

ACM Producer Pro.

好的編碼器能夠在128到160kbit/s下達到可接受的音質,在160到192kbit/s下達到接近透明的音質。所以不在特定編碼器或者最好的編碼器話題內說128kbit/s或者192kbit/s下的音質是容易引起誤解的。一個好的編碼器在128kbit/s下生成的MP3有可能比一個不好的編碼器在192kbit/s下生成的MP3音質更好。另外,即使是同樣的編碼器同樣的檔案大小,一個不變比特率的MP3可能比一個變比特率的MP3音質要差很多。

需要注意的一個重要問題是音頻信號的質量是一個主觀判斷。安慰效果 (Placebo effect) 是很嚴重的,許多用戶聲明要有一定水準的透明度。許多用戶在A/B測試中都沒有通過,他們無法在更低的比特率下區分檔案。一個特定的比特率對於有些用戶來說是足夠的,對於另外一些用戶來說是不夠的。每個人的聲音感知可能有所不同,所以一個能夠滿足所有人的特定心理聲學模型並不明顯存在。僅僅改變試聽環境,如音頻播放系統或者環境可能就會顯現出有損壓縮所產生的音質降低。上面給出的數字只是大多數人的一個大致有效參考,但是在有損壓縮領域真正有效的壓縮過程質量測試手段就是試聽音頻結果。

如果你的目標是實現沒有質量損失的音頻檔案或者用在演播室中的音頻檔案,就應該使用無損壓縮(Lossless)算法,目前能夠將16位PCM音頻數據壓縮到38%並且聲音沒有任何損失,這樣的無損壓縮編碼有LA 、Sony ATRAC Advanced Lossless、Dolby TrueHD、DTS Master Lossless Audio、MLP、Sony Reality Audio、WavPack、Apple Lossless、TTA、FLAC、Windows Media Audio 9 Lossless (WMA) 和APE (Monkey's Audio)等等。

對於需要進行編輯、混合處理的音頻檔案要儘量使用無損格式,否則有損壓縮產生的誤差可能在處理後無法預測,多次編碼產生的損失將會混雜在一起,在處理之後進行編碼這些損失將會變得更加明顯。無損壓縮在降低壓縮率的代價下能夠達到最好的結果。

一些簡單的編輯操作,如切掉音頻的部分片段,可以直接在MP3數據上操作而不需要重新編碼。對於這些操作來說,只要使用合適的軟體("mp3DirectCut"和"MP3Gain"),上面提到的問題可以不必考慮,

專利問題

MP3 MP3

Thomson Consumer Electronics在認可軟體專利的國家控制著MPEG-/2 Layer 3 專利的授權,這些國家包括美國和日本,歐盟國家不包括在內。Thomson積極地加強這些專利的保護。Thomson已經在歐盟國家被歐洲專利局授予軟體專利,但是還不清楚它們是否會被那裡的司法所加強。參見歐洲專利協定中的軟體專利。

關於Thomson專利檔案、授權協定和費用的最新信息請參考它們的網站。

在1998年9月,FraunhoferInstitute向幾個MP3軟體開發者發去了一封信聲明“發布或者銷售編碼器或者解碼器”需要授權。這封信宣稱非經授權的產品“觸犯了 Fraunhofer和Thomson的專利權。製造、銷售或者發布使用[MPEG Layer-3]標準或者我們專利的產品,你們需要從我們這裡獲得這些專利的授權協定。”

這些專利問題極大地減慢了未經授權的MP3軟體開發並且導致人們的注意力轉向開發和歡迎其它如WMA和Ogg Vorbis這樣的替代品。Windows開發系統的製造商微軟公司從MP3專向它們自有的Windows Media格式以避免與專利相關的授權問題。直到那些關鍵的專利過期之前,未經授權的編碼器和播放器在認可軟體專利的國家看起來都是非法的。

儘管有這些專利限制,永恆的MP3格式繼續向前發展;這種現象的原因看起來是由如下因素帶來的網路效應:

* 熟悉這種格式,不知道有其它可選格式存在,

* 這些可選格式沒有普遍地明顯超過MP3的優勢這樣一個現實,

* 大量的MP3格式音樂,

* 大量的使用這種格式的不同軟體和硬體,

* 沒有DRM保護技術,這使得MP3檔案可以很容易地修改、複製和通過網路重新發布,

* 大多數家庭用戶不知道或者不關心軟體專利爭端,通常這些爭端與他們個人用途而選用MP3格式無關。

另外,專利持有人不願對於開源解碼器加強授權費用的徵收,這也帶來了許多免費MP3解碼器的發展。另外,儘管他們試圖阻止發布編碼器的二進制代碼, Thomson已經宣布使用免費MP3編碼器的個人用戶將不需要支付費用。儘管專利費是許多公司打算使用MP3格式時需要考慮的問題,對於用戶來說並沒有什麼影響,這就帶來了這種格式的廣受歡迎的效應。

Sisvel S.p.A. 和它的美國子公司Audio MPEG,Inc. 以前曾經以侵犯MP3技術專利為由起訴Thomson,但是那些爭端在2005年11月最終以Sisvel給Thomson MP3授權而結束,Motorola也與Audio MPEG簽署了MP3的授權協定。由於Thomson和Sisvel都擁有他們聲稱編解碼器必需的單獨的專利,MP3專利的法律狀態還不清晰。

Fraunhofer的專利在2010年4月已經到期,MP3算法不受專利保護。

相關詞條

相關搜尋

熱門詞條

聯絡我們