
概述
在多媒體套用中,常見的壓縮方法有:PCM(脈衝編碼調製),預測編碼,變換編碼,插值和外推法,統計編碼,矢量量化和子帶編碼等,混合編碼是近年來廣泛採用的方法。mp3 divX Xvid jpeg rm rmvb wma wmv等都是有損壓縮。有損數據壓縮方法是經過壓縮、解壓的數據與原始數據不同但是非常接近的壓縮方法。有損數據壓縮又稱破壞型壓縮,即將次要的信息數據壓縮掉,犧牲一些質量來減少數據量,使壓縮比提高。這種方法經常用於網際網路尤其是流媒體以及電話領域。在這篇文章中經常成為編解碼。它是與無損數據壓縮對應的壓縮方法。根據各種格式設計的不同,

類型
有兩種基本的有損壓縮機制:一種是有損變換編解碼,首先對圖像或者聲音進行採樣、切成小塊、變換到一個新的空間、量化,然後對量化值進行熵編碼。另外一種是預測編解碼,先前的數據以及隨後解碼數據用來預測當前的聲音採樣或者或者圖像幀,預測數據與實際數據之間的誤差以及其它一些重現預測的信息進行量化與編碼些系統中同時使用這兩種技術,變換編解碼用於壓縮預測步驟產生的誤差信號。
有損與無損壓縮比較
有損方法的一個優點就是在有些情況下能夠獲得比任何已知無損方法小得多的檔案大小,同時又能滿足系統的需要。有損方法經常用於壓縮聲音、圖像以及視頻。有損視頻編解碼幾乎總能達到比音頻或者靜態圖像好得多的壓縮率(壓縮率是壓縮檔案與未壓縮檔案的比值)。

常見格式
——MP3(MP3PRO\MP3SURROUND)、AAC(*.3gp/*.mp4/*.m4v)、ATRAC3/ATRAC3+(*.aa3)。先來明白音頻壓縮的原理:利用人耳聽覺的心理聲學特性(頻譜掩蔽特性和時間掩蔽特性等)以及人耳對信號幅度、頻率、時間的有限分辨能力,編碼時凡是人耳感覺不到的頻率不編碼、不傳送,即凡是對人耳辨別聲音信號的強度、聲調、方位沒有貢獻的部分(稱為不相關部分或無關部分)都不編碼和傳送。對感覺不到的部分進行編碼時,允許有較大的量化失真、並使其處於聽閾(即人耳所能聽到的最低音量)以下,人耳仍然感覺不到。音頻的壓縮就是利用這些特點來工作的。

1、等響度曲線人的聽覺的靈敏度隨著頻率而改變。即通常兩個功率一樣但頻率不同的音調聽起來並不一樣響。通過等響度曲線,我們可以看出,人耳對4KHz的頻率最靈敏,即在4KHz下能被察覺出來的聲音壓力水平(響度),在其他頻率下並不能被察覺。這就給在一些不太靈敏的頻率下失真提供了條件。
2、禁止我們上高中物理時學過禁止。就是強的聲音信號把弱的聲音信號覆蓋,導致我們無法察覺。而且,當兩個聲音在時間和頻率上很接近時,禁止效應就會很強。因此,我們可以在編碼時對被禁止的部分不編碼、不傳送。這樣,音質依然沒有大的損失,人耳也不易察覺。
3、臨界頻帶對於人類的聽覺來說,對聲音的感知特性並不是以線形頻率為尺度來變化的(人的聽覺還沒那么好),而是可以用被稱為臨界頻帶的一系列有限的頻段來表達。簡單的說,把整個頻帶劃分成幾段,在這每個頻段里,人耳的聽覺感知是相同的,即心理聲學特性都是一樣的。言歸正傳,編碼的精髓就是算法。主流編碼及其算法1、MP3(MP3PRO\MP3SURROUND)MP3應該算目前套用最廣泛的有損壓縮數字音頻格式了。它的全稱是MPEG(MovingPictureExpertsGroup)AudioLayer-3。1987年德國Fraunhofer研究院研製成功的一種有損壓縮數字音頻格式,並於1989年取得專利。起初,它並不完善,它更像一個編碼標準框架,留待人們去完善。1992年,這一技術併入了MPEG規範,並有了正式名號——MP3。MP3檔案是由幀(frame)構成的,幀是MP3檔案最小的組成單位。什麼是幀?還記得最初的動畫是怎么做的嗎?不同的連續畫面切換以達到動態效果,每幅畫面就是一個“幀”,不同的是MP3裡面的幀記錄的是音頻數據而不是圖形數據。MP3的幀速度大概是30幀/秒。每個幀又由幀頭和幀數據組成,幀頭記錄著該幀的基本信息,包括位率索引和採樣率索引(這對理解ABR和VBR編碼方式很重要)。幀數據,顧名思義就是記錄著主體音頻數據。上面說的都是MP3編碼的基礎,但事實上,早期的編碼器都非常不完善,壓縮算法近於粗暴,音質很不理想。MP3的音質達到現在的水平有兩次飛躍:人體聽覺心理學模型(PerceptualModel)的導入和VBR技術的套用。PS:VBR是variablebitrate的縮寫,意思是可變比率,就是MP3檔案壓制的時候聲音元素較多,比率較高時,將自動減低壓縮比特率,在比特率需求比較低時自動升高比特率,這樣做的目的是在保證音質基本不被損害的情況下增加檔案線上播放時的速度,和減少在本機播放時所占的系統資源……這是Xing發展的算法,他們將一首歌的複雜部分用高Bitrate編碼,簡單部分用低Bitrate編碼。主意雖然不錯,可惜Xing編碼器的VBR算法很差,音質與CBR相去甚遠。幸運的是,Lame完美地最佳化了VBR算法,使之成為MP3的最佳編碼模式。這是以質量為前提兼顧檔案大小的方式,推薦編碼模式。MP3能生存到今天,它的發展仍未止步。2001年6月14日,法國湯姆森與美國RCA兩家公司聯合推出了一種新的壓縮格式:MP3PRO。MP3PRO是基於MP3技術改良而來,它利用了CodingTechnologies公司開發的編解碼增強技術,

2、AAC(*.3gp/*.mp4/*.m4v)AAC是高級音頻編碼(AdvancedAudioCoding)的縮寫,它是由Fraunhofer研究院、杜比和AT&T共同研發的。AAC是MPEG-2規範的一部分,它適用於從速率8Kbps的單聲道電話音質到160Kbps多聲道的超高質量音頻範圍內的編碼。AAC與MP3相比,增加了諸如對立體聲的完美再現、碼流效果音掃描、多媒體控制、降噪最佳化等MP3音頻格式所沒有的特性,使得在音頻壓縮後仍能完美地再現CD音質。它還同時支持多達48個音軌、15個低頻音軌、更多種採樣率和比特率、多種語言的兼容性、更高的解碼效率。總之,AAC可以在比MP3檔案縮小30%的前提下提供更好的音質。現將其中的幾個模組作一些說明:增益控制(Gaincontrol)增益控制模組用在可變採樣率配置中,它由多相正交濾波器PQF(polyphasequadraturefilter)、增益檢測器(gaindetector)和增益修正器(gainmodifier)組成。這個模組把輸入信號分離到4個相等頻寬的頻帶中。在解碼器中也有增益控制模組,通過忽略PQF的高子帶信號獲得低採樣率輸出信號。濾波器組(FilterBank) 濾波器組是把輸入信號從時域變換到頻域的轉換模組,它是MPEG-2AAC系統的基本模組。這個模組採用了改進離散餘弦變換MDCT,它是一種線性正交交迭變換,使用了一種稱為時域混迭取消TDAC(timedomainaliasingcancellation)技術。MDCT使用KBD(Kaiser-Besselderived)視窗或者使用正弦(sine)視窗,

3、ATRAC3/ATRAC3+(*.aa3)早年玩MD的朋友都知道SONY專為MD量身定做的ATRAC音頻格式算法,後來又廣泛套用於SONY的NetworkWalkman和其他便攜音頻設備。“ATRAC3plus”代表“自適應轉換聲音編碼3+”,是一套基於心理聲學原理的音頻壓縮技術,從ATRAC3格式發展而來,到2002年這項技術才日趨完美。這一技術是把md隨身聽的體積縮小到很小的理論基礎。要分析ATRAC3/ATRAC3+,我們先要談談它的大哥——ATRAC算法。當數字音頻數據被壓縮時,通常都會把一定數量的量化噪音帶入信號。為了不讓這些信號被人耳感知,通常的做法是,音頻編碼把信號分解為一組單元,每組單元都對應著特定的時間頻率範圍。編碼器會依據前文提到的心理聲學原理來分析,對重要的單元進行高精度編碼,對不敏感的單元可以保留一些量化的噪音但不影響人耳的感知質量。解碼時,量化頻譜會根據比特分配重新建立,然後合成音頻信號。ATRAC也不例外,但有一些改進。ATRAC還套用了子頻帶解碼和轉換解碼技術,輸入的信號被分配得到不均勻的強調重要低音區的頻率分割。另外,ATRAC使用一個可變塊長度改變輸入的信號,這可以確保在穩定通過時高效的解碼,不會在瞬間通過時影響時間的解析度。具體說,輸入的信號在5.5125KHz和11.025KHz被分為3個頻帶。子頻帶的分解使用QMF(QuadratureMirrorFilters積分映射過濾器)來完成;

4、AAL(ATRACAdvancedLossless)AAL是ATRACAdvancedLossless(自適應聲學轉換高級無損編碼)的縮寫,是SONY新開發的一個音頻壓縮格式其特點是無損壓縮,不損失一點音頻信息,一張CD可以壓縮到原來的30%--80%但目前PSP還不支持ATRACAdvancedLossless,但我相信在PSP3.0里極有可能對其支持。目前,其技術資料我還沒有見到,所以暫不作分析。
其它
一個音樂檔案從錄製到播放,有3個重要環節:編碼(算法)、解碼(硬體解碼器)、輸出(耳機、耳塞)。這每個環節都對最終我們聆聽到的聲音音質有著重要的意義,缺一不可。今天,我談的是基礎的編碼(算法),希望大家能找到最適合你的編碼,我個人的看法是AAC256Kbps和ATRAC3plus256Kbps。AAC的算法是“精緻”,ATRAC的算法是“巧妙”。