音视频编解码说明

来源：好走旅游网

1 Base

1.1 声音频率

1.2 Frequency

1.2.1 人耳能听到的声音频率到底是多少

振动的物体能使邻近的空气分子振动，这些分子又引起它们邻近的空气分子振动，从而产生声音(Sound)，声音以声波的形式传递，这种传递过程叫声辐射(Sound Radiation)。由于分子振动产生的声波的方向与波传递的方向相同，所以是一种纵波(Iongitudinal wave)。声波仅存在于声源周围的媒质中，没有空气的空间里不可能有声波。声音不仅可在空气内传递，也可在水、土、金属等物体内传递。声音在空气中的传播速度为340m/s(15℃时)。

声波在单位时间内的振动次数称为频率(frequency)，单位赫(Hz)。人耳能够听到的声音的整个范围是20~20000Hz，一般把声音频率分为高频、中频和低频三个频带。听觉好的成年人能听到的声音频率常在30~16000Hz之间，老年人则常在50~10000Hz之间。

声波在传播过程中，空气层的密部和疏部向前移动，如图1–1。由于空气的固有弹性，上述那种疏密的压力变化将依次向四外传播，辐射出一系列有规则的波。声波的波长(wave length)就是这一段路程的长，恰好排列波的一个密部和一个疏部。波长与声源的振动频率和声音传播的速度有关。知道了声波的传播速度和频率，就可以算出波长：C=l·f(式中，C为声波的传播速度m/s；l为声波的波长m；f为声波的频率Hz，)

振动物体产生的声波，也就是空气里的压缩波，传到我们耳朵里就变成各种乐音、谐音或噪声。在声音世界里除基音外，大量存在的是复合音，而频率与基音频率成整数倍的所有分音称为谐音(harmonic tone)，频率比基音高的所有分音统称泛音(over tone)，泛音的频率不必与基音成整数倍关系。乐音内的各个音在频率上都有一定比例，例如，高8度的音的振动频率是基音的频率的2倍。如果同时发出两个或两个以上的音，人耳可以听到悦耳的谐音(和声)，也可能听到刺耳的噪声。当两个音的振动频率之比为较小的整数比时，如1:2、4:4，会得到悦耳的谐音，当频率比为较大的整数比时，如8:9、8:15，听到的将是令人生厌的噪声。乐器在发出基音的同时，总会伴随着一系列泛音的出现，由于不同乐器的泛音并不相同，所以它们发出的同一个音也不相同，就是这些泛音决定了一个乐器所发声音的音色。

频率相同的正弦波之间在时间上的相对位移，称为相位(phase)，用度表示。声波与其它波一样，它整个一周为360°的相位变化，同相声波互相加强，异相声波互相减弱，或倾向互相抵消。

声源的振幅越大，声音越响，声波的幅度能量按高于或低于正常大气压的压力变化量度，这

个变化部分的压强就称声压(sound pressure)，以帕斯卡 (Pa)计量。人耳听觉的声压范围很大，约2´10~2´10Pa。为了方便计算，在实用上通常都以对数方式的声压级 (sound pressure level)表示。0dB是基准，它以人耳刚能听到的声压2´10Pa的1000Hz频率的声音为标准。

声压级变化3dB，声压增加倍，大多数人要在声压级增加6~10dB时，响度才有加倍感觉。人耳能分辨的最小响度变化是1dB。离声源距离每增大1倍，声压级降低6dB，两个声源并存，声压级增加3dB。

声波在传播过程中，遇到障碍物时，只要障碍物的尺寸大于或接近声波的波长，就会产生反射(reflection)而改变其传播方向。部分声波则能绕过障碍物的边缘传播，而声波在通过窄孔时，则将趋向均匀扩散（diffusion)，这就是声绕射(衍射，diffraction)。对频率越高的声音，声绕射越不易产生，其传播辐射的指向性越强。频率越低的声音，由于声绕射作用，障碍物的遮蔽作用越弱。

如果有两个不同声源发出同样的声音，在同一时间以同样强度到达时，声音呈现的方向大致在两个声源之间；如两个同样的声源中的一个延时5~35ms，则感觉声音似乎都来自未延时的声源；如延迟时间在35~50ms时，延时的声源可被识别出来，但其方向仍在未经延时的声源方向；只有延迟时间超过50ms时，第二声源才能象清晰的回声般听到。这种现象就是哈斯效应(Hass effect)。

人类对声源方向的判别，不仅取决于声波传播的物理过程，还与人的听觉生理和心理因素有关。用单只耳朵虽能决定声音的响度、音调和音色等属性，但不能具体确定声源的方向和准确位置，当用两只耳朵听声音时，对声音方向的定位能力就能提高，这就是双耳效应(binaural effect)。双耳效应的依据是声源发出的声音，在到达两只耳朵时，由于距离不等，就存在时间差(Interaural Time Difference)和强度差(Interaural Intensity Difference)。鉴于人的头部双耳间的距离约为16~18cm，是800~1000Hz声音的半波长，所以对频率在800~1000Hz以上的声音，由于头部的遮蔽作用，两耳听到的声音就有强度差异，主要是这种强度差决定了声音在水平面内的定位。频率在800~1000Hz以下的声音，由于声音的绕射作用，双耳的定位能力随着频率的降低而减弱。

双耳效应只能解释前方水平方向上的声音定位，三维空间定位主要依赖于耳廓效应。人类听觉系统的频率响应为声源空间方位角的函数，也就是耳廓对来自各个不同方向的声波频谱进行不同的修正后，才由耳道传到鼓膜，大脑依据声音的频谱特性，就能辨别三维空间中的声源方向。声音从不同角度进入人耳时，由于耳廓的结构会影响声源的定位，所以人类的耳廓对确定声音的空间方向起主要作用，这是美国加州大学Irvine实验室自80年代起所作人类对声源定位的生理和心理研究的结果。

耳廓效应主要对4kHz以上高频段声波产生梳状滤波作用，而且耳廓效应的数学模型HRTF还与人体头部、肩部及躯干对声波的反射、散射及传导等因素有关。双耳效应和耳廓效应赋于人耳全方位辨别声音方向的能力。 1、响度(Loudness)响度是人耳对声音强弱程度的感觉，响度变化大致同声强变化的对数成比例。声音的响度虽主要取决于其强度，但也与其频率和波形有关，人耳对中频的音量变化比

之低频和高频更为敏感，所以听觉是非线性的。对声音各频率与1f000Hz声音在响度上相等的曲线，称为等响曲线响度的计量单位是方(Phon)，人耳在1000~3000Hz频率范围内听觉最灵敏，声压越低，听觉的频率范围越窄，声压越高，频率范围越宽，当响度级达到80Phon以上时，听觉的频率响应趋于平坦。

人耳能听到声音的最微弱强度，称为听觉阈，产生疼痛感的最高声音强度，称为痛觉阈。声音的有用音量范围，即最大值与最小值之比，称为动态范围，如图1–3。在一般家庭中重播音乐的声压级的平均值约需75~85db，音量太低，不能正确鉴定声音质量的好坏。

2、音调(tome)音调是声音调子的高低，是人耳对声音频率的感受。音调高低与频率高低有密切关系，但声音强度及声音长短都会影响人耳对音调的感觉。声音频率每增加一倍，音调升高八度，也就是一个倍频程(oct)。一个声音的听觉阈会因另一个掩蔽声音的存在而上升的现象，称为掩蔽(masking)，通常是低频率的声音容易掩蔽较高频率的声音。

3、音色(timber)音色是人耳对某种声音独特性质的综合感受。音色与多种因素有关，但主要取决于声音的波形，而声音的波形则决定于存在的泛音多少及各自的强度，也即主要取决于各种谐波的相对强度和最突出的谐波的频率，如图1–4。语言和音乐都是由许多频率的声音所组合而成，都具有脉冲性质，是一系列连续的宽度和强度不等，而且频率差异的声脉冲的组合。所以声音具有瞬变特性，它的频谱是声波能量按频率的分布。

1.2.2 均衡器调节基础－声音频率简介

根据人耳听觉极限的频率划分的

低音表现为低沉的鼓声,在人耳的响频中最低中音典型的就是人声,在响频中其次

高音典型的就是尖锐的声音,例如车床切削模具的声音,在人耳响频中最高

高音和低音的区别就在于声带震动的频率不同。高音振幅小频率高，低音振幅大频率低。我们在听的时候感到比较尖细，有金属感的属于高音，比较粗厚有轰鸣感的属于低音

（单位：Hz）听感影响代表乐器 16k－20k

这段频率可能很多人都听不到，因此，听不到此段频率并不意味着器材无法回放，当然也不代表您的听力不够好，只有很少人可以听到20kHz。这段频率可以影响高频的亮度，以及整

体的空间感，这段频率过少会让人觉得有点闷，太多则会产生飘忽感，容易产生听觉疲劳。电子合声、古筝钢琴等乐器的泛音 12k－16k

12k－16k 这段频率能够影响整体的色彩感，所谓小提琴的“松香味”就是由此段频率决定的，这段频率过于黯淡会导致乐器失去个性，过多则会产生毛刺感，后期处理的时候，往往会通过激励器来美化这段频率。

镲、铃、铃鼓、沙锤、铜刷、三角铁等打击乐器的高频泛音 8k－12k

8～12kHz是音乐的高音区，对音响的高频表现感觉最为敏感。适当突出（5dB以下）对音响的的层次和色彩有较大帮助，也会让人感到高音丰富。但是，太多的话会增加背景噪声，例如：系统（声卡、音源）的噪声会被明显地表现出来，同时也会让人感到声音发尖、发毛。如果这段缺乏的话，声音将缺乏感染力和活力。长笛、双簧管、小号、短笛等高音管乐器 4k－8k

这段频率最影响语音的清晰度、明亮度、如果这频率成分缺少，音色则变得平平淡淡；如果这段频率成分过多，音色则变得尖锐，人身可能出现齿音。这段频率通常通过压限器来美化。部分女声（推荐曲目：TheGirlFromIpanema by Gabriela Anders）、以及大部分吹奏类乐器(例如次中音SAX) 2k-4k

这个频率的穿透力很强。人耳耳腔的谐振频率是1-4KHz所以人耳对这个频率也是非常敏感的。如果空虚频率成分过少，听觉能力会变差，语音显得模糊不清了。如果这个频率成分过强了，则会产生咳声的感觉。2～4kHz对声音的亮度影响很大，这段声音一般不宜衰减。这段对音乐的层次影响较大，有适当的提升可以提高声音的明亮度和清晰度，但是在4kHz时不能有过多的突出，否则女声的齿音会过重。部分女声、以及大部分吹奏类乐器 1.2k

1.2kHz可以适当多一点，但是不宜超过3dB，可以提高声音的明亮度，但是，过多会使声音发硬。 1k

1 kHz是音响器材测试的标准参考频率，通常在音响器材中给出的参数是在1 kHz下测试。这是人耳最为敏感的频率。 800

这个频率幅度影响音色的力度。如果这个频率丰满，音色会显得强劲有力；如果这个频率不足，音色将会显得松弛，也就是800Hz以下的成分特性表现突出了，低频成分就明显；而如果这个频率过多了，则会产生喉音感。如果喉音过多了，则会失掉语音的个性，适当的喉音则可以增加性感，因此，音响师把这个频率称为\"危险频率\"，要谨慎使用。人声、部分打击乐器 300－500

在300－500Hz频段的声音主要是表现人声的（唱歌、朗诵），这个频段上可以表现人声的厚度和力度，好则人声明亮、清晰，否则单薄、混浊。人声 150－300

这段频率影响声音的力度，尤其是男声声音的力度。这段频率是男声声音的低频基音频率，同时也是乐音中和弦的根音频率。在80－160Hz频段的声音主要表现音乐的厚实感，音响在这部分重放效果好的话，会感到音乐厚实、有底气。这部分表现得好的话，在80Hz以下缺乏时，甚至不会感到缺乏低音。如果表现不好，音乐会有沉闷感，甚至是有气无力。是许多低音炮音箱的重放上限，具此可判断您的低音炮音箱频率上限。男声 60－100

这段频率影响声音的混厚感，是低音的基音区。如果这段频率很丰满，音色会显得厚实、混厚感强。如果这段频率不足，音色会变得无力；而如果这段频率过强，音色会出现低频共振声，有轰鸣声的感觉。

大鼓、定音鼓，还有钢琴、大提琴、大号等少数存在极低频率的乐器 20－60

这段频率影响音色的空间感，这是因为乐音的基音大多在这段频率以上。这段频率是房间或厅堂的谐振频率。这段频率很难表现，在一些HiFi音响中，不惜切掉这段频率来保证音色的一致性和可听性。

1.3 Bit Rate

采样率*采样比特再压缩编码成码率。码率即位速。

码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒。

通俗一点的理解就是取样率，单位时间内取样率越大，精度就越高，处理出来的文件就越接近原始文件，但是文件体积与取样率是成正比的，所以几乎所有的编码格式重视的都是如何用最低的码率达到最少的失真，围绕这个核心衍生出来的cbr（固定码率）与vbr（可变码率），都是在这方面做的文章，不过事情总不是绝对的，从音频方面来说，码率越高，被压缩的比例越小，音质损失越小，与音源的音质越接近。

Bit rate mode: CBR/ VBR/ ABR（Average Bitrate）平均比特率

码率即位速

采样率比特率(码率) 是决定mp3 清晰度的因素至少44khz采样率的音乐才能谈效果

但码率则不一定采用VBR(可变码率)编码的130多的可以达到192K CBR(固定码率)的效果

音频采样解释

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样率决定声音频率的范围（相当于音调），可以用数字波形表示。以波形表示的频率范围通常被称为带宽。要正确理解音频采样可以分为采样的位数和采样的频率。

1.采样的位数

采样位数可以理解为采集卡处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实。我们首先要知道：电脑中的声音文件是用数字0和1来表示的。所以在电脑上录音的本质就是把模拟声音信号转换成数字信号。反之，在播放时则是把数字信号还原成模拟声音信号输出。采集卡的位是指采集卡在采集和播放声音文件时所使用数字声音信号的二进制位数。采集卡的位客观地反映了数字声音信号对输入声音信号描述的准确程度。8位代表2的8次方--256，16位则代表2的16次方--K。比较一下，一段相同的音乐信息，16位声卡能把它分为K个精度单位进行处理，而8位声卡只能处理256个精度单位，造成了较大的信号损失，最终的采样效果自然是无法相提并论的。如今市面上所有的主流产品都是16位的采集卡，而并非有些无知商家所鼓吹的位乃至128位，他们将采集卡的复音概念与采样位数概念混淆在了一起。如今功能最为强大的采集卡系列采用的EMU10K1芯片虽然号称可以达到32位，但是它只是建立在Direct Sound加速基础上的一种多音频流技术，其本质还是一块16位的声卡。应该说16位的采样精度对于电脑多媒体音频而言已经绰绰有余了。

2.音频采样级别（音频采样频率）

数码音频系统是通过将声波波形转换成一连串的二进制数据来再现原始声音的，实现这个步骤使用的设备是模/数转换器（A/D）它以每秒上万次的速率对声波进行采样，每一次采样都记录下了原始模拟声波在某一时刻的状态，称之为样本。将一串的样本连接起来，就可以描述一段声波了，把每一秒钟所采样的数目称为采样频率或采率，单位为HZ（赫兹）。采样频率越高所能描述的声波频率就越高。采样频率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上，采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级，22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。

3. 位速说明

位速是指在一个数据流中每秒钟能通过的信息量。您可能看到过音频文件用 “128–Kbps MP3” 或 “–Kbps WMA” 进行描述的情形。Kbps 表示 “每秒千字节数”，因此数值越大表示数据越多：128–Kbps MP3 音频文件包含的数据量是 –Kbps WMA 文件的两倍，并占用两倍的空间。（不过在这种情况下，这两种文件听起来没什么两样。原因是什么呢？有些文件格式比其他文件能够更有效地利用数据，–Kbps WMA 文件的音质与 128–Kbps MP3 的音质相同。）需要了解的重要一点是，位速越高，信息量越大，对这些信息进行解码的处理量就越大，文件需要占用的空间也就越多。为项目选择适当的位速取决于播放目标：如果您想把制作的 VCD 放在 DVD 播放器上播放，那么视频必须是 1150 Kbps，音频必须是 224 Kbps。典型的 206 MHz Pocket PC 支持的 MPEG 视频可达到 400 Kbps—超过这个限度播放时就会出现异常。位速还有三种不同形式的：

VBR（Variable Bitrate）动态比特率也就是没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式，推荐编码模式；

ABR（Average Bitrate）平均比特率是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

CBR（Constant Bitrate），常数比特率指文件从头到尾都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的提高

心理声学音频压缩

心理声学一词似乎很令人费解，其实很简单，它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。例如，如果我扯着嗓子喊一声，同时轻轻地踏一下脚，您就会听到我的喊声，但可能听不到我踏脚的声音。通过去掉踏脚声，就会减少信息量，减小文件的大小，但听起来却没有区别

采样率：

采样频率一般共分为22.05KHz、44.1KHz、48KHz三个等级。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。22.05 KHz只能达到FM广播的声音品质，44.1KHz则是理论上的CD音质界

限，48KHz则更加精确一些。对于高于48KHz的采样频率人耳已无法辨别出来了，所以在电脑上没有多少使用价值。

频率：

1.4 S/N

信噪比（S/N）是指音箱回放的正常声音信号与无信号时噪声信号(功率)的比值。用dB表示。例如，某音箱的信噪比为80dB，即输出信号功率比噪音功率大80dB。信噪比数值越高，噪音越小。

Aspect ratio Frame rate Sampling rate Resolution

2 Container

2.1 MKV

首先澄清一个误区，mkv不是一种压缩格式，DivX、XviD才是视频压缩格式，mp3、ogg才是音频压缩格式。而mkv是个“组合”和“封装”的格式，换句话说就是一种容器格式。

举个例子的话就比较容易理解了，把只有视频的XviD和只有音频的mp3组合起来，然后以一种多媒体介质的形式出现，最常见的就是avi，其次就是ogm，还有mp4等不太常见的。

avi的出现已经超过了10年，渐渐体现出老态了，除了近年通过VD可以拥有2个音轨，没有其他的改进。

ogm 的出现，标志着多音轨格式的出现，可以合成8个以上的音轨，音频上自然也多了ogg这个格式，重要的是可以“内挂”字幕，老外称为“软字幕”，可以任意开关，可以“内挂”8个以上的字幕，美中不足的是仅仅支持srt格式，并且不支持Unicode，对亚洲字符支持严重不足。

还有一个就是Chapter功能，可以自定义段落，播放时就可以选择了。是不是越来越像DVD啦？但是当时的ogm源码是不公开的，就那么几个人在开发，自然进度慢了，前一阵几乎陷入了“死亡”。最近宣布公开源码，加入Open Source行列，重新开始开发。

mkv就是在ogm停滞的那段时间出现的，由俄罗斯的程序员开发的，从一开始就是Open Source，因此得到了很多其他程序员的帮助，开发速度相当快。

ogm 有的mkv都有，另外还有很多独特的功能。其中最令人振奋的就是Gabest(开发vobsub的公司)开发的Plugin，不仅开发了专门的播放器 Media Player Classic(俗称MPC)，这个东西的强大相信用过的人都有体会。还开发了很多的MKV用的Mux(合成器)，尤其是Real格式的Mux。 Real的rmvb是封闭格式，官方的Helix根本就不支持多声道所以尽管算法很优秀，但在声效大片的再现上就为力了，只能乖乖让位给可以合成 AC3和DTS的avi以及ogm了。

但Gabest开发的Realmedia Splitter和mkv Mux可以让rmvb格式的视频和AC3、DTS合成mkv，从根本上克服了rmvb音频上的弱点。不仅如此，还开发了VSFilter.dll和 SubtitleSource.ax这2个Plugin，宣布支持ssa和ass的格式软字幕。

总结就是下面几条：

1.支持多种格式的视频和音频，尤其是Real

2.支持多音轨，多达16条以上

3.支持ssa，ass软字幕，多达16条以上

4.支持段落选取(由制作人决定) 【简介】

最近从网上下载了一部电影，它的扩展名是从没见过的MKV，用Media Player Classic可以播放。播放时无意中发现它的视频竟然用的是 RealVideo 9，音轨居然有二条，一条用的是AAC编码，一条是AC3编码，字幕则包括了中文、英文、日文、德文等十几种文字，甚至还有阿拉伯文：这东西太像DVD 了，画质也差不多，不过体积小了很多，它究竟是什么呢？

解惑——万能的多媒体容器

MKV是Matroska的一种媒体文件， Matroska是一种新的多媒体封装格式，它可将多种不同编码的视频及16条以上不同格式的音频和不同语言的字幕流封装到一个Matroska Media文件当中!

多媒体封装格式也称多媒体容器 (Multimedia Container)，它不同于DivX、 MP3这类编码格式，它只是为多媒体编码提供了一个“外壳”，常见的AVl、VOB、 MPEG格式都是属于这种类型。但这些封装格式要么结构陈旧，要么不够开放，正因为如此，才促成了Matroska这类新的多媒体封装格式的诞生。

Matroska媒体定义了三种类型的文件：MKV是视频文件，它里面可能还包含有音频和字幕；MKA是单一的音频文件，但可能有多条及多种类型的音轨；MKS是字幕文件。这三种文件以MKV最为常见。

注目——MKV的特性

看看目前比较流行的多媒体容器类型，例如AVI，它可以容纳多种类型的视频编码和音频编码，像VP6、DivX、XviD等视频编码和PCM、MP3、 AC3等音频编码； VOB则是另一种特点更为鲜明的媒体容器，它可容纳MPEG-2视频流、多个AC3、 DTS、THX、PCM音频流、多个不同语言的图形字幕流。

Matroska最大的特点就是能容纳多种不同类型编码的视频、音频及字幕流，即使是非常封闭的RealMedia及QuickTime也被它包括进去了，并将它们的音视频进行了重新组织来达到更好的效果。可以说是对传统媒体格式的一次大!它现在几乎变成了一个万能的媒体容器。

格式 MKV AVI 错误检测有无可变帧率支持不支持软字幕支持不支持流式传输即将支持不支持菜单即将支持不支持非微软平台支持支持不够视点——MKV的前途如何

Matroska的目标就是要取代旧式的媒体封装格式，其中最主要的目标就是AVI。 AVI已经诞生十几年了，目前它依然还保持着旺盛的生命力，但其原始架构过于陈旧，这使得它在支持新的音视频编码上非常困难，在非微软平台使用也不够方便。而Matroska使用的是

一种开放的架构，拥有众多的先进特性，并且能跨平台使用，这是AVI所望尘莫及的。

不过AVl毕竟树大根深，它拥有最广泛的软硬件支持，而这一点正是衡量MKV是否成功的一个标志，但目前它还做不到这点，现在甚至还没出现一个能直接编辑它的软件，毕竟它诞生还不到一年。但在这么短的时间里，Matroska取得的进展也是非常引人注目的。

但 Matroska毕竟还是一种发展中的技术，它没有深厚的背景可以依托，这决定了它不可能在商业领域(如DV、数字电视)里有所作为，同样的道理，它要想取代 AVI成为一种通用的多媒体封装格式并不会十分顺利。不过，DVDRip的普及历程告诉我们，流行才是硬道理!DVD播放机厂商现在不是也已经放下架子，对DVDRip提供支持了么。所以，Matroska目前最需要做的就是让更多的人知道它。

怎么播放

播放Matroska这类格式并不需要专用的播放器，任何DirectShow的播放器都可以播放MKV、OGM、MP4文件，如常见的Media player Classic、BSplayer、ZoomPlayer播放器等，甚至包括 Windows Media player。

现有的播放器要播放MKV格式仅需安装相应的分离器插件即可。

3 Codec-Video

Codec 中文译名：编解码器

由英文编码器（coder）和译码器（decoder）两词的词头组成的缩略语。指的是数字通信中具有编码、译码功能的器件。

支持视频和音频压缩（CO）与解压缩( DEC ) 的编解码器或软件。CODEC技术能有效减少数字存储占用的空间，在计算机系统中，使用硬件完成CODEC可以节省CPU的资源，提高系统的运行效率。

Codec 编码解码器主要作用是对视频信号进行压缩和解压缩。计算机工业定义通过24位测量系统的真彩色，这就定义了近百万种颜色，接近人类视觉的极限。现在，最基本的V GA显示器就有0*480像素。这意味着如果视频需要以每秒30帧的速度播放，则每秒要传输高达27MB的信息，1GB容量的硬盘仅能存储约37 秒的视频信息。因而必须对信息进行压缩处理。通过抛弃一些数字信息或容易被我们的眼睛和大脑忽略的图像信息的方法，使视频的信息量减小。这个对视频压缩解压的软件或硬件就是编码解码器。编码解码器的压缩率从一般的2 ：1-100：1不等，使处理大量的视频数据成为可能。主流codec介绍 1. x2

X2是国际标准H.2的编码器实现，是一个开源encoder。得益于H.2的高效压缩性能，加之于x2的高效（编码速度快）实现，x2目前被广泛应用于DVDrip领域。目前常用的对应解码器是CoreAVC decoder 及ffmpeg的libavcodec。

2. DivX

MPEG4标准，在MS MPEGV3的基础上实现的MPEG4 codec，早期版本开源，后期版本是商业codec。

DIVX以MPEG4压缩影像，MP3压缩音效，并以AVI文件的格式存在。 3. XviD

MPEG4标准，基于DivX早期开源版本。广泛应用于DVDrip。 XviD以MPEG4压缩影像，MP3压缩音效，并以AVI文件的格式存在。

4. WMV9/VC-1

VC-1的由来：为了进军全球的消费电子、电影及电视广播市场，微软向美国电影与电视工程师协会“捐赠”了其专有的WMV9(Windows Media Video 9)视频编码标准，WMV9摇身一变成了国际标准VC-1。

5. Real

注：Real从version 9.0开始启用了新名称Helix。 6. quicktime

目前网上流行的高清电影预告片，或称片花、trailer，大多是quicktime格式的。Quicktime只是容器格式，其后缀为.mov或.qt，而其采用的视频codec是sorenson codec pro 3，也就是说网上流行的高清片花大多是sorenson codec pro 3压缩的。 7. On2 VP6/7

06年极为火爆的视频分享网站基本上采用了flash version 8的视频解决方案，而flash version 8采用的就是On2 VP6的视频codec。

注：早期的flash视频采用 Sorenson 公司的 Spark 编码器，音频采用 MP3，质量比较差。 8. AVS

虽然目前AVS和主流这个词还挂不上钩，但作为中国唯一的自主产权的音视频编码标准，我们国人自然要坚决地顶它了，希望AVS一路辉煌，恩泽于民。

x2一款全能的、高效的codec，可以称得上codec中的王者；real次之，而且也是全能的；其次是vp6，各方面表现都比较中等；Wmv9和quicktime对自然图像序列的压缩效果还不错，但对于屏幕录制视频的压缩效果很糟糕；xvid优于divx，两者在压缩性能上的表现同x2有一定的差距，即代表了MPEG４同H.2的差距；

视频编码的基本原理

视频图像数据有极强的相关性，也就是说有大量的冗余信息。其中冗余信息可分为空域冗余信息和时域冗余信息。压缩技术就是将数据中的冗余信息去掉（去除数据之间的相关性），压缩技术包含帧内图像数据压缩技术、帧间图像数据压缩技术和熵编码压缩技术。

去时域冗余信息

使用帧间编码技术可去除时域冗余信息，它包括以下三部分：

－运动补偿

运动补偿是通过先前的局部图像来预测、补偿当前的局部图像，它是减少帧序列冗余信息的有效方法。

－运动表示

不同区域的图像需要使用不同的运动矢量来描述运动信息。运动矢量通过熵编码进行压缩。

－运动估计

运动估计是从视频序列中抽取运动信息的一整套技术。

注：通用的压缩标准都使用基于块的运动估计和运动补偿。

去空域冗余信息

主要使用帧间编码技术和熵编码技术：

－变换编码

帧内图像和预测差分信号都有很高的空域冗余信息。变换编码将空域信号变换到另一正交矢量空间，使其相关性下降，数据冗余度减小。

－量化编码

经过变换编码后，产生一批变换系数，对这些系数进行量化，使编码器的输出达到一定的位率。这一过程导致精度的降低。

－熵编码

熵编码是无损编码。它对变换、量化后得到的系数和运动信息，进行进一步的压缩。

视频编码的基本框架（图）

国际音视频压缩标准发展历程 H.261

H.261标准是为ISDN设计，主要针对实时编码和解码设计，压缩和解压缩的信号延时不超过150ms，码率pxkbps(p=1~30)。

H.261标准主要采用运动补偿的帧间预测、DCT变换、自适应量化、熵编码等压缩技术。只有I帧和P帧，没有B帧，运动估计精度只精确到像素级。支持两种图像扫描格式：QCIF和CIF。 H.263

H.263标准是甚低码率的图像编码国际标准，它一方面以H.261为基础，以混合编码为核心，其基本原理框图和H.261十分相似，原始数据和码流组织也相似；另一方面，H.263也吸收了MPEG等其它一些国际标准中有效、合理的部分，如：半像素精度的运动估计、PB帧预测等，使它性能优于H.261。

H.263使用的位率可小于Kb/s,且传输比特率可不固定（变码率）。H.263支持多种分辨率： SQCIF(128x96)、 QCIF、CIF、4CIF、16CIF。

与H.261和H.263相关的国际标准与H.261有关的国际标准

H.320：窄带可视电话系统和终端设备；

H.221：视听电信业务中~1 920Kb/s信道的帧结构； H.230：视听系统的帧同步控制和指示信号；

H.242：使用直到2Mb/s数字信道的视听终端的系统。与H.263有关的国际标准

H.324：甚低码率多媒体通信终端设备；

H.223：甚低码率多媒体通信复合协议； H.245：多媒体通信控制协议；

G.723.1.1：传输速率为5.3Kb/s和6.3Kb/s的语音编码器。 JPEG

国际标准化组织于1986年成立了JPEG(Joint Photographic Expert Group)联合图片专家小组，主要致力于制定连续色调、多级灰度、静态图像的数字图像压缩编码标准。常用的基于离散余弦变换(DCT)的编码方法，是JPEG算法的核心内容。

MPEG-1/2

MPEG-1标准用于数字存储体上活动图像及其伴音的编码，其数码率为1.5Mb/s。 MPEG-1的视频原理框图和H.261的相似。

MPEG-1视频压缩技术的特点：1. 随机存取；2. 快速正向/逆向搜索；3 .逆向重播；4. 视听同步；5. 容错性；6. 编/解码延迟。MPEG-1视频压缩策略：为了提高压缩比，帧内/帧间图像数据压缩技术必须同时使用。帧内压缩算法与JPEG压缩算法大致相同，采用基于DCT的变换编码技术，用以减少空域冗余信息。帧间压缩算法，采用预测法和插补法。预测误差可在通过DCT变换编码处理，进一步压缩。帧间编码技术可减少时间轴方向的冗余信息。

MPEG-2被称为“21世纪的电视标准”，它在MPEG-1的基础上作了许多重要的扩展和改进，但基本算法和MPEG-1相同。 MPEG-4

MPEG-4标准并非是MPEG-2的替代品，它着眼于不同的应用领域。MPEG-4的制定初衷主要针对视频会议、可视电话超低比特率压缩（小于Kb/s）的需求。在制定过程中，MPEG组织深深感受到人们对媒体信息，特别是对视频信息的需求由播放型转向基于内容的访问、检索和操作。

MPEG-4与前面提到的JPEG、MPEG-1/2有很大的不同，它为多媒体数据压缩编码提供了更为广阔的平台，它定义的是一种格式、一种框架，而不是具体算法，它希望建立一种更自由的通信与开发环境。于是MPEG-4新的目标就是定义为：支持多种多媒体的应用，特别是多媒体信息基于内容的检索和访问，可根据不同的应用需求，现场配置解码器。编码系统也是开放的，可随时加入新的有效的算法模块。应用范围包括实时视听通信、多媒体通信、远地监测/监视、VOD、家庭购物/娱乐等。

JVT：新一代的视频压缩标准

JVT是由ISO/IEC MPEG和ITU-T VCEG成立的联合视频工作组（Joint Video Team），致力于新一代数字视频压缩标准的制定。

JVT标准在ISO/IEC中的正式名称为：MPEG-4 AVC(part10)标准；在ITU-T中的名称:H.2（早期被称为H.26L）

H2/AVC

H2集中了以往标准的优点，并吸收了以往标准制定中积累的经验, 采用简洁设计,使它比MPEG4更容易推广。H.2创造性了多参考帧、多块类型、整数变换、帧内预测等新的压缩技术，使用了更精细的分象素运动矢量（1/4、1/8)和新一代的环路滤波器，使得压缩性能大大提高，系统更加完善。

H.2主要有以下几大优点：

－高效压缩：与H.263+和MPEG4 SP相比，减小50%比特率－延时约束方面有很好的柔韧性－容错能力

－编/解码的复杂性可伸缩性－解码全部细节：没有不匹配－高质量应用－网络友善

监控中的视频编码技术

目前监控中主要采用MJPEG、MPEG1/2、MPEG4(SP/ASP)、H.2/AVC等几种视频编码技术。对于最终用户来言他最为关心的主要有：清晰度、存储量（带宽）、稳定性还有价格。采用不同的压缩技术，将很大程度影响以上几大要素。 MJPEG

MJPEG（Motion JPEG）压缩技术，主要是基于静态视频压缩发展起来的技术，它的主要特点是基本不考虑视频流中不同帧之间的变化，只单独对某一帧进行压缩。

MJPEG压缩技术可以获取清晰度很高的视频图像，可以动态调整帧率、分辨率。但由于没有考虑到帧间变化，造成大量冗余信息被重复存储，因此单帧视频的占用空间较大，目前流行的MJPEG技术最好的也只能做到3K字节/帧，通常要8~20K！

MPEG-1/2

MPEG-1标准主要针对SIF标准分辨率(NTSC制为352X240；PAL制为352X288)的图像进行压缩. 压缩位率主要目标为1.5Mb/s.较MJPEG技术，MPEG1在实时压缩、每帧数据量、处理速度上有显著的提高。但MPEG1也有较多不利地方:存储容量还是过大、清晰度不够高和网络传输困难。

MPEG-2 在MPEG-1基础上进行了扩充和提升，和MPEG-1向下兼容，主要针对存储媒体、数字电视、高清晰等应用领域，分辨率为：低(352x288)，中(720x480)，次高(1440x1080)，高(1920x1080)。MPEG-2视频相对MPEG-1提升了分辨率，满足了用户高清晰的要求，但由于压缩性能没有多少提高，使得存储容量还是太大，也不适和网络传输。

MPEG-4

MPEG-4视频压缩算法相对于MPEG-1/2在低比特率压缩上有着显著提高，在CIF（352*288）或者更高清晰度（768*576）情况下的视频压缩，无论从清晰度还是从存储量上都比MPEG1具有更大的优势，也更适合网络传输。另外MPEG-4可以方便地动态调整帧率、比特率，以降低存储量。

MPEG-4由于系统设计过于复杂，使得MPEG-4难以完全实现并且兼容，很难在视频会议、可视电话等领域实现，这一点有点偏离原来地初衷。另外对于中国企业来说还要面临高昂的专利费问题，目前规定：

－每台解码设备需要交给MPEG-LA 0.25美元

－编码/解码设备还需要按时间交费（4美分/天=1.2美元/月 =14.4美元/年）

H.2/AVC

H.2集中了以往标准的优点，在许多领域都得到突破性进展，使得它获得比以往标准好得多整体性能：

－和H.263+和MPEG-4 SP相比最多可节省50％的码率，使存储容量大大降低；

－ H.2在不同分辨率、不同码率下都能提供较高的视频质量；

－采用“网络友善”的结构和语法，使其更有利于网络传输。

H.2采用简洁设计,使它比MPEG4更容易推广，更容易在视频会议、视频电话中实现，更容易实现互连互通，可以简便地和G.729等低比特率语音压缩组成一个完整的系统。

MPEG LA吸收MPEG-4的高昂专利费而使它难以推广的教训，MPEG LA制定了以下低廉的H.2收费标准：H.2广播时基本不收费；产品中嵌入H.2编/解码器时，年产量10万台以下不收取费，超过10万台每台收取0.2美元，超过500万台每台收取0.1美元。低廉的专利费使得中国H.2监控产品更容易走向世界。

监控中视频编码分辨率的选择

目前监控行业中主要使用以下分辨率：SQCIF、QCIF、CIF、4CIF。

SQCIF和QCIF的优点是存储量低，可以在窄带中使用，使用这种分辨率的产品价格低廉；缺点是图像质量往往很差、不被用户所接受。

CIF是目前监控行业的主流分辨率，它的优点是存储量较低，能在普通宽带网络中传输，价格也相对低廉，它的图像质量较好，被大部分用户所接受。缺点是图像质量不能满足高清晰的要求。

4CIF是标清分辨率，它的优点是图像清晰。缺点是存储量高，网络传输带宽要求很高，价格也较

高。

分辨率新的选择－528x384

2CIF（704x288）已被部分产品采用，用来解决CIF清晰度不够高和4CIF存储量高、价格高昂的缺点。但由于704x288只是水平分辨率的提升，图像质量提高不是特别明显。

经过测试，我们发现另外一种2CIF分辨率528x384，比704x288能更好解决CIF、4CIF的问题。特别是在512Kbps－1Mbps码率之间，能获得稳定的高质量图像，满足用户较高图像质量的要求。目前这一分辨率已被许多网络多媒体广播所采用，被广大用户所接受。比如杭州网通网上影院是采用512x384分辨率,在768k下能稳定地获得近似DVD的图像质量。

监控中实现视频编码的最佳方式

目前视频编码正处于一个技术日新月异的时期，视频编码的压缩性能在不断得到提升。

在监控中主要使用ASCI和DSP两种方案。由于ASIC芯片的设计、生产周期过长，使它已跟不上视频编码的发展速度。而DSP芯片，由于它的通用设计，使它能实现各种视频编码算法，并且可以及时更新视频编码器，紧跟视频编码的发展速度。另外使用DSP芯片可以比ASIC更灵活的配置编码器，使编码器达到最佳性能。

海康威视产品目前达到的技术水准

海康威视产品采用最先进的H.2视频压缩算法和高性能的DSP处理器。

强大的H.2视频压缩引擎使产品获得极高的压缩比、高质量的图像质量和良好的网络传输性能。高性能的DSP处理器能灵活的配置视频编/解码器：动态设置分辨率、帧率、码率、图像质量等；可以双码流输出，达到本地存储和网络传输分别处理的功能。

使用TM130X DSP的产品，单个芯片能实时压缩一路以下分辨率的视频：SQCIF、QCIF、CIF、2CIF(PAL:704x288或528x384)。

使用DM2 DSP的产品，单个芯片能实时压缩4路以下分辨率的视频：SQCIF、QCIF、CIF、2CIF(PAL:704x288或528x384)。单个芯片能实时压缩2路4CIF视频。

3.1 MPEG

MPEG的全名为[Moving Pictures Experts Group]，中文译名是动态图像专家组。

MPEG标准主要有以下五个，MPEG-1、MPEG-2、MPEG-4、MPEG-7及MPEG-21等。该专家组建于1988年，专门负责为CD建立视频和音频标准，而成员都是为视频、音频及系统领域的技术专家。及后，他们成功将声音和影像的记录脱离了传统的模拟方式，建立了ISO/IEC1172压缩编码标准，并制定出MPEG-格式，令视听传播方面进入了数码化时代。因此，大家现时泛指的MPEG-X版本，就是由ISO(International Organization for Standardization)所制定而发布的视频、音频、数据的压缩标准。

MPEG标准的视频压缩编码技术主要利用了具有运动补偿的帧间压缩编码技术以减小时间冗余度，利用DCT技术以减小图像的空间冗余度，利用熵编码则在信息表示方面减小了统计冗余度。这几种技术的综合运用，大大增强了压缩性能。 MPEG-1

MPEG-1标准于1992年正式出版，标准的编号为ISO/IEC11172，其标题为“码率约为1.5Mb/s用于数字存贮媒体活动图像及其伴音的编码”。 MPEG-1层1 数字盒式录音带 MPGE-1层2 DAB,VCD,DVD MPGE-1层3 Internet,MP3音乐 MPEG-2

MPEG-2标准于1994年公布，包括编号为13818-1系统部分、编号为13818-2的视频部分、编号为13818-3的音频部分及编号为13818-4的符合性测试部分。

MPEG-2编码标准希望囊括数字电视、图像通信各领域的编码标准，MPEG-2按压缩比大小的不同分成五个档次(profile)，每一个档次又按图像清晰度的不同分成四种图像格式，或称为级别(level)。五个档次四种级别共有20种组合，但实际应用中有些组合不太可能出现，较常用的是11种组合。这11种组合分别应用在不同的场合，如MP@ML(主档次与主级别)用在具有演播室质量标准清晰度电视SDTV中，美国HDTV大联盟采用MP@HL(主档次及高级别)。 MPEG-4

MPEG-4在1995年7月开始研究，1998年11月被ISO/IEC批准为正式标准，正式标准编号是ISO/IEC14496，它不仅针对一定比特率下的视频、音频编码，更加注重多媒体系统的交互性和灵活性。这个标准主要应用于视像电话、视像电子邮件等，对传输速率要求较低，在4800－00bits/s之间，分辨率为176＊144。MPEG-4利用很窄的带宽，通过帧重建技术、数据压缩，以求用最少的数据获得最佳的图像质量。利用MPEG-4的高压缩率和高的图像还原质量可以把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。经过这样处理，图像的视频质量下降不大但体积却可缩小几倍，可以很方便地用CD-ROM来保存DVD上面的节目。另外，MPEG-4在家庭摄影录像、网络实时影像播放也大有用武之地。 MPEG-7

MPEG-7(它的由来是1+2+4=7, 因为没有MPEG-3、MPEG-5、MPEG-6)于1996年10月开始研究。确切来讲，MPEG－7并不是一种压缩编码方法，其正规的名字叫做’多媒体内容描述接口，其目的是生成一种用来描述多媒体内容的标准，这个标准将对信息含义的解释提供一定的自由度，可以被传送给设备和电脑程序，或者被设备或电脑程序查取。MPEG-7并不针对某个具体的应用，而是针对被MPEG-7标准化了的图象元素，这些元素将支持尽

可能多的各种应用。建立MPEG-7标准的出发点是依靠众多的参数对图象与声音实现分类，并对它们的数据库实现查询，就象我们今天查询文本数据库那样。可应用于数字图书馆，例如图象编目、音乐词典等；多媒体查询服务，如电话号码簿等；广播媒体选择，如广播与电视频道选取；多媒体编辑，如个性化的电子新闻服务、媒体创作等。 MPEG－21

MPEG在1999年10月的MPEG会议上提出了“多媒体框架”的概念，同年的12月的MPEG会议确定了MPEG-21的正式名称是“多媒体框架”或“数字视听框架”，它以将标准集成起来支持协调的技术以管理多媒体商务为目标，目的就是理解如何将不同的技术和标准结合在一起需要什么新的标准以及完成不同标准的结合工作。常见谬误

MPEG-4等如DIVX

不少人都以为DIVX即是MPEG-4，但其实DIVX是将影像部分以MPEG-4来压缩、音效部分以MP3压缩处理，再以AVI档格式存在的制成品，故档案较MPEG-2小，而画质表现就介乎MPEG-1与MPEG-2之间。 MP3即是MPEG-3

正如前述，MPEG-3只不过是被放弃的一种压缩技术，至于大家熟悉的MP3其实是MPEG-1 Layer 3的音频数据压缩技术，简称MP3。

3.2 DVDrip

简单地说，所有用DVD做为片源进行重新压缩编码的文件都统称为DVDRip。

用DivX压缩技术对DVD盘片的视频图像进行高质量压缩、用MP3或AC3技术对音频进行压缩，然后将视频、音频部分合并成一个.avi文件，最后再加上外挂的字幕文件而形成的新一代影音播放格式。其大小仅是原先DVD个头的数分之一。质量应该很好。

DVDRip核心技术分为三部分：用Mpeg4来进行视频压缩，用MP3或 AC3等压缩音频，同时结合字幕播放软件来外挂字幕。

DVD 我们都知道，是目前非常优秀的媒体格式，MPEG2编码的视频；AC3、DTS编码的音轨。但是我们也知道DVD载体是DVD光盘，DVD一张就有4.7G。这就需要rip了，将DVD的视频、音频、字幕剥离出来，再经过压缩或者其他处理，然后重新合成成多媒体文件。在更小的文件尺寸上达到DVD的是视听享受。

3.3 H.2

H.2，或称MPEG-4第十部分，是由ITU-T视频编码专家组（VCEG）和ISO／IEC动态图像专家组（MPEG）联合组成的联合视频组（JVT，Joint Video Team）提出的高度压缩数字视频编解码器标准。

ITU-T的H.2标准和ISO/IEC MPEG-4第10部分（正式名称是ISO/IEC 14496-10）在编解码技术上是相同的，这种编解码技术也被称为AVC，即高级视频编码（Advanced Video Coding）。该标准第一版的最终草案已于2003年5月完成。

H.2是ITU-T以H.26x系列为名称命名的标准之一，同时AVC是ISO／IEC MPEG一方的称呼。这个标准通常被称之为H.2/AVC（或者AVC/H.2或者H.2/MPEG-4 AVC或MPEG-4/H.2 AVC）而明确的说明它两方面的开发者。该标准最早来自于ITU-T的称之为H.26L的项目的开发。H.26L这个名称虽然不太常见，但是一直被使用着。

有时候该标准也被称之为“JVT 编解码器”，这是由于该标准是由JVT组织并开发的（作为两个机构合作开发同一个标准的事情并非空前，之前的视频编码标准MPEG-2也是由MPEG和ITU-T两方合作开发的，因此MPEG-2在ITU-T的命名规范中被称之为H.262）。

3.4 x2

x2是h.2编码的一个分支,h.2是一种视频编码标准.x2是一种采用这种标准的具体实现.x2同XviD一样都是开源项目,x2是采用h.2标准的,XviD是采用mpeg-4早期标准的.h.2是2003年正式发布的最新的视频编码标准,因此,常情况下,2压缩出的视频文件在相同质量下要比XviD压缩出的文件要小,者也可以说,相同体积下比xvid压缩出的文件质量要好.x2目前还在持续优化中.

4 Codec-Audio

4.1 AAC

AAC（Advanced Audio Coding）一种专为声音数据设计的文件压缩格式，与Mp3类似。利用AAC格式，可使声音文件明显减小，而不会让人感觉声音质量有所降低。从MP3到AAC

早在1987年，Fraunhofer IIS就开始了“EUREKA project EU147， Digital Audio Broadcasting （DAB）”的研发，而这就是MP3的前身。通过和Dieter Seitzer教授的合作，他们开发出了著名的ISO－MPEG Audio Layer－3压缩算法。1993年这个算法被整合到MPEG－1标准中，从此MP3被投入使用。1996年底Fraunhofer IIS在美国获得MP3的专利，并在1998年对外声明将收取MP3的专利使用费。而从1999年初开始，MP3格式广泛流行起来。特别是出现了很多免费提供MP3的音乐网站，MP3随身听也像洪水般涌进市场，种种因素促使MP3成为了极其主流的音频格式。尽管之后有VQF、WMA等挑战者，但MP3牢固的根基使它至今仍稳稳地坐在老大的位置上。

但是音频格式就像电脑软硬件一样，终归要更新换代的，像磁带不是被CD淘汰了吗？而CD也将要被DVD－Audio所代替。随着时间的推移，MP3越来越不能满足我们的需要了，比如压缩率落后于Ogg、WMA、VQF等格式，音质也不够理想（尤其是低码率下），仅有两个声道……于是Fraunhofer IIS与AT＆T、索尼、杜比、诺基亚等公司展开合作，共同开发出了被誉为“21世纪的数据压缩方式”的Advanced Audio Coding（简称AAC）音频格式，以取代MP3的位置。其实AAC的算法在1997年就完成了，当时被称为MPEG－2 AAC，因为还是把它作为MPEG－2（MP2）标准的延伸。但是随着MPEG－4（MP4）音频标准在2000年成型，MPEG－2 AAC也被作为它的编码技术核心，同时追加了一些新的编码特性，所以我们又叫MPEG－4 AAC（M4A）。

4.2 MP3

MP3（CBR、VBR、ABR）

MP3应该算目前使用用户最多的有损压缩数字音频格式了。它的全称是MPEG(MPEG：Moving Picture Experts Group) Audio Layer-3，1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。

刚出现时它的编码技术并不完善，它更像一个编码标准框架，留待人们去完善。早期的MP3编码采用的的是固定编码率的方式（CBR ），我们常看到的128KBPS，就是代表它是以128KBPS固定数据速率编码——你可以提高这个编码率，最高可以到320KBPS，音质会更好，自然，文件的体积会相应增大。

因为MP3的编码方式是开放的，你可以在这个标准框架的基础上自己选择不同的声学原理进行压缩

处理，所以，很快由Xing公司推出可变编码率的压缩方式（VBR）。它的原理就是利用将一首歌的复杂部分用高 bitrate 编码，简单部分用低 bitrate 编码，通过这种方式，进一步取得质量和体积的统一。当然，早期的Xing 编码器的 VBR 算法很差，音质与 CBR （固定码率）相去甚远。但是，这种算法指明了一种方向，其他开发者纷纷推出自己的VBR算法，使得效果一直在改进。目前公认比较好的首推 LAME，它完美地实现了 VBR 算法，而且它是是完全免费的软件，并且由爱好者组成的开发团队一直在不断的发展完善。

而在VBR的基础上，LAME更加发展出ABR算法。ABR（Average Bitrate）平均比特率，是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。

4.3 WMA

WMA是Windows Media Audio的缩写，是微软力推的数字音乐格式。微软官方宣布的资料中称WMA格式的可保护性极强，甚至可以限定播放机器、播放时间及播放次数，具有相当的版权保护能力。

应该说，WMA的推出，就是针对MP3没有版权的缺点而来——普通用户可能很欢迎这种格式，但作为版权拥有者的唱片公司来说，它们更喜欢难以复制拷贝的音乐压缩技术，而微软的WMA则照顾到了这些唱片公司的需求，可以预见，唱片业可能将全力支持WMA标准。

除了版权保护外，WMA还在压缩比上进行了深化，它的目标是在相同音质条件下文件体积可以变的更小（当然，只在MP3低于192KBPS码率的情况下有效，实际上当采用LAME算法压缩MP3格式时，高于192KBPS时普遍的反映是MP3的音质要好于WMA）。

不管怎么说，微软想介入的领域，它总能凭着自己的强大实力和在软件上的垄断地位，获得它想要的东西（尽管技术上它并不总是最出色）——这场战争应该是微软在数码音频格式领域的另一个IE与Netscape的战争版本

RA、MIDI、VQF、ATRAC、ATRAC3、Vorbis、AIF/AIFF、MP3PRO、Ogg、Dolby®Pro Logic®、Dolby Digital 5.1、Qdesign QDX、ATRAC3、VoiceAge

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文