专业音频的基本概念|数字音频是如何工作的?
要点:
数字音频是用电脑和数字设备等表现模拟信号,并对其进行录音、播放的方法。
与视频帧相似,数字音频也包括一系列样本,语音播放实际上是这些样本序列的重构。
数字音频有许多不同的格式,不同格式的数字音频有不同的保真度和动态范围。
理论
数字音频本质上是有限的。
音响信号和模拟信号都由实际存在的流动波形构成,但数字信号是实际存在物体的近似值。
就像由无数帧组成的视频一样,数字音频也由一系列样本组成。
本文重点介绍最常用的数字音频编码系统——脉冲编码调制( PCM )。
其他系统,如DTS和杜比数字,经常用于电影和技术行业。
在PCM音频系统中,对信号每秒进行多次采样,每个采样记录着某个特定时刻的波形的振幅。
由于模拟波形不能完全重建,每个样本取近似值。
按顺序播放这些样本,可以准确地再现声音。
Avid Pro Tools
正如模拟音频使用频率和振幅两个元素定义声音一样,数字音频也有两个主要参数:采样率和位深度。
采样率是指每秒对声音进行采样的次数,位深度是指每个采样可以捕获的动态范围的量。
采样率
CD的标准采样率为44.1kHz,这个数字看起来是一个很随机的选择,其实根据奎斯特香农采样定理,采样率应该是捕获最高频率的两倍以上。
人耳听觉上限为20kHz,因此需要40kHz以上的采样率才能捕获整个范围。 另外,额外的4.1kHz是为了避免被称为“锯齿”的失真现象。
理论上,44.1kHz的采样率使我们能够准确地再现任何声音,但还存在更高的采样率。
另一个最常见的采样率是48kHz,这是电影和视频音频的主要标准。
这是因为它与现有的24帧/秒电影帧速率标准集成。
和奈奎斯特频率一样,24帧正好是可以让一系列图像看起来像平滑视频的不可思议的数字。
另外一方面,48kHz采样率是最佳的,因为如果音频采样率不是帧率的倍数,则不能保持同步,44.1kHz随着时间的经过将导致明显的声音不同步现象。
更高的采样率也被广泛使用,但这些采样率的必要性仍在讨论中。
支持者表示,超高频采样率巧妙地提高了保真度,为信号增添了“味道”。 反对者认为,44.1足够,采样率越高,文件大小也越大,如果低采样率出现抖动,就不可避免地出现“伪影”。
这些更高的采样率通常是44.1或48的倍数,例如88.2、96和192kHz,是现代设备和软件中常用的采样率选项。
位深度
位深决定了文件的动态分辨率,就像数码照片一样。
每个“位”可以发送四个幅度值,这意味着每个样本中包含的位数越多,动态范围就越大。
这并不意味着位深度越高,音量就越大;但是,位深度越高,可以更准确地再现声音,因此听起来更真实。 这就像一张高分辨率的照片。
一般采样率及其统计数据概述如下。
4位: 16个数字,24dB的动态范围。
有时也被用于极最低生活保障的真正的“bitcrushed”效应器。
8位: 256的数字,48dB的动态范围。
它常用于早期的经典视频游戏系统。
16位: 65536个数字,96dB动态范围,CD音频标准位深度。
24位: 16777216个数字,145dB的动态范围,最常用的位深度。
32或64位:“浮点”目前可以提供最佳信噪比数值,但尚未被广泛采用。
格式
PCM音频可以为用户提供各种形式的编码。 这些形式大致分为损失和损失两种。
无损格式完全保留记录时捕获的信息,但会增加硬盘的容量。
请注意,有损格式会创建压缩文件,数据压缩和音频“压缩”是不同的。 不可逆格式的文件占用的硬盘空间大幅减少,但也可能会牺牲部分音质,产生“模拟阴影”。
常见的文件格式概述如下。
无损形式
. WAV (波形音频文件格式) :录音设备录制原始未压缩音频文件时常用的格式。
通过广播WAV文件. BWF可以存储大量元数据。
. AIFF (音频交换文件格式) :与WAV类似,是苹果设备专用的格式。
. FLAC (免费无损语音编解码器) :一种开源格式,可以在不牺牲音质的情况下压缩文件,但并非所有播放器都支持。
.与alac(Apple无损音频编解码器) ) FLAC相比效率稍差,为apple设备专用。
有损格式
. MP3(mpeg音频层III )迄今为止最流行的压缩文件格式在便携式音乐播放器出现时很流行。
. AAC )高级音频编码(以提高mp3质量为目标的替代方案。
. ogg(oggvorbis )维基百科、Spotify和某些视频游戏的开源替代品,但对个人用户来说很难使用。
有趣的是,Vorbis其实是Terry Pratchett写的Discworldbook系列的登场人物。
)