Your Site Title

Compute Media 音频原理

声学原理

声音是波, 介质振动产生声音, 不同介质, 传播速度和波形不一样.

频率(f): 越高, 波长就越短, 代表音阶 振幅(A): 指振动的物理量可能达到的最大值, 代表声音的响度, 能量大小的反映 波形: 表示信号的形状, 代表声音的音色, 本质是谐波

传播速度(V): 声音在介质中移动的速度 波长(λ): 沿着波的传播方向,相邻两个振动位相相差2π的点之间的距离 波的周期(T): 完成一次振动需要的时间 相位: 特定的时刻在它循环中的位置, 描述信号波形变化的度量

f = 1/T f = V/λ λ = uT

声压(pa): 声压就是大气压受到声波扰动后产生的变化,即为大气压强的余压,它相当于在大气压强上的叠加一个声波扰动引起的压强变化

声压(p)的平方=声强(I)×介质密度(ρ)×声速(C)
其中,声强单位是:W/m2 密度单位:kg/m3 声速:m/s

声压级(SPL): 根据人耳对声音强弱变化响应的特性,引出一个对数量来表示声音的大小

分贝(dB): 表示声音的大小, 在声学中分贝是声压线的单位

等响曲线: 等响条件下(振幅相同), 声压级与声波频率的关系

人类听力

听力频率范围: 20Hz~20kHz 敏感频率: 3~4kHz 频率范围较宽的音乐: 80~90dB为最佳 超过90dB损害人耳, 105dB人耳极限

数字音频

声道

在不同空间位置采集或回放的相互独立的音频信号.

采样

奈奎斯特定理

声音为模拟信号, 在计算机中表示需要转为数字信息(A/D). A/D首先需要采样, 单位时间内
采集到模拟信号在这一时刻的状态.

采样位数: 表示模拟信号的精度, 越大还原越接近原声音 采样频率: 单位时间采样次数, 频率越高还原声音越顺滑越自然

采样位数: 目前一般为16位 采样频率: 22.05KHz、44.1KHz、48KHz三个等级 22.05 KHz只能达到FM广播的声音品质 44.1KHz则是理论上的CD音质界限 48KHz则更加精确一些, 高于48kHz人耳听不出来

量化

因为模拟信号是连续的, 如果有二进制表示, 那么需要无限长的二进制位. 量化是使用有限位
(上述采样位)四舍五入来表示.

编码

码率(比特率): 单位时间传送的数据位数 码率 = 采样率 * 采样大小 * 声道数

码率的基本原则:

  1. 码率和质量成正比,但是文件体积也和码率成正比。
  2. 码率超过一定数值, 对人接收的体验就没有差别

压缩:

  1. 去掉不能被人耳感知的信号
  2. 无损压缩, 算法(压缩比小于1), 可以完全还原
  3. 有损压缩, 压缩比越小,丢失的信息就越多,信号还原后的失真就会越大

WAV编码: PCM的实现, 在PCM数据格式前加44b, 描述PCM信息 - 特点:音质非常好,大量软件都支持 - 适用场合:多媒体开发的中间文件、保存音乐和音效素材

MP3编码: LAME编码, 具有不错的压缩比 - 特点:音质在128Kbit/s以上表现还不错,压缩比比较高,大量软件 和硬件都支持,兼容性好。 - 适用场合:高比特率下对兼容性有要求的音乐欣赏.

AAC编码: AAC是新一代的音频有损压缩技术 - 特点:在小于128Kbit/s的码率下表现优异,并且多用于视频中的音 频编码。 - 适用场合:128Kbit/s以下的音频编码,多用于视频中音频轨的编 码。

Ogg编码: 中低码率场景下表现优秀 - 特点:可以用比MP3更小的码率实现比MP3更好的音质,高中低码 率下均有良好的表现,兼容性不够好,流媒体特性不支持。 - 适用场合:语音聊天的音频消息场景。

Reference