Your Site Title

Audio

声音

处理流程

音频采集(模数转换成PCM数据)
音视频编码(音视频原数据, 编码压缩成小数据)
传输
音视频解码
音视频渲染

声音的产生

声音是由物体振动产生
它可以通过空气, 固体, 液体等进行传输
振动耳膜

人类听觉范围

1秒钟振动的次数次声波 20Hz 可听声波 20kHz 超声波

声音的三要素

音调: 音频的快慢
音量: 振动的幅度
音色: 谐波

声音模数转换

采样: 越大越真, 常用采样频率: 441000, 48000(一般), 32000, 16000, 8000
10进制转成二进制方波
保存二进制位数, 影响音量大小

原始数据格式:

PCM:
WAV: PCM + 数据头
采样大小(位深): 一个采样用多少bit存放. 常用的是16bit
采样率: 8k, 16k, 32k, 44.1k, 48k
声道数: 单, 双, 多
码率: 采样率 * 采样大小 * 声道数 = PCM

采集音频的方式

Android

AudioRecord: 偏低层 MediaRecorder: 偏应用

iOS

AudioUnit AVFoundation

Windows

DirectShow OpenAl >window7 audio cool

FFmpeg

通过命令方式 ffmpeg -f avfoundation -i :0 out.wav

FFmpeg采集音频流程

打开输入设备 #include “libavdevice/avdevice.h” #include “libavformat/avformat.h”

注册设备 avdevice_register_all();

设置采集方式 AVInputFormat *iformat = av_find_input_format(“avfoundation”); 打开音频设备 AVFormatContext *fmt_ctx = NULL; AVDictionary *opetions = NULL; avformat_open_input(&fmt_ctx, “:0”, iformat, &opetions);

av_strerror 打印ffmpeg 错误信息

读取数据 av_read_frame
将音频数据写入文件 fopen() 打开文件 fwrite(pkt.data, pkt.size, 1, outfile); 写入数据 fclose(outfile);

音频原理

音频压缩

压缩最小
压缩最快
消除冗余信息 - 剔除<20hz >20khz 和遮蔽信息, 有损压缩, 无法还原成一模一样
无损压缩 - zip, rar, zz
码流 - 码流越大音质越好; 越小去除的信息就越多, 音质越差

遮蔽信息

频域遮蔽 - 根据频率不一样, 音量不一样
时域遮蔽 - 傅里叶变换和小波变换, 转换成频域

无损编码

熵编码

哈夫曼编码
算术编码
香农编码

常见的音频编码器

OPUS - 延迟小, 压缩率高. 适合要求实时性
AAC - 应用最广泛, 音质好, 压缩率比mp3好
Ogg
Speex - 支持消除回声
iLBC
AMR
G.711 - 固话, 窄带音频

OPUS > AAC > Ogg

AAC 介绍

AAC(Advanced Audio Coding), 为了取代mp3格式. 最开始基于MPEG-2的音频编码技术, MPEG-4出来后AAC重新集成了其特性, 加入了SBR技术和PS技术.

常用的规格有:

AAC LC - 低复杂度规格, 码流是128k, 音质好
AAC HE V1 - 被V2取代, LC + SBR(Spectral Band Replication), 按频谱分开保存信息. 码流在64k
AAC HE V2 - V1 + PS(Parametric Stereo), 双声道时相似信息只保存一份

AAC格式, AAC头格式:

ADIF(Audio Data Interchange Format)
ADTS(Audio Data Transport Stream)

ADIF

ffmpeg -i xxx.mp4 -vn -c:a libfdk_aac -ar 441000 -channels 2 -profile:a aac_he_v2 3.aac

音频重采样

将音频三元组(采样率, 采样大小, 通道数)的值转成另外一组值

为什么要重采样

从设备采集的音频数据与编码器要求的数据不一致
扬声器要求的音频数据与要播放的音频数据不一致
更方便运算

怎么获取参数

要了解音频设备的参数
查看ffmpeg源码

重采样的步骤

创建重采样上下文
设置参数
初始化重采样
进行重采样

swr_alloc_set_opts swr_init swr_convert swr_free

ffmpeg 编码过程

*AVFrame - 未编码 *AVPacket - 编码过

从设置读取数据, ffmpeg当成从多媒体文件中读取, 读取的是AVPacket, 里面是PCM数据, 正常的做法是有个解码过程, 把AVPacket解码成AVFrame

创建编码器
创建上下文
打开编码器
送数据给编码器(会缓冲数据)
编码
释放数据

avcodec_find_encoder avcodec_alloc_context3 avcodec_open2 avcodec_frame_alloc av_frame_get_buffer avcodec_send_frame avcodec_receive_packet

音频帧

2.5ms - 60ms 定义为一帧, 时间为采样时间

采样率: 8kHz 通道: 2 位宽: 16bit 帧: 20ms

8000 * 2 * 16 * 0.02 = 5120bit / 8 = 640byte

Reference

AAC Frame Header (ADTS)

This site is open source. Improve this page.