声音数字化及调音基本原理-学习资料汇总
理论知识储备
人体发声原理
人体发声器官
发声原理
- 简而言之,人体通过吸气增加肺气压,呼气时肺气压上升冲击声带,造成声门的闭合,成为素音,而素音经过了共鸣腔体,最终发出声音
音色的构成
- 人的声音由基音和泛音构成,基因决定音调的高低,泛音则决定了人的音色
语言的形成
- 语言的形成,主要取决于口腔共鸣区(包括口腔、口咽腔和喉腔)各个器官的协作(舌头位置与形状、上下颚的空间大小、喉头的升降、两唇的形状和长短),选择合适的共鸣频率,这个过程叫做“语言的格式化”,而不同的语言的频段也会有所区别:
<参考文档>
声音的物理及数学模型
声波的组成
- 如上图所示,声音可以量化成许多振幅和相位各异的正弦波,
频域与时域
- 频域上的各个正弦波,通过傅立叶变换,在时域上投影成一个二维的周期性非正弦波,也就是音频数字化采样的模拟波形
混响原理
- 声源产生的声波会向四面八方传播,声波遇到障碍物会反射,导致接收方会收到不同延迟的声波,这些不同延时的声波混合叫做“混响”
- 在特定的延迟范围之内,混响可以形成有立体感的声音,但大于延迟阀值,则可能导致声音模糊不清
<参考文档>
音频数字化
- 数字化的主要步骤:采样->量化->编码
- 对模拟音源的声波进行抽样,通常选取的采样率是人耳听觉频率上限(20kHz)的2倍,44.1kHz,采样率越大,声音质量越高,数据量也越大
- 对采样数据进行量化,选取合适的采样单位(以比特为单位,又称比特率),决定了声音响度变化的精确度
- 对量化后的数据进行编码,转换数字信号
<参考文档>
调音原理
环境降噪(//TODO)
EQ均衡器调音
- 数字化的声波是时域上的二维波,通过傅立叶分解之后,可以得到基波和谐波,基波决定了音调,而谐波则决定了音色,EQ通过调整不同频段的谐波的振幅(增益或衰减),达到调节音色的效果
调音操作实践
pc端专业调音软件
- logic pro x2均衡器调音 录制一段音频,通过手动调节20~20kHz频段范围的分贝值,可以很大程度地改变整体的音色,比如:对中低频进行增益,可以有效突出人声
手机端音乐播放器
- 网易云音乐-云鲸音效
- QQ音乐-super sound
除了通过eq调节音效,同时还可以通过混响营造不同的声场(譬如:客厅,歌剧院,演唱会)
技术方案调研
android系统解决方案
- 系统api支持回声消除,自动增强,噪音压制,重低音调节,均衡器控制以及内置的均衡器模版,但选取的几部测试机只支持均衡器调节,并且调节的幅度范围偏小,音效的变化不明显