《音频技术基础》PPT课件.ppt
《《音频技术基础》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《音频技术基础》PPT课件.ppt(44页珍藏版)》请在三一办公上搜索。
1、第2章 音频技术基础,2-1 声学基础知识,音频信号特性,时域特性 三个阶段:起始、稳定和结束 语音信号的时域特性很强的时变特性 短时的平稳性,频域特性 可分解成多个正弦分量 可分为周期信号和非周期信号 频谱分析:线状谱与连续谱组成,声音的常见参数 频率:可闻声20Hz10KHz 声压及声压级:听阈及痛阈人耳的听阈和痛阈分别对应的声压级为0dB和120dB,人耳听觉特性,声音的主客观参数 客观:声压/声强、频率、波形(频谱结构)主观:响度、音调、音色,人耳听觉的掩蔽效应,现象 在一个较强的声音附近,相对较弱的声音将不被人察觉 一个频率声音的听阈由于另一声音的存在而上升(弱声被强声掩蔽掉),当人
2、耳听到复合声音信号的时候,在复音中有响度较高的声音频率分量,那么人耳对那些响度低的频率分量是不易察觉到的,声音质量评价,客观评价 用客观测量的手段来评价语音 信噪比、加权信噪比、平均分段信噪比等,主观评价 专家对声音的感受 平均意见得分(MOS得分)等,2-2 音频信息编码分类,分为三类:波形编码、参数编码和混和编码。波形编码基于对语音信号波形的数字化处理,试图使处理后重建的语音信号波形与原语音信号波形保持一致。优点是实现简单、语音质量较好、适应性强等。缺点是话音信号的压缩程度不是很高,实现的码速率比较高。,常见的波形压缩编码方法:脉冲编码调制PCM、增量调制编码DM、差值脉冲编码调制DPCM
3、、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等。比特率一般在16至64之间编码信号的速率:编码速率采样频率 编码比特数播放某个音频信号所需要的存储容量 存储容量播放时间速率8(字节),参数编码又称声源编码,它是通过构造一个人发声的模型,以发音机制的模型作为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码,以实现语音信息的数字化。优点语音编码速率较低2kbps9.6kbps缺点是自然度较低。,语音信号产生模型,在模型图中,周期信号源表示浊音激励源,随机信号表示清音激励源;u(
4、n)表示波形产生的激励参数,可以用清/浊音判决(u/v)来表示;G是增益控制,代表语声信号的强度;线性时变滤波器可以看作是声道特性;ai是线性时变滤波器的系统参数;C(n)是合成的语声输出。参数编码的典型代表是线性预测编码LPC,混和编码将波形编码和参数编码结合起来,力图保持波形编码话音的高质量与参量编码的低速率。采用混合编码的编码器有:多脉冲激励线性预测编码器(MPE-LPC)规则脉冲激励线性预测编码器(RPE-LPC)码激励线性预测编码器(CELP),矢量和激励线性预测编码器(VSELP)多带激励线性预测编码器。,三种压缩编码的性能比较,2-3 常用压缩编码方法,脉冲编码调制PCM对数据的
5、采样值进行量化编码信号缓慢变化,其相邻样值之间有较大的相关性,2.3.1 差分脉冲编码调制DPCM 和自适应差值脉冲编码调制ADPCM,差分脉冲编码调制DPCM对相邻样值的差值进行量化编码由于此差值比较小,可以为其分配较少的比特数,进而起到了压缩数码率的目的话音信号的样值序列当前样值 完整的预测表达式,式中 为当前值 的预测值 为当前值前面的N-1个样值。为预测系数,若预测系数随输入信号而变化时就是自适应预测。则当前值 与 预测值的差值表示为:,差分脉冲编码调制系统,系数的求法是预测估值的均方差为最小的预测系数。为了进一步提高编码的性能,人们将自适应量化技术和自适应预测技术结合在一起用于差分脉
6、冲编码调制DPCM中,从而实现了自适应差分脉冲编码调制ADPCM。ADPCM的简化原理框图如图2-8所示。,在线性预测编码LPC中,将语声信号简单的划分为浊音信号和清音信号。清音:用白色随机噪声激励信号来表示浊音:用准周期脉冲序列激励信号来表示由于语声信号是短时平稳的,根据语声信号的短时分析和基音提取方法,可以用若干的样值对应的一帧来表示短时语声信号。逐帧将语声信号用基音周期Tp,清/浊音(u/v)判决,声道模型参数ai和增益G来表示。对这些参进数行量化编码,在接收端再进行语声的合成。,2.3.2 线性预测编码LPC,标量量化:单个采样的样值进行量化矢量量化VQ:将输入的信号样值按照某种方式进
7、行分组,把每个分组看作是一个矢量,并对该矢量进行量化,2.3.3 矢量量化VQ(Vector Quantization)编码,2.3.4 子带编码SB,发送端n个带通滤波器将输入信号分为n个子频带,对各个对应的子带带通信号进行调制,将n个带通信号经过频谱搬移变为低通信号;对低通信号进行采样、量化和编码,得到对应各个子带的数字流;再经复接器合成为完整的数字流。经过信道传输到达接收端。接收端由分配器将各个子带的数字流分开,由译码器完成各个子带数字流的译码;由解调器完成信号的频移,将个子带搬移到原始频率的位置上。各子带相加就可以恢复出原来的语声信号。,将语声信号分为若干个子带后再进行编码有几个突出的
8、优点:对不同的子带分配不同的比特数可以很好的控制各个子带的量化电平数,很好的控制在重建信号时的量化误差方差值,进而获得更好的主观听音质量。由于各个子带相互隔开,使各个子带的量化噪声也相互独立,互不影响,量化噪声被束缚在各自的子带内。这样,某些输入电平比较低的子带信号不会被其它子带的量化噪声所淹没。子带划分的结果,使各个子带的采样频率大大的降低。,利用人耳听觉的心理声学特性(包括频域掩蔽特性和时域掩蔽特性)人耳对音频信号的幅度、频率和时间的分辨能力是有限的人耳感觉不到的成分都不进行编码和传送对感觉到的部分进行编码时,也允许有较大的量化失真,只要这个失真是在人耳感觉不到的听阈以下即可感知编码的理论
9、基础是基于人耳的听阈、临界频段和掩蔽效应。,2.3.5 感知编码Perceptual Coding,临界频段反应了人耳对不同频段声音的反应灵敏度是有差异的在低频段对几赫兹的声音差异都能分辨,而在高频段的差异要达到几百赫兹才能分辨。试验表明,低频段的临界频段宽度有100Hz到200Hz,在大于5kHz后的高频段的临界频段宽度有1000Hz到几万Hz。近3/4的临界频段低于5kHz。因此在编码时要对低频段进行精细的划分,而对高频段的划分不必精细。,掩蔽包括频域掩蔽和时域掩蔽。在频域,一个强音会掩蔽掉与之接近的弱音,掩蔽特性与掩蔽音的强弱、掩蔽音的中心频率以及掩蔽音与被掩蔽音的频率相对位置有关。时域
10、掩蔽是指掩蔽效应发生在掩蔽音与被掩蔽音不同时出现时,也称为异时掩蔽。在编码时,对被掩蔽的弱音不必进行编码,从而达到数据压缩的目的。,2-4 音频信息压缩编码标准,2.4.1 波形编码标准G.711标准1972年,PCM编码8KHz,8位(64kpbs),A律和u律G.721标准用于PCM(64kbps)和ADPCM(32kpbs)之间的转换G.722标准针对调幅广播质量的音频信号SB-ADPCM编码,16KHz,14位(224kbps),2.4.2 混和编码标准G.728标准1992年,低延时码激励线性预测LD-CELP16kbpsG.729标准ITU-T为低码率应用而制订的语音压缩标准8kb
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 音频技术基础 音频 技术 基础 PPT 课件
链接地址:https://www.31ppt.com/p-5619761.html