北京智能音响声学回声分析

时间：2022年03月27日来源：

这样会带来一个新的问题：按照Widrow的自适应滤波理论，滤波器的长度越长，其收敛速度越慢，同时权噪声越大，进而导致强混响下回声消除不够理想。第二个问题是延时跳变问题。在实时音视频通话领域，延时跳变是一个比较普遍的问题。主要现象是麦克端采集的信号和回声参考信号之间的时延关系会发生跳变，每次跳变之后就需要重新对齐信号，就会漏一些回声出来。第三个问题是啸叫问题。啸叫的检测和啸叫的抑制是公认的在回声领域的经典难题。还有双讲问题。双讲是评估回声消除算法性能的一个重要指标，当然也是很难处理的一个问题，因为双讲很容易导致滤波器系数发散。综合以上这些维度我们可以看到，非线性的声学回声消除是一个很有挑战的研究方向。双耦合声学回声消除算法这个是我们团队提出来的一种算法，它的主要特点是，在构建滤波器模型的过程中结合了非线性声学回声的一些特性，因此它在抑制非线性回声方面，也体现出固有的优势。1.非线性声学回声系统建模,继续回到前面的这个声学回声路径。我们对这个模型进行了简化。我们将左边的喇叭端用一个传递函数Wn来表示，假设它的是非线性的回声路径传递函数；同时我们将喇叭右边，就是麦克端，统一用Wl来表示。

的是声学回声的路径。北京智能音响声学回声分析

AEC定义声学回声（AcousticEcho）电话的扬声器的声音(包括反射声)，被麦克风拾取传送给远端，使得远端说话人又听到自己的声音，广义回声指的是设备喇叭和自身麦克风的耦合现象都称为回声。回声消除AEC（AcousticEchoCancellation）一般指的是声学回声消除，其主要用于抑制产品本身发出的声音，使得产品在播放音频时依然可以进行语音交互；随着秒新月异的科技发展，各项技术成果不断地应用在我们日益拓展的各领域需求当中，刷新着我们的生活和工作。地球村的崛起，不断以互联网、物联网等方式揭示着万物相连的关系。无论是飞机、高铁还是电话、网络，都成为托起地球新村时空纵横的重要载体。怎样拉近人与人之间的关系，如何建立起更行之有效的联络方式，提高远程协同工作、信息传达效率成为了一个重要命题。远程会议的出现在很大程度上为这种多极化办公互动提供了质量的平台保障，在借助互联网便捷的远程通信架构下，通讯数据安全，稳定可靠，很长一段时间广受用户青睐。然而美中不足的是，这样的（声音）系统仍逃不出的还是自然声学上的问题。有和业内朋友聊天中谈到，今后的扩声系统也许只保留两级传统装置了，那就是声电转换和电声转换的拾音和还原。

北京智能音响声学回声分析右边的非线性声学回声场景。

只需要近端采集信号即可，傲娇的回声消除需要同时输入近端信号与远端参考信号。有同学会问已知了远端参考信号，为什么不能用噪声抑制方法处理呢，直接从频域减掉远端信号的频谱不就可以了吗？行为近端信号s(n)，已经混合了近端人声和扬声器播放出来的远端信号，黄色框中已经标出对齐之后的远端信号，其语音表达的内容一致，但是频谱和幅度(明显经过扬声器放大之后声音能量很高)均不一致，意思就是：参考的远端信号与扬声器播放出来的远端信号已经是“貌合神离”了，与降噪的方法相结合也是不错的思路，但是直接套用降噪的方法显然会造成回声残留与双讲部分严重的抑制。接下来，我们来看看WebRTC科学家是怎么做的吧。信号处理流程WebRTCAEC算法包含了延时调整策略，线性回声估计，非线性回声抑制3个部分。回声消除本质上更像是音源分离，我们期望从混合的近端信号中消除不需要的远端信号，保留近端人声发送到远端，但是WebRTC工程师们更倾向于将两个人交流的过程理解为一问一答的交替说话，存在远近端同时连续说话的情况并不多（即保单讲轻双讲）。因此只需要区分远近端说话区域就可以通过一些手段消除绝大多数远端回声。

什么是非线性声学回声？，什么是非线性的声学回声？这里我给出了一张图，的是声学回声的路径图，图的左边对应的是发射端，右边对应的是接收端。我们发出的信号首先要经过D/A变换，从数字域变换到模拟域，然后再经过功率放大器，放大之后驱动喇叭，这样就会发出声音。发出来的声音经过空气信道传播之后，到了接收端被麦克风采集到，然后再次经过功率放大器，再通过A/D变换，从模拟域又变回到数字域。那么这里的y[k]就是我们收到的回声信号。，我们接收到的回声y[k]到底是线性回声还是非线性回声呢？或者说我们应该怎么去判断它？我觉得要解决这个问题，就是要认识清楚这里面的每一个环节，看看它们到底是线性系统还是非线性系统，如果所有的环节都是线性的话，那么很自然y[k]就是一个线性的回声，否则只要有一个环节是非线性的，那么这个回声就是非线性回声。非线性声学回声产生的原因。

3.双耦合滤波器设计当滤波器的结构确定下来之后，我们要去设计滤波器系数了。设计过程我把它总结成了三步，第一步就是构建优化准则，第二步是求解滤波器的权系数——Wl和Wn，一步就是构建耦合机制。第一步就是构建优化准则。我觉得构建优化准则，应该是整个滤波器设计里面重要的一步，因为它决定了滤波器性能的上限。什么样的优化准则是一个好的优化准则呢？我觉得好的优化准则需要跟问题的物理特性有效匹配起来，所以在构建优化准则之前，我们先对非线性声学回声的特性进行分析，希望通过这种分析去挖掘非线性声学回声的一些物理特性。我们的分析是基于上面的函数，我们称它为短时相关度，它所表示的是两个信号，在一个短时的观测时间窗“T”这样一个尺度范围内的波形的相似程度，需要注意的是这个函数它是统计意义上的，因为我们对它进行了数学期望运算。同时在分子的一项我们还加了一个相位校正因子，目的是为了将这两路信号的初始相位对齐。基于前面构建的短时相关度函数，我们对大量声学回声数据进行分析，并挑选了几组比较典型的数据：绿色的曲线对应的是一组线性度非常好的回声数据。我们从这个数据上可以看到，在整个时间T的变化范围内，它的短时相关度都非常高。

不上系统传递函数变化的速度，就会导致声学回声消除不理想。北京智能音响声学回声分析

非线性声学回声消除技术。北京智能音响声学回声分析

WebRtcAec_Process接口如上，参数reported_delay_ms为当前设备需要调整延时的目标值。如某Android设备固定延时为400ms左右，400ms已经超出滤波器覆盖的延时范围，至少需要调整300ms延时，才能满足回声消除没有回声的要求。固定延时调整在WebRTCAEC算法开始之初作用一次,为什么target_delay是这么计算？inttarget_delay=startup_size_ms*self->rate_factor*8;startup_size_ms其实就是设置下去的reported_delay_ms，这一步将计算时间毫秒转化为样本点数。16000hz采样中，10ms表示160个样本点，因此target_delay实际就是需要调整的目标样本点数（aecpc->rate_factor=aecpc->splitSampFreq/8000=2）。我们用330ms延时的数据测试：如果设置默认延时为240ms，overhead_elements次被调整了-60个block，负值表示向前查找，正好为60*4=240ms，之后线性滤波器固定index=24，表示24*4=96ms延时，二者之和约等于330ms。②大延时检测是基于远近端数据相似性在远端大缓存中查找相似的帧的过程，其算法原理有点类似音频指纹中特征匹配的思想。大延时调整的能力是对固定延时调整与线型滤波器能力的补充，使用它的时候需要比较慎重。需要控制调整的频率，以及控制造成非因果的风险。

北京智能音响声学回声分析

深圳鱼亮科技有限公司位于龙华街道清华社区建设东路青年创业园B栋3层12号。公司业务分为智能家居，语音识别算法，机器人交互系统，降噪等，目前不断进行创新和服务改进，为客户提供良好的产品和服务。公司从事通信产品多年，有着创新的设计、强大的技术，还有一批**的专业化的队伍，确保为客户提供良好的产品及服务。在社会各界的鼎力支持下，持续创新，不断铸造***服务体验，为客户成功提供坚实有力的支持。

上一篇：福建投影仪USB声卡识别交互

下一篇：河南录音降噪波束抑制