广东录播声学回声抑制算法

时间：2022年04月07日来源：

32.隔声实验室由两个相连的混响室组成，在两个混响室之间应有一个安装试件的洞口。33.质量定律对于隔声存在一个普遍的规律，即材料越重（面密度，或单位面积质量越大）隔声效果越好。对于单层密致匀实材料，面密度每增加一倍，隔声量在理论上增加6dB，这种规律即为质量定律。34.吻合谷声波接触隔声材料后，隔声材料除了垂直方向的受迫振动以外，还有沿着板面方向的受迫弯曲振动。在某个特定频率上，受迫弯曲振动将和板固有的自由弯曲振动发吻合，这时隔声材料就非常顺从地跟随入射声弯曲，造成声能大量地投射到另一侧去，形成隔声量的低谷，这种现象被称作吻合效应。35.平方反比定律在自由场（freefield）条件下，话筒或扬声器与音源之间的距离每增加一倍，声音的强度就会下降6分贝。36.哈斯效应如果有两个不同声源发出同样的声音，在同一时间以同样强度到达时，声音呈现的方向大致在两个声源之间；如两个同样的声源中的一个延时5~35ms，则感觉声音似乎都来自未延时的声源；如延迟时间在35~50ms时，延时的声源可被识别出来，但其方向仍在未经延时的声源方向；只有延迟时间超过50ms时，第二声源才能象清晰的回声般听到。这种现象就是哈斯效应。非线性声学回声消除的技术难点。广东录播声学回声抑制算法

在线性的回声场景里，双耦合的非线性滤波器是处于休眠的状态，所以它的值是趋于0的，这个时候起主导作用的是线性滤波器。接下来我们再看一下右边的非线性声学回声场景。我们假设非线性的失要出现在t1到t2这个时间段内，大家可以看到黄色线在这个时间里，出现了一次突变，对于NLMS算法，当出现非线性失真之后，它的线性滤波器会去逼近非线性失真。但是由于学习的速度跟不上滤波器变化的速度，所以它跟真实的值之间总是存在一个比较大的gap。同时当非线性失真消失之后，它还需要一段时间恢复到正常状态，因此在整个时间段里，都会出现回声泄露的问题。接下来我们再看双耦合算法，在非线性失真出现之后，线性滤波器会进入到一种相对休眠的状态，就是前面所提到的耦合机制，会降低它的更新速度，所以在整个非线性出现的这段时间里，他的值是缓慢变化的。进入非线性失真状态之后，非线性滤波器开始工作，它会快速非线性特性的变化，而当非线性失真消失之后，非线性滤波器又进入休眠状态。将这两个滤波器结合起来，就可以实现对整个声学回声路径的变化进行有效。这里只是给出了一个示例，实际情况往往要复杂很多。接下来我们对这2个滤波器做了特性比较，主要是从4个不同的维度。

北京声学回声分析的是声学回声的路径。

深入浅出WebRTCAEC（声学回声消除）,前言：近年来，音视频会议产品提升着工作协同的效率，在线教育产品突破着传统教育形式的种种限制，娱乐互动直播产品丰富着生活社交的多样性，背后都离不开音视频通信技术的优化与创新，其中音频信息内容传递的流畅性、完整性、可懂度直接决定着用户之间的沟通质量。自2011年WebRTC开源以来，无论是其技术架构，还是其中丰富的算法模块都是值得我们细细品味，音频方面熟知的3A算法（AGC:Automaticgaincontrol;ANS:Adaptivenoisesuppression;AEC:Acousticechocancellation）就是其中闪闪发光的明珠。本文章将结合实例解析WebRTCAEC的基本框架和基本原理，一起探索回声消除的基本原理，技术难点以及优化方向。回声的形成WebRTC架构中上下行音频信号处理流程，音频3A主要集中在上行的发送端对发送信号依次进行回声消除、降噪以及音量均衡（这里只讨论AEC的处理流程，如果是AECM的处理流程ANS会前置），AGC会作为压限器作用在接收端对即将播放的音频信号进行限幅。那么回声是怎么形成的呢？如图2所示，A、B两人在通信的过程中，我们有如下定义：x(n):远端参考信号，即A端订阅的B端音频流，通常作为参考信号；y(n):回声信号，即扬声器播放信号x。

我们比较这两个之后就会发现，双讲段主要出现在中间这一段。我们评估双讲性能的主要指标是回声抑制比和近端语音失真度。上面这是经过回声消除之后的语谱，中间的是NLMS算法的结果。我们可以看到它的回声抑制不是很理想，不管在单讲段还是在双讲段，都有比较多的回声残留。而下面这个是采用双耦合算法得到的语谱，可以看到在单讲和双讲里面回声抑制得都比较干净，并且在双讲里，对近端语音的损伤也很小。这个数据对应视频会议场景，因此还需要做一步NLP的处理。上面这个就是基于双耦合算法，做了NLP之后的输出结果。我们可以看到处理完之后，整个语谱很清晰，回声去得很干净，而且语谱没有太大损伤，双讲很通透。我再来简单总结一下，主要是介绍了三个方面的内容，个就是认识了非线性声学回声、产生的原因、研究现状以及技术难点。接下来重点介绍了华为云音视频的双耦合声学回声消除算法，我们的主要贡献体现在两个方面，个方面就是构建一种双耦合自适应滤波器结构；第二个就是提出了小平均短时累计误差准则并进行求解。通过求解之后，我们会得到双耦合滤波器的线性滤波器是具有Wiener-Hopf方程解的比较好解这种形式，然后非线性滤波器具有小二乘解。非线性声学回声消除技术研究现状。

如果设置nlp_mode=kAecNlpAggressive，α大约会在30左右。如果当前帧为近端帧（即echo_state=false），假设第k个频带hNl(k)=，hNl(k)=hNl(k)^α=，即使滤波后的损失听感上几乎无感知。如图8(a)，hNl经过α调制之后，幅值依然很接近。如果当前帧为远端帧（即echo_state=true），假设第k个频带hNl(k)=，hNl(k)=hNl(k)^α=，滤波后远端能量小到基本听不到了。如图8(b)，hNl经过α调制之后，基本接近0。经过如上对比，为了保证经过调制之后近端期望信号失真小，远端回声可以被抑制到不可听，WebRTCAEC才在远近端帧状态判断的的模块中设置了如此严格的门限。另外，调整系数α过于严格的情况下会带来双讲的抑制，如图9第1行，近端说话人声音明显丢失，通过调整α后得以恢复，如第2行所示。因此如果在WebRTCAEC现有策略上优化α估计，可以缓解双讲抑制严重的问题。延时调整策略回声消除的效果与远近端数据延时强相关，调整不当会带来算法不可用的风险。在远近端数据进入线性部分之前，一定要保证延时在设计的滤波器阶数范围内，不然延时过大超出了线性滤波器估计的范围或调整过当导致远近端非因果都会造成无法收敛的回声。先科普两个问题：。1）为什么会存在延时？首先近端信号d。

什么是非线性声学回声，它产生的原理、研究现状以及技术难点等问题。广东录播声学回声抑制算法

声学回声消除，该技术的出现旨在消除这种因远程网络会议所带来的回授现象。广东录播声学回声抑制算法

需要注意的是，如果index在滤波器阶数两端疯狂试探，只能说明当前给到线性部分的远近端延时较小或过大，此时滤波器效果是不稳定的，需要借助固定延时调整或大延时调整使index处于一个比较理想的位置。线性部分算法是可以看作是一个固定步长的NLMS算法，具体细节大家可以结合源码走读，本节重点讲解线型滤波在整个框架中的作用。从个人理解来看，线性部分的目的就是很大程度的消除线性回声，为远近端帧判别的时候，很大程度地保证了信号之间的相干值(0~1之间，值越大相干性越大)的可靠性。我们记消除线性回声之后的信号为估计的回声信号e(n)，e(n)=s(n)+y''(n)+v(n)，其中y''(n)为非线性回声信号，记y'(n)为线性回声，y(n)=y'(n)+y''(n)。相干性的计算（Matlab代码）,两个实验（1）计算近端信号d(n)与远端参考信号x(n)的相关性cohdx，理论上远端回声信号的相干性应该更接近0（为了方便后续对比，WebRTC做了反向处理:1-cohdx），如图5(a)，行为计算近端信号d(n)，第二行为远端参考信号x(n)，第三行为二者相干性曲线:1-cohdx，会发现回声部分相干值有明显起伏，比较大值有，近端部分整体接近，但是有持续波动，如果想通过一条固定的门限去区分远近端帧，会存在不同程度的误判。

广东录播声学回声抑制算法

上一篇： USB声卡前端降噪