安徽交互声学回声消除算法

时间:2022年12月31日 来源:

    在线性的回声场景里,双耦合的非线性滤波器是处于休眠的状态,所以它的值是趋于0的,这个时候起主导作用的是线性滤波器。接下来我们再看一下右边的非线性声学回声场景。我们假设非线性的失要出现在t1到t2这个时间段内,大家可以看到黄色线在这个时间里,出现了一次突变,对于NLMS算法,当出现非线性失真之后,它的线性滤波器会去逼近非线性失真。但是由于学习的速度跟不上滤波器变化的速度,所以它跟真实的值之间总是存在一个比较大的gap。同时当非线性失真消失之后,它还需要一段时间恢复到正常状态,因此在整个时间段里,都会出现回声泄露的问题。接下来我们再看双耦合算法,在非线性失真出现之后,线性滤波器会进入到一种相对休眠的状态,就是前面所提到的耦合机制,会降低它的更新速度,所以在整个非线性出现的这段时间里,他的值是缓慢变化的。进入非线性失真状态之后,非线性滤波器开始工作,它会快速非线性特性的变化,而当非线性失真消失之后,非线性滤波器又进入休眠状态。将这两个滤波器结合起来,就可以实现对整个声学回声路径的变化进行有效。这里只是给出了一个示例,实际情况往往要复杂很多。接下来我们对这2个滤波器做了特性比较,主要是从4个不同的维度。

     非线性声学回声消除技术研究现状。安徽交互声学回声消除算法

    至于双讲恢复能力WebRTCAEC算法提供了{kAecNlpConservative,kAecNlpModerate,kAecNlpAggressive}3个模式,由低到高依次不同的抑制程度,远近端信号处理流程,NLMS自适应算法(上图中橙色部分)的运用旨在尽可能地消除信号d(n)中的线性部分回声,而残留的非线性回声信号会在非线性滤波(上图中紫色部分)部分中被消除,这两个模块是WebrtcAEC的模块。模块前后依赖,现实场景中远端信号x(n)由扬声器播放出来在被麦克风采集的过程中,同时包含了回声y(n)与近端信号x(n)的线性叠加和非线性叠加:需要消除线性回声的目的是为了增大近端信号X(ω)与滤波结果E(ω)之间的差异,计算相干性时差异就越大(近端信号接近1,而远端信号部分越接近0),更容易通过门限直接区分近端帧与远端帧。非线性滤波部分中只需要根据检测的帧类型,调节抑制系数,滤波消除回声即可。下面我们结合实例分析这套架构中的线性部分与非线性分。线性滤波线性回声y'(n)可以理解为是远端参考信号x(n)经过房间冲击响应之后的结果,线性滤波的本质也就是在估计一组滤波器使得y'(n)尽可能的等于x(n),通过统计滤波器组的比较大幅值位置index找到与之对齐远端信号帧,该帧数据会参与相干性计算等后续模块。

     安徽语音识别声学回声供应商家介绍双耦合声学回声消除算法。

    需要注意的是,如果index在滤波器阶数两端疯狂试探,只能说明当前给到线性部分的远近端延时较小或过大,此时滤波器效果是不稳定的,需要借助固定延时调整或大延时调整使index处于一个比较理想的位置。线性部分算法是可以看作是一个固定步长的NLMS算法,具体细节大家可以结合源码走读,本节重点讲解线型滤波在整个框架中的作用。从个人理解来看,线性部分的目的就是很大程度的消除线性回声,为远近端帧判别的时候,很大程度地保证了信号之间的相干值(0~1之间,值越大相干性越大)的可靠性。我们记消除线性回声之后的信号为估计的回声信号e(n),e(n)=s(n)+y''(n)+v(n),其中y''(n)为非线性回声信号,记y'(n)为线性回声,y(n)=y'(n)+y''(n)。相干性的计算(Matlab代码),两个实验(1)计算近端信号d(n)与远端参考信号x(n)的相关性cohdx,理论上远端回声信号的相干性应该更接近0(为了方便后续对比,WebRTC做了反向处理:1-cohdx),如图5(a),行为计算近端信号d(n),第二行为远端参考信号x(n),第三行为二者相干性曲线:1-cohdx,会发现回声部分相干值有明显起伏,比较大值有,近端部分整体接近,但是有持续波动,如果想通过一条固定的门限去区分远近端帧,会存在不同程度的误判。

    

    而正是这两级客观存在的物理声学现象,造就了我们所讨论的内容。在远程会议系统的终端(本地),为了实现多人互动、多人拾音等目的,系统声音免不了被放大还原,而在诸如此类的放大系统中,为本地音箱能够听到远端声音,并能把本地拾音信号传送到远端而互通。众所周知,话筒在拾取到放大后的音箱信号后,再次回授、无限循环而产生反馈现象,而系统在均衡声场后,该现象其实是可以得到明显改观的。但话筒的拾音灵敏度是不是可以无限大呢?不是,在足够电平条件下,它始终会因拾取到具有相干性频率相位关系的输入信号而建立起回授。上述啸叫现象并不是本文重点,但它为我们讨论接下来的话题提供了一个前提,那就是(同一个声场环境中)话筒和音箱无论怎么摆都无法做到完全的隔离,更别说空间声场条件有限的小中型会议室了。在一套有扩声、有拾音的远程会议系统中,为了防止信号回授,我们通常会有意识地将远端输入信号不再路由给远端输出。然而无法抗拒的是,本地话筒因拾取到远端传送至本地扩声的信号,仍可将声音重新传送至远端。这也是一种回授,明显的远程回授现象可使得系统发生自激震荡。通过一个简易的远程音频传输示意图。能帮助我们更容易地理解声音信号是怎样的流向。

     如何处理非线性声学回声消除,效果又如何?

我们比较这两个之后就会发现,双讲段主要出现在中间这一段。我们评估双讲性能的主要指标是回声抑制比和近端语音失真度。上面这是经过回声消除之后的语谱,中间的是NLMS算法的结果。我们可以看到它的回声抑制不是很理想,不管在单讲段还是在双讲段,都有比较多的回声残留。而下面这个是采用双耦合算法得到的语谱,可以看到在单讲和双讲里面回声抑制得都比较干净,并且在双讲里,对近端语音的损伤也很小。这个数据对应视频会议场景,因此还需要做一步NLP的处理。上面这个就是基于双耦合算法,做了NLP之后的输出结果。我们可以看到处理完之后,整个语谱很清晰,回声去得很干净,而且语谱没有太大损伤,双讲很通透。我再来简单总结一下,主要是介绍了三个方面的内容,个就是认识了非线性声学回声、产生的原因、研究现状以及技术难点。接下来重点介绍了华为云音视频的双耦合声学回声消除算法,我们的主要贡献体现在两个方面,个方面就是构建一种双耦合自适应滤波器结构;第二个就是提出了小平均短时累计误差准则并进行求解。通过求解之后,我们会得到双耦合滤波器的线性滤波器是具有Wiener-Hopf方程解的比较好解这种形式,然后非线性滤波器具有小二乘解。我们把声学回声消除这个技术变成一张实体的插件(设备插卡),在系统中,为实现次回声过滤。安徽交互声学回声消除算法

声学回声往往会经过多个不同路径的多次反射之后到达接收端。安徽交互声学回声消除算法

    而在模拟音频大举转向数字音频、网络音频的,网络信号的延迟也为音频领域赋予了新的现象,尤其应用在远程会议这样的音频传输系统当中,它能将一次次回授剥离成一次次听似回声的现象,这就是网络音频回声。通常由A地发出的声源A在几乎不经过延迟处理的本地系统中,通过A地音箱扩声;而其经过网络终端编码送向远端时,除了考虑A地的上传时间X,还得考虑B地的下载时间Y。在这样一个架构在Internet网络传输环境中的声音,其到达B地扩声音箱出来的信号则是A+X+Y。经B地本地话筒拾取后的该信号,再由B地的上传网速(时间)Z、A地的下载时间W传送回A地扩声音箱,其表现出的信号则会出现一次A信号,及一次赋予了(X+Y+Z+W)时间的A信号。假设A地—B地传输时间总和为200ms,B地—A地传输时间总和为200ms,则信号的一去一回,体现在A扩声音箱中至少会存在A和A+400ms的信号,若反馈信号电平足够强,则再被话筒拾取,这将不止产生一次的回声,而是多次规律的回声现象。AEC即AcousticEchoCancellation(声音回声消除)技术简称。该技术的出现旨在消除这种因远程网络会议所带来的回授现象,以遏制次回声产生所需的必要条件来遏制多次回声的出现。

  安徽交互声学回声消除算法

深圳鱼亮科技有限公司拥有语音识别,音效算法,降噪算法,机器人,智能玩具,软件服务,教育培训,芯片开发,电脑,笔记本,手机,耳机,智能穿戴,进出口服务,云计算,计算机服务,软件开发,底层技术开发,软件服务进出口,品牌代理服务。等多项业务,主营业务涵盖智能家居,语音识别算法,机器人交互系统,降噪。目前我公司在职员工以90后为主,是一个有活力有能力有创新精神的团队。深圳鱼亮科技有限公司主营业务涵盖智能家居,语音识别算法,机器人交互系统,降噪,坚持“质量保证、良好服务、顾客满意”的质量方针,赢得广大客户的支持和信赖。公司力求给客户提供全数良好服务,我们相信诚实正直、开拓进取地为公司发展做正确的事情,将为公司和个人带来共同的利益和进步。经过几年的发展,已成为智能家居,语音识别算法,机器人交互系统,降噪行业出名企业。

信息来源于互联网 本站不为信息真实性负责