解密实时通话中基于 AI 的一些语音增强技术- 汇维网

背景介绍

实时音视频通信 RTC 在成为人们生活和工作中不可或缺的基础设施后，其中所涉及的各类技术也在不断演进以应对处理复杂多场景问题，比如音频场景中，如何在多设备、多人、多噪音场景下，为用户提供听得清、听得真的体验。

作为语音信号处理研究领域的旗舰国际会议，ICASSP (International Conference on Acoustics, Speech and Signal Processing) 一直代表着声学领域技术最前沿的研究方向。ICASSP 2023 收录了多篇和音频信号语音增强算法相关的文章，其中，火山引擎 RTC 音频团队共有 4 篇研究论文被大会接收，论文方向包括特定说话人语音增强、回声消除、多通道语音增强、音质修复主题。本文将介绍这 4 篇论文解决的核心场景问题和技术方案，分享火山引擎 RTC 音频团队在语音降噪、回声消除、干扰人声消除领域的思考与实践。

《基于频带分割循环神经网络的特定说话人增强》

论文地址：

https://ieeexplore.ieee.org/abstract/document/10097252

实时特定说话人语音增强任务有许多问题亟待解决。首先，采集声音的全频带宽度提高了模型的处理难度。其次，相比非实时场景，实时场景下的模型更难定位目标说话人，如何提高说话人嵌入向量和语音增强模型的信息交互是实时处理的难点。受到人类听觉注意力的启发，火山引擎提出了一种引入说话人信息的说话人注意力模块（Speaker Attentive Module，SAM），并将其和单通道语音增强模型-频带分割循环神经网络（Band-split Recurrent Neural Network，BSRNN) 融合，构建特定人语音增强系统来作为回声消除模型的后处理模块，并对两个模型的级联进行优化。

模型框架结构

频带分割循环神经网络（BSRNN）

频带分割循环神经网络（Band-split RNN, BSRNN）是全频带语音增强和音乐分离的 SOTA 模型，其结构如上图所示。BSRNN 由三个模块组成，分别是频带分割模块（Band-Split Module）、频带序列建模模块（Band and Sequence Modeling Module）和频带合并模块（Band-Merge Module）。频带分割模块首先将频谱分割为 K 个频带，每个频带的特征通过批归一化（BN）后，被 K 个全连接层（FC）压缩到相同的特征维度 C 。随后，所有频带的特征被拼接为一个三维张量并由频带序列建模模块进一步处理，该模块使用 GRU 交替建模特征张量的时间和频带维度。经过处理的特征最后经过频带合并模块得到最后的频谱掩蔽函数作为输出，将频谱掩蔽和输入频谱相乘即可得到增强语音。我们在每一个频带序列建模模块后添加了说话人注意力模块以构建特定人语音增强模型。

说话人注意力机制模块 (SAM)

说话人注意力模块（Speaker Attentive Module）的结构如上图。其核心思想是使用说话人嵌入向量 e 作为语音增强模型中间特征的吸引子，计算其和中间特征所有时间和频带上的相关度 s，称作注意力值。该注意力值将被用于对中间特征 h 进行缩放规整。其具体公式如下：

首先通过全连接和卷积将 e 和 h 变换为 k 和 q：

k 和 q 相乘得到注意力值：

最后通过该注意力值缩放原始特征：

模型训练数据

关于模型训练数据，我们采用了第五届 DNS 特定说话人语音增强赛道的数据以及 DiDispeech 的高质量语音数据，通过数据清洗，得到约 3500 个说话人的清晰语音数据。在数据清洗方面，我们使用了基于 ECAPA-TDNN[1]说话人识别的预训练模型来去除语音数据中残留的干扰说话人语音，同时使用第四届 DNS 挑战赛第一名的预训练模型来去除语音数据中的残留噪声。在训练阶段，我们生成了超过 10 万条 4s 的语音数据，对这些音频添加混响以模拟不同信道，并随机和噪声、干扰人声混合，设置成一种噪声、两种噪声、噪声和干扰说话人以及仅有干扰说话人 4 种干扰场景。同时，为了模拟不同大小的输入，含噪语音和目标语音电平也会被随机缩放。

《融合特定说话人提取与回声消除技术方案》

论文地址：

https://ieeexplore.ieee.org/abstract/document/10096411

回声消除一直是外放场景中一个极其复杂且至关重要的问题。为了能够提取出高质量的近端干净语音信号，火山引擎提出了一种结合信号处理与深度学习技术的轻量化回声消除系统。在特定说话人降噪（Personalized Deep Noise Suppression, pDNS ) 基础上，我们进一步构建了特定说话人回声消除（Personalized Acoustic Echo Cancellation, pAEC）系统，其包括一个基于数字信号处理的前处理模块、一个基于深度神经网络的两阶段模型和一个基于 BSRNN 和 SAM 的特定说话人语音提取模块。

特定说话人回声消除总体框架

基于数字信号处理线性回声消除的前处理模块

前处理模块主要包含两部分：时延补偿（TDC）和线性回声消除（LAEC），该模块均在子带特征上进行。

基于信号处理子带线性回声消除算法框架

时延补偿

TDC 基于子带互相关，其首先分别在每个子带中估计出一个时延，然后使用投票方法来确定最终时间延迟。

线性回声消除

LAEC 是一种基于 NLMS 的子带自适应滤波方法，由两个滤波器组成：前置滤波器（Pre-filter）和后置滤波器（Post-filter），后置滤波器使用动态步长进行自适应更新参数，前置滤波器是状态稳定的后置滤波器的备份。通过比较前置滤波器和后置滤波器的输出的残余能量，最终选择误差信号。

LAEC 处理流程图

基于多级卷积-循环卷积神经网络（CRN）的两阶段模型

为了减轻模型建模负担，我们主张将 pAEC 任务解耦为“回声抑制”和“特定说话人提取”两个任务。因此，后处理网络主要由两个神经网路模块组成：用于初步回声消除和噪声抑制的基于 CRN 的轻量级模块，以及用于更好的近端语音信号重建的基于 pDNS 的后处理模块。

第一阶段：基于CRN的轻量级模块

基于 CRN 的轻量级模块由一个频带压缩模块、一个编码器、两个双路径 GRU、一个解码器和一个频带分解模块组成。同时，我们还引入了一个语音活动检测（Voice Activity Detection, VAD）模块用于多任务学习，有助于提高对近端语音的感知。CRN 以压缩幅度作为输入，并输出初步的目标信号复数理想比掩码（cIRM）和近端 VAD 概率。

第二阶段：基于pDNS的后处理模块

这个阶段的 pDNS 模块包括了上述介绍的频带分割循环神经网络 BSRNN 和说话人注意力机制模块 SAM，级联模块以串联的方式接在轻量级 CRN 模块之后。由于我们的 pDNS 系统在特性说话人语音增强任务上达到了较为优异的性能，我们将一个预训练好的 pDNS 模型参数作为模型的第二阶段初始化参数，对前一阶段的输出进一步处理。

级联系统训练优化损失函数

我们对两阶段模型进行级联优化，让模型在第一阶段预测近端语音，在第二阶段预测近端特定说话人语音。同时，我们还引入了一个近端 VAD 罚项，增强模型对近端语音的感知。具体损失函数定义如下：

其中，

分别对应模型第一阶段和第二阶段预测的 STFT 特征，分别表示近端语音和近端特定说话人语音的 STFT 特征，

分别表示模型预测和目标 VAD 状态。

模型训练数据

为了使回声消除系统可以处理多设备，多混响，多噪音采集场景的回声，我们通过混合回声和干净语音，得到 2000+ 小时的训练数据，其中，回声数据使用 AEC Challenge 2023 远端单讲数据，干净语音来自 DNS Challenge 2023 和 LibriSpeech，用于模拟近端混响的 RIR 集合来自 DNS Challenge。由于 AEC Challenge 2023 远端单讲数据中的回声存在少量噪声数据，直接用这些数据作为回声容易导致近端语音失真，为了缓解这个问题，我们采用了一种简单但有效的数据清理策略，使用预训练的一个 AEC 模型处理远端单讲数据，将具有较高残余能量的数据识别为噪声数据，并反复迭代下图清洗流程。

级联优化方案系统效果

这样的一套基于融合回声消除与特定说话人提取的语音增强系统在 ICASSP 2023 AEC Challenge 盲测试集 [2] 上验证了它在主客观指标上的优势——取得了 4.44 的主观意见分（Subjective-MOS）和 82.2%的语音识别准确率（WAcc）。

《基于傅立叶卷积注意力机制的多通道语音增强》

论文地址：

https://ieeexplore.ieee.org/document/10095716

基于深度学习的波束权值估计是目前解决多通道语音增强任务的主流方法之一，即通过网络求解波束权值来对多通道信号进行滤波从而获得纯净语音。与传统波束形成算法求解空间协方差矩阵的原理类似，频谱信息和空间信息在波束权值的估计中也起着重要作用。然而，现有许多神经波束形成器都无法对波束权值进行最优估计。为处理这一挑战，火山引擎提出了一种傅里叶卷积注意力编码器（Fourier Convolutional Attention Encoder, FCAE），该编码器能在频率特征轴上提供全局感受野，加强对频率轴上下文特征的提取。同时，我们也提出了一种基于 FCAE 的卷积循环编解码器（Convolutional Recurrent Encoder-Decoder, CRED）的结构用来从输入特征中捕捉频谱上下文特征和空间信息。