冯涛,孙怡然
(南京信息工程大学,江苏 南京 210044)
0 引 言麦克风阵列技术在多通道语音去混响中是众所周知的,它可以通过空间区分不同方向的声音,在一定程度上抑制混响。在多通道线性预测的原理是设计一个线性预测器,估计出语音的混响部分,从混响语音中减去被估计出的部分就能估计出期望的语音信号。
RLS算法在矩阵逆变换的过程中条件数会增多,使该算法存在潜在的不稳定问题,以及使用常数遗忘因子而导致系统突然变化时收敛缓慢等问题。前者可以用QR分解解决,而后者常用自适应遗忘因子来解决
本文提出了一种基于滤波器系数近似导数的VFF控制方案。其主要思想是通过权值向量的变化来衡量自适应滤波器的收敛行为。在接近稳态时,权值向量表现出更少的变化,并且可以使用更小的步长。同样,当权值向量表现出相当大的变化时,可以选择更大的步长。这种方法也适用于RLS算法。仿真结果表明,该算法不仅提高了去混响的能力,还提高了稳定性。
1 信号模型现在假设在一个密闭的环境中,有且只有一个声源,这个声源产生的语音信号由个麦克风捕捉,而麦克风捕获的信号不可避免会带有噪声,因此,麦克风捕捉到的信号可以表示为:
其中,()表示麦克风捕捉到的信号,()表示语音信号,()是加性噪声。为了接下来的讨论方便,令()=0。
对时域信号采用短时傅里叶变换后,第个麦克风捕获到的信号可以表示为:
混响信号(,)能表示为:
用L代表MCLP滤波器的长度,作为时域内的预测延时,g是线性预测过滤器的预测系数,对每个频点进行计算后,省略掉,公式可以表示为:
将(3)式带入(4)式可得需要的估计信号为:
其中:
()用来表示加权系数;的取值介于(0,1),表示为遗忘因子;加权系数又可以表示为:
是个无穷小的数,用于保证()是一个非负数,代表形状参数,假设后期混响服从指数分布,则()的功率谱密度就可以表示为:
其中:
代入公式得出后期混响的估计值为:
若采用最小二乘法递归求解 可以表示为:
由于式(17)中矩阵求逆过程的条件数增大,只用最小二乘法来求解会存在潜在的不稳定问题,通过QR分解的方法减少条件数,可以表现出更好的数值稳定性。利用QR分解原理可以对上述式子进行重新整理算法过程具体为:
(1)给定了已扩充的数据矩阵:
其在(-1)帧处的QRD为:
(2)形成新的增强的数据矩阵:
在QR-RLS算法中加入时变遗忘因子,不仅能提供更好的数值稳定性,还具有快速的瞬态收敛和跟踪性能。
与传统的VFF方案不同,所提出的VFF控制方案是基于滤波器系数的近似导数。该方法可以表述为:
将(26)替换(8)中的,便得到了VFF-QR-RLS。
5 仿真结果5.1 仿真环境本文的设置了两个麦克风组成麦克风线性阵列,用于模拟人耳,并对一段11 s的混响信号进行去混响。实验中的各项参数如表1所示。
表1 实验参数
5.2 实验结果算法的性能用Mel频率倒谱系数距离改善(ΔMFCC)来评估,Mel频率倒谱系数(MFCC)把纯净语音作为参考信号,分别计算参考信号与混响信号和去混响信号之间的MFCC失真距离,记作MFCC和MFCC。然后两者作差便得到Mel频率倒谱距离改善(ΔMFCC),该值越大时,说明去混响效果越好。
RLS和QR-RLS算法的遗忘因子的取值为0.96,而VFF-QR-RLS的遗忘因子,γ=0.96,γ=0.99。仿真结果如图1所示。
图1 三种算法的ΔMFCC距离改善
由图2上和图2中可知,QR-RLS具有和RLS相同的效果,并且通过QR分解的方法减少条件数,还可以表现出更好的数值性质。图中画圈的部分进行比较可以发现,VFFQR-RLS算法能够更快趋于稳定,有更好的数值稳定性。
为了进一步评估算法的性能和去混响效果,本文还采用了语音质量感知评价对实验中的去混响语音进行评估,最终得分取的是10组不同的模拟混响样本实验结果的平均值,不同算法去混响信号得分如图2所示(混响时间=(300 ms,600 ms,900 ms)),从图中数据可以看出,在不同混响程度中,VFF-QR-RLS算法的得分都是最高的,这也验证了算法的有效性。
图2 不同方法去混响前后语音信号的平均PESQ得分
6 结 论本文对基于QR-RLS的多通道线性预测去混响算法进行了改进,加入了时变遗忘因子,该方法提高了算法的去混响能力以及数值的稳定性。仿真的实验结果验证了该算法的有效性。