基于MFCC和LSP混合的语音特征参数的技术研究

(整期优先)网络出版时间:2019-04-11
/ 3
摘 要 本文提出了一种基于MFCC(Mel Frequency Cepstral Coefficients)和LSP(Line Spectrum Pair)的混合语音特征参数,有效地弥补了单纯使用MFCC的不足,实验中利用加权的欧几里德距离计算特征矢量的失真距离,结果表明新的特征矢量能够很好的表征语音信号的特征信息,能有效降低系统的误识率。

关键字 特征提取; MFCC; LSP; 欧几里德距离


1 引言

随着教学制度的深入改革,在英语教学中,人们越来越注重“听”“说”这一类的实际交流能力,口语测试环节已经得到越来越多教育专家的关注,我们清醒地认识到,说的能力实际上也包括了对于听和读的能力训练。在现代计算机多媒体技术与网络技术飞速发展的前提下,很多英语教学系统的设置已经越来越科学化人性化,利用计算机辅助设计,评估英语发音者口语发声质量已经成为教学中的重要一环。除了应用于教育背景之下,目前也有一些跨国公司,在招聘员工面试时采用了一种名为PhonePass™ SET的机制,就是通过一部电话机,在短短几分钟内,由机器对面试者的外语口语进行一次综合测评。由此可见,口语测评已成为实用外语中一项不可缺少的工作。

口语测试的评分一般分为两种:一种是自动评分,一种为专家评分。目前我们进行的大量研究工作都是针对前一种的,希望尽可能脱离人的主观因素对口语测试者的发音客观评分,评分的客观性表现在给出的分数只由被测者个人的表现决定,不会受到评分专家对于测试者的个人印象,特定环境下单个被测群体的平均水平限制,以及发音的个体性差异等因素影响。这就对我们的计算机辅助设计提出了很高的要求。我们主要用到的技术是语音识别和统计模型的相关理论,通过提取被测者语音信号的特征参数,计算机对其经过一系列数字信号处理,从而在统计模型中对它进行分析测评。因此,提取特征参数的类型就显得尤为重要了,目前应用最为广泛的特征系数是Mel频率倒谱参数(MFCC)。已经有大量实验表明,较之其它类型参数,它能够更好的反映人耳听觉肌理的特征[1]。本文中以非线性的特征参数MFCC为主,结合了语音信号的另一个重要参数——线谱对参数LSP,提出了一种语音特征参数的混合使用方法(M/L),使发音质量判决系统的正确率有所改进。

2 特征提取

特征参量的选择和提取对于实现语音识别系统有关键的意义,理想的特征参数必须用较少的特征维数包含尽可能多的语音特征信息。

2.1 MFCC特征参数

MFCC系数是基于人耳的听觉特性,所谓Mel 频率尺度,它的值大体上对应于实际频率的对数关系。其与实际频率的具体关系如下:

150355940.jpg(2-1)

其中实际频率f 的单位为Hz 。根据Zwicker 的工作,临界频带宽随着频率的变换而变化,并与Mel 频率的增长一致。在1000 Hz 以下,大致呈线性分步,带宽为100 Hz 左右;在1000 Hz 以上呈对数增长。类似于临界带的划分,可以将语音频率划分为一系列三角形的滤波器序列,即美尔滤波器组。在Mel 滤波器的选择中,滤波器组的选择一般都选择三角形滤波器,可以根据不同的应用选择其他的形状如矩形、正弦形的滤波器组。滤波器的个数一般取24。当信号通过滤波器组时,取每个三角形滤波器频率带宽内所有信号幅度加权和作为每个带通滤波器的输出,然后对所有滤波器输出做对数运算,最后进一步通过离散余弦变换降低特征矢量的维数,得到的参数就是美尔频率倒谱参数(MFCC)[2]

150358554.jpg(2-2)

由于MFCC 更好的反映了人耳的听觉系统的非线性特性,在参数的抗噪声性能和提高系统的识别率方面具有优势,在实际应用中还可以将MFCC 和其差分参数结合起来作为一组特征矢量进行训练,进一步提高系统的抗噪声性能。

2.2 线谱对参数LSP

语音信号的谱特性,除了音调周期外,全部包含在线性预测系数LPC(Linear Predictor Analysis)里面了[3]。LSP即是线性预测系数的一种推演参数,定义为如下多项式的根:

150357763.jpg(2-3)

150358360.jpg(2-4)

各个根的频率在单位圆上相互交错排列,分布为:0<ω11<…<ωp/zp/z<π, ωi和θi分别为P(z)和Q(z)的第i个零点,它们总是成对的出现,且反映信号的频谱特性,因此称为线谱对。总之,线谱对分析是用p个离散频率ωi和θi的分布密度来表示语音信号频谱特性的一种方法。LSP参数能够反映声道幅度谱的特点,在幅度大的地方分布较密,反之较疏,这样就相当于反映出了幅度谱中的共振峰特征,在一定程度上可以起到特征补偿作用。

近年来声码器研究实践表明,LSP是一种具有良好的量化特性和插值特性的参数,因此,在中低速语音编码和语音识别等领域中已经得到广泛的应用。

2.3 M/L特征参数

前面已经有学者为了进一步提高识别率,提出过MFCC/FORMANTS(共振峰)参数也有很好的识别性能

[5],但是求解共振峰的算法相对复杂。而且在求解共振峰的过程中,我们经常会采用的一种方法,就是利用LPC模型分析,提取LPC谱包络线的重要信息来获得。所以,我们很容易就想到用一种同样能够表征共振峰特性,而计算相对简单的LPC推演参数——LSP来取代共振峰参数。并且,也有文献指出,LSP参数已经可以辅助MFCC参数,应用于对说话认识别的判决性条件[1]。基于以上的理论,在提取了MFCC一阶差分系数和线谱对系数的基础上,用MFCC来表征语音信号的非线性特征,而用线谱对系数来辅助表征语音的线性特征,计算二者归一化后的数值,并将它作为最终衡量语音信号失真的标准,是本文的重要思想。

3 实验分析及其结果

3.1 检验方法

在本文中,我们主要采取了加权的欧几里德距离来度量两组特征矢量间的距离[5]。X=(x1,x2,…,xk)为参考模型的特征矢量,K代表参数的维数,Y=(y1,y2,…,yk)表示维数为K的被测模型特征矢量。标准的加权欧几里德距离可用下式表示:

150363769.jpg(3-1)

Wk为加权系数, 。

3.2 语音训练数据库

本实验基于一个自行开发的口语测试平台,将语音识别的相关理论运用其中。我们利用了《东方背单词4》和《金山词霸2005》的单词发音,分别建立了训练库中的两个标准模板,实验中的语音数据使用的采样频率为8000Hz,精度16位,单声道,这三个参数在整个系统的实现过程中是一直不变的。

3.3 实验分析

口语测试开发平台的功能和原理简述如下:口语测试者在语音训练库中,可任意选取语音样本,根据听到样本的标准发音进行跟读。系统在运行过程中,分别提取二者的特征信息,进行比对,通过计算标准模板和训练模板特征参数之间的欧几里德距离,判决发音质量。要求检测系统能够客观、真实地对口语训练者的发音质量做出评价,尽量降低误判率。

依据以上的原理,我们分别做了两次实验,第一次实验中,提取的参数为MFCC的一阶差分系数,第二次实验中,特征参数为本文推荐的M/L混合参数,最后比较了二者的优劣。

实验1:提取了两个标准模版的一阶MFCC差分系数之后计算出二者的欧几里德距离(dist1)。图1显示的是单词‘pronunciation’的MFCC特征参数波形。

15036314.jpg

图1 ’pronunciation’的一阶MFCC差分系数

实验2:接着再分别提取二者的LSP参数,将相同语音的MFCC失真距离和LSP失真距离之比作为最终的度量距离(dist2)[3]。下图显示的是单词‘pronunciation’的LSP参数波形。

150369243.jpg

图2 单词‘pronunciation’的LSP参数波形

表1中计算出了语音库中‘lovely’,‘programme’,‘introduce’,‘pronunciaton’四个单词的MFCC失真距离,因为失真距离的大小显然是和帧长成正比的,所以这里的dist取了帧数的平均值,dist1为MFCC失真距离的均值,dist2为相同语音的M/L失真距离的均值。


表1 四个发音的实验数据

词汇

发音者

帧数

MFCC距离

Dist1

MFCC/

LSP距离

Dist2

lovely

n

68

4.28446e+004

630.068

6.40636e+006

534493.6516

k

45

programme

n

81

6.53869e+004

807.2453

2.35057e+007

1959617.75

k

57

introduce

n

82

5.09287e+004

541.7951

1.07990e+007

900462.540

k

94

pronunciation

n

110

7.93151e+004

7721.0463

1.92449e+007

1604458.54

k

98


3.4 实验结果

实验验证的是对基本词汇的发音质量评价,也就是评判系统打出的分数是否可以被我们接受。首先由系统对大量跟读训练的读音计算打分,然后由专家评分,最后计算MFCC评分和专家评分的平均相关系数,大约为77%左右,而M/L评分与专家评分的平均相关系数可以提高到88%。换句话说,M/L算法得出的结果跟专家评分结果更为接近,从而证明,本文提出的M/L改进算法可以更加有效的提取语音信号的特征参数。

4 结论

本文将语音识别的相关理论应用于一个英语口语测试的评估系统,为提高系统判别率的需要,特别改进了特征参数的提取方法。本文作者创新点:将MFCC和LSP混合应用于特征识别。实验证明,它确实在本系统中能够减少发音质量的误判率,从而证明了这种混合的特征参数能很好的反映语音信号的特征,同时,它易于实现的特点,决定了它也可以应用于语音识别的其他领域中。

参考

文献

[1] 蔡莲红,黄德智,蔡锐. 现代语音技术基础与应用. 北京:清华大学出版社,2003

[2] Lawrence R. R, Ronald W. S.. Digital Processing of Speech Signals. Prentice-Hall, Inc.,1993

[3] 张玲华,郑宝玉,杨震. 基于LPC分析的语音特征参数研究及其在说话人识别中的应用. 南京邮电学院学报, 2005.12:1~6

[4] Barnwell.T.”Recursive windowing for generating autocorrelation coefficients for LPC analysis”,in IEEE Transactions on Signal Processing 1981,vol: 29,Issue 5, pp:1062 - 1066

[5] Ahmed Mezghani,Douglas O’Shaughnessy. “Speaker Verification Using a New Representation Based on a Combination of MFCC and Formants”, in IEEE Electrical and Computer Engineering,2005,pp.1469-1472