声纹识别技术研究

(整期优先)网络出版时间:2009-02-12
/ 2

声纹识别技术研究

叶磊

关键词:声纹声纹识别应用

一、声纹识别概述

声纹识别(SR)广义上分为语音识别和说话人识别两种。语音识别是根据说话人的发音辨认其所说的语音、音节、单词或单句,这就要排除不同说话人的个人特色,找出代表各个语音单位的共性特征。说话人识别是根据语音来辨认说话人,而并不考虑声音的内容和意义,这就需要分离出每个个体的特性。目前,普遍意义上声纹识别的概念是指说话人识别。说话人识别包括说话人辨认和说话人确认两个方面。说话人辨认是一对多的分析过程,即判断出某段语音是若干人中哪一个所说,主要应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等。说话人确认是一对一的确定过程,即确认某段语音是否属于指定的某人,主要应用于证券交易、银行交易、个人计算机声控锁、汽车声控锁、身份证、信用卡等。识别的核心是预先录入声音样本,并提取每个样本独一无二的特征,建立特征数据库,使用时将待检声音与数据库中的特征进行匹配,通过分析计算,实现说话人识别。

二、声纹识别的原理

1.特征提取

(1)语音信息通过滤波器组输出,以合适的速率对输出进行抽样得到谱包络特征参数;(2)基于发声器官如声门、声道和鼻腔的生理结构提取的特征参数,如基音轮廓、共振峰频率带宽及其轨迹等;(3)以线性预测导出的特征参数,如线性预测系数、自相关系数、反射系数等;(4)模拟人耳对声音频率感知的特性而得到的听觉特性参数,如Mel倒谱系数、感知线性预测等。随着对声纹识别应用范围的不断扩大,以及对系统准确性要求的不断提高,只考虑较低层次的声学特征并不能满足要求,这就需要同时考虑高层次的特征信息,如语速、语法、韵律、语种、方言、特性发音、特性词、信道(声音信号获取的渠道)等。对于这些高层次的信息,最关键的问题是选择,同时要针对具体情况来决定。因此,在声纹识别过程中,必须根据实际情况,安排不同特征参量的组合,以提高实际系统的性能,当各组合参量间相关性不大时,会得到更好的识别效果。

2.模式匹配

声纹识别技术的关键在于对各种声学特征参数进行处理,并确定模式匹配方法,主要的模式匹配方法为:(1)概率统计方法:声音信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可利用均值、方差等统计量和概率密度函数进行分类判决。这种方法不用对特征参数在时域上进行规整,适合与文本无关的声纹识别。(2)动态时间规整方法:说话人信息不仅有稳定因素(发声器官的结构和发声习惯等),也有时变因素(语速、语调、重音和韵律等),将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。(3)矢量量化方法:把每个人的特定文本编成码本,识别时将测试文本按此码本进行编码,以量化产生的失真度作为判决标准,具有识别精度高、判断速度快的特点。(4)隐马尔可夫模型方法:隐马尔可夫模型是基于转移概率和传输概率的随机模型,它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。识别时,为每个发音个体建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。这种方法不需要时间规整,可节约判决时的计算时间和存储量,目前已被广泛应用;缺点是训练时计算量较大。

三、声纹识别技术的发展、现状及前景

SR声纹识别技术在国外已有不少成熟产品问世。声音电话卡拥有众多用户电话卡拥有者只需对着电话念出对方的电话,智能卡根据声音进行区别,判断声纹发出者是否是电话的合理用户从而决定拨通与否。比较而言,目前呼叫中心采用的来电显示的方法对发出呼叫请求的用户进行身份鉴别的做法有很大的不确定性,当不同的用户使用同一电话号码进行呼叫时,呼叫中心系统无法对之进行相应的区分;另一方面同一用户不会也不可能仅使用一个电话同呼叫中心联络,客户更换电话后.呼叫中心就不能识别老用户,也无法迅捷地提供个性化服务。尽管SIR技术目前尚不成熟,但确实有着广阔的发展前景,SR的未来发展方向包括两方面内容:研究方法和市场应用。在SR研究方法上,寻找更加优良的研究方法有相当难度。由于技术条件所限,目前所采用的抽样建模方法还存在不足。不同实验申声音特性信号的变更,包括说话者生理上的变动性以及实验条件的不确定胜等,都对SR技术形成严峻挑战。SR未来研究中将包含提取声音长期稳定的特征系数问题,以及两个人交谈时.能自动从中提取每人的声音特征并加以区分的技术提高系统的汉别率进行大规模电话语音测试将是十分必要的SR的市场应用也是一个重要课题声纹识别技术的最大特点是精确性。高度的精确性带来身份鉴别认证的准确结果,另一方面也意味着信息传递的安全声纹识别技术根本无法模仿,不象现有的电话银行系统所采用的密码是在通信终端以DTMF信号的方式输人,一旦密码被窃取则极易失窃。声纹识别技术用于电话银行业务,可以有效地保证金融服务的安全可靠性。

随着声纹识别技术的不断发展,SR的市场应用也将日趋成熟,一定会为信息化的不断扩大提供一种切实可行的选择。

参考文献:

[1]杨阳,陈永明.声纹识别技术及其应用[J].电声技术,2007(2).

[2]殷斌,何培宇.一种有效的语音盲信号分离简化混合模型[J],电子学报,2002,30(10).

[3]陈良玉.声纹识别技术及其应用[J].信息时代导刊,2003(12).