声 纹 识 别
25组
摘要
随着信息技术的发展,人们的交互手段越来越多样化,对身份鉴别的要求随之越来越高,生物认证技术基于人们自身的生理和行为特征进行身份鉴别,以其独特的优势,日益显示出它的价值。声纹识别技术,又称说话人识别技术(Speaker Recognition),被认为是最自然的生物认证技术,它是一项通过语音信号提取代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等),进而识别出说话人身份等工作方面的技术。近年来,声纹识别技术己成为研究领域的一大热点与此同时,这一技术也存在着许多问题,集中于怎样从语音信号中提取尽量多与身份相关且比较稳定的特征信息(声纹特征会受到说话人的身体状况、说话的方式、录音信道及环境噪音的干扰而波动),以及怎样进行改进特征提取的方法,使其针对现有的特征能得到更好的识别结果。它可以广泛应用于国家安全、刑侦、电话银行、智能门禁及娱乐增值等领域。
针对第一问我们我们采用文本相关数据,在matlab环境中建立MFCC模型,首先使用wavread(file)函数读入,然后以帧长256,帧移80进行分帧。接着由语句x=filter([1-0.9375],1,x)实现对高频的加重处理,滤除低频干扰,特别是50Hz到60Hz的工频干扰,对语音识别更为有用的高频部分进行频谱提升。接着,为了保持语音信号的短时平稳性,利用汉明窗函数来减少由截断处理导致的Gibbs效应。最后提取出声音信号中的采样值,频率和采样位数。
针对第二问我们首先采用双门限的算法端点检测vad(x),然后采用MFCC参数算法mfcc(x):输入为采样语音数据x,输出为mfcc参数,接着HMM参数初始化inithmm(samples,M),最后之别主程序显示出识别结果。
针对第三问我们通过LPC分析,得出最小的?可表示成:
?min???0,0???ak??0,k?k?1p (6)
显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。
最后我们根据上述分析得出改进办法。
关键词:MFCC HMM MATLAB 双门限的算法端点检测
短时傅里叶
1
一·问题重现
生物认证是通过人体特征进行人物身份认证的重要手段,包括人脸识别、虹 膜识别、指纹识别、体态识别和声纹识别等方法,它们被广泛地应用于国防、军 事和民用等诸多领域,推动着信息产业的蓬勃发展。
声纹识别又称说话人识别,是通过分析说话人的语音的特点,利用计算机自 动识别说话人的身份。声纹识别又分为文本相关和文本无关说话人的识别两大类。文本无关是指说话人的说话内容不受限制,文本相关是指说话人的说话内容必须是指定的内容。
评价声纹识别方法或模型的最重要指标是识别准确率,准确率越高越宜于应 用于实际。评价的另外一个重要指标就是识别所花的时间,即输入待识别的说话 人语音到识别结果的输出说话的时间,该时间越短约好。
试着利用采集到的说话人语音数据(文本相关和文本无关两类,见附录一),完成以下几点:
1)建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话 人特征;
2)利用说话人特征建立说话人模型或声纹识别模型;
3)利用语音数据评价你的说话人模型或声纹识别模型评价的好坏;
4)分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。
2
二· 问题分析
2.1 问题一
问题一要求建立代表说话人身份的语音特征模型,通过编程从语音数据中提取说话人特征。我们采用文本相关数据,在matlab环境中建立MFCC模型,首先使用wavread(file)函数读入,然后以帧长256,帧移80进行分帧。接着由语句x=filter([1-0.9375],1,x)实现对高频的加重处理,滤除低频干扰,特别是50Hz到60Hz的工频干扰,对语音识别更为有用的高频部分进行频谱提升。接着,为了保持语音信号的短时平稳性,利用汉明窗函数来减少由截断处理导致的Gibbs效应。最后提取出声音信号中的采样值,频率和采样位数。
2.2 问题二
问题二要求利用说话人特征建立说话人模型或声纹识别模型。
(1)端点检测vad(x):采用双门限的算法。输入为采样语音数据x,输出X1, X2是起始端点和结束端点的帧数,并将xi到x2帧的语音数据存sample(k).wave结构数组中。
(2)MFCC参数算法mfcc(x):输入为采样语音数据x,输出为mfcc参数,取x1—2至x2—2帧的mfcc参数到sample(k).data结构数组中。
(3)HMM参数初始化inithmm(samples,M):输入为samples和NX*1的数组M,N为状态数,M是每个状态包含的高斯混合个数。
(4)viterbit识别算法:输入删模型和mfcc参数,回溯最佳状态路径,返回输出概率和状态路径。
(5)训练过程train(sample,M):对一次迭代函数baum.m实施n次迭代(设 置迭代次数)。输出为训练后的HMM模型参数和总输出概率,将模型参数存入 hmm{i}(hmm为一个cell数组)。
(6)识别主程序(recog):对输入待识别的语音用函数vad进行端点检测, 计算出MFCC参数之后,交由识别函数viterbi.m计算得到其对数形式的输出概率,最后显示出识别结果。
2.3 问题三
问题三要求利用语音数据评价你的说话人模型或声纹识别模型评价的好坏。 通过LPC分析,由若干帧语音可以得到若干组LPC参数,每组参数形成一个描绘该帧语音特征的矢量,即LPC特征矢量。由LPC特征矢量可以进一步得到很多种派生特征矢量,例如线性预测倒谱系数、线谱对特征、部分相关系数、对数面积比等等。不同的特征矢量具有不同的特点,它们在语音编码和识别领域有着不同的应用价值。
LP分析为线性时不变因果稳定系统V(z)建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。
如果利用P个取样值来进行预测,则称为P阶线性预测。假设用过去P个取样
3
值
?S?n?1?,S?n?2?,S?n?p??Sn的加权之和来预测信号当前取样值??。最小的?可
表示成:
?min???0,0???ak??0,k?k?1p (6)
显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。
2.4 问题四
问题四要求分析影响准确率的因素,采取措施进一步提高声纹识别的准确率。MFCC的分析着眼于人耳的听觉特性,Mel频率尺度的值大体上对应于实际频率的对数分布关系,更符合人耳的听觉特性,MFCC参数突出优点是不依赖极点语言产生模型的假定,考虑了人耳的听觉感知特性,抗噪声和抗频谱失真能力较强,从而提高识别系统的性能。
4