13.若用信号的短时傅立叶变换来定义其短时能量谱密度:
Sn?e同时定义信号的短时自相关函数为:
?j???X?e?j?n2
Rn(k)??m????w(n?m)x(m)w(n?k?m)x(m?k)
?j?m证明当Xn(e)?
j?m????x(m)w(n?m)e时,Rn(k)与Sn(ej?)互为傅立叶变换对。
?(n)?15.设p阶线性预测器表达式为s?as(n?i),证明在最小均方预测误差准则下,预
ii?1p测系数a1,?,ap满足方程组:?(0,j)??a?(i,j),j?1,2,?,pii?1p,其中
?(i,j)?E{s(m?i)s(m?j)}。
?(n)?s(n)?解:预测误差为?(n)?s(n)?s?as(n?i),
ii?1pp??均方误差为E??(n)??E?[s(n)??ais(n?i)]2?,为使E{ε2(n)}最小,对aj求偏导,并
i?1??2p??令其为零,有:E?[s(n)??ais(n?i)]s(n?j)??0,j?1,...,p,即
i?1???p?E{s(n)s(n?j)}?E??ais(n?i)s(n?j)?,j?1,?,p
?i?1?又因为?(i,j)?E{s(n?i)s(n?j)},代入上式有.?(0,j)?
?a?(i,j),j?1,2,?,p
ii?1p?0.4sn(?2)?设语音信号的线性预测模型为s(n)?0.9s(n?1)G?1,求该语音信号的线性预测谱表达式。p59
解:
?0.1sn(?,模型增益3)
H(z)?S(z)?E(z)G1??aiz?ii?1p?G A(z)H(ej?)?G1??aiei?1p?j?i?1?0.9e?j?1
?0.4e?2j??0.1e?3j?
第四章 矢量量化技术
1.根据量化的值的维数的不同,量化可分为标量量化和矢量量化。
2.矢量量化常用的失真测度有:欧式距离测度、加权欧式距离测度、Itakura-Saito距离、似然比测度和识别失真测度。
3. 训练矢量量化码本时,初始码本的生成可采用随机选取法、分裂法、链映射法等。
3.矢量量化LBG算法每次迭代时将训练集分割为若干个子集所依据的是(1): 1.最邻近准则;
2. Centroid质心条件;3.收敛准则; 4.熵极大化准则;
3.矢量量化LBG算法每次迭代时计算新码字所依据的是(2): 1.最邻近准则;
2. Centroid质心条件;3.收敛准则; 4.熵极大化准则;
第五章 隐马尔可夫模型
1.HMM是一个双内嵌式随机过程。
2.HMM的输出符号序列可见,而状态序列不可见。
3.下图是一个三状态HMM,S1是起始状态,S3是终了状态,该HMM只能输出a和b两种符号,由下图的Viterbi算法可知输出aab的最佳路径为S1->S1->S2->S3
3.对于语音识别用HMM,可用六个参数M??S,O,A,B,?,F?来定义,这六个参数分别表示什么?
S是模型中状态的有限集合;O是输出的观测值序号的集合;A是状态转移概率的集合;B是输出观测值概率的集合;pai是系统初始状态概率的集合;F是终了状态的集合。
1.从左到右型HMM(即状态的转移只能从左到右或者停留在原状态,不能返回到以前的状态)的状态转移矩阵具有何种形式?(1) 1.上三角矩阵; 2.下三角矩阵; 3.对称矩阵; 4.非奇异矩阵;
2.针对给定的HMM模型,寻找与给定观察字符序列对应的最佳状态序列可采用(3) 1.前向算法; 2.后向算法; 3.Viterbi算法; 4.Baum-Welch算法
训练HMM模型采用(4) 1.前向算法; 2.后向算法; 3.Viterbi算法;
4.Baum-Welch算法;
下图是一个三状态HMM,S1是起始状态,S3是终了状态,该HMM只能输出a和b两种符号,试求解:(参考P98)
1.该HMM的转移概率矩阵A;
2.从S1出发到S3截止,输出符号序列abb的概率;
3.最大可能的状态序列;
第七章 语音编码
1.语音编码(Speech Coding)的目的是在保证语音质量和可懂度的条件下,采用尽可能少的比特数来表示语音。即降低数码率。
2.信源编码主要解决有效性问题;信道编码主要解决可靠性问题。 3.语音编码通常分为三类:波形编码、参数编码与混合编码。
4.波形编码力图使重建后的语音时域信号的波形与原语音信号保持一致。具有适应能力强、话音质量好等优点,缺点是编码速率高。
5.参数编码又称声码器技术,从听觉感知的角度注重语音的重现,通过建立语音信号的产生模型,提取其特征参数来编码,波形上不要求与原信号匹配。优点是编码速率低;缺点是语音质量差,自然度低,对环境噪声敏感。
6.若普通电话通信中采用8kHz采样,并进行12bit量化,则数码率为96Kbit/s。 7.对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。
8.人的听觉生理和心理特性对于语音感知的影响主要表现在:1)人类听觉系统具有掩蔽效应;2)人耳对不同频段声音的敏感程度不同;3)人耳对语音信号的相位变化不敏感。 9.感觉加权滤波器是根据人耳的掩蔽效应来设计的。p138d1
10.均匀量化的特点是:大信号时量化信噪比大,小信号时量化信噪比小。
10.在增量调制(DM)中,语音信号波形发生急剧变化时,容易出现译码波形不能充分跟踪这种急剧变化而产生失真的现象,称为斜率过载。p150d3
11.利用参数编码实现语音通信的设备通常称为声码器。p161d3 12.LPC声码器采用的编码方式为参数编码(波形编码/参数编码)。
7语音信号中存在多种冗余度是语音信号可进行压缩的重要依据,下列选项中( 4 )属于频域冗余度
(1)语音信号幅度非均匀分布性
(2)语音信号样本间的强相关性 (3)浊音语音段具有的准周期性 (4)非均匀的长时功率谱密度 9.下列选项中,( )不属于波形编码方式 (1)PCM (2)APCM (3)DM
(4)LPC声码器
8.语音中最基本的元素是音素,设语音的音素共有128个,并假设通常的说话速度为每秒平均发出10个音素,请从信息论角度计算语音信号压缩编码的极限码率。p136
11.一帧典型的LPC参数包括1bit清浊音信息、5bit增益常数、6bit基因周期、每个LPC系数6bit,共8个LPC系数,如果一帧时长20ms,请计算该LPC声码器的码率。p162 解:(1+5+6+6*8)/0.02=3000bit/s
第八章 语音合成
共振峰合成法属于(3 ) 1.波形合成法; 2.LPC合成法; 3.参数合成法; 4.规则合成法; 第九章 语音识别
1.语音识别从所识别的对象来分,可分为:(1)孤立词语音识别系统:(2)连接词语音识别系统; (3)连续语音识别系统;(4)语音理解;(5)会话识别。
2.语音识别按词汇量来分,可分为:小词汇量、中词汇量、大词汇量语音识别系统。 3.语音识别从讲话人范围来分,可分为单个特定讲话人识别系统、多讲话人、与讲话者无关。 4.以下是一个矢量序列与模板的距离参数,输入适量长度为4,模板长度为5,利用DTW原理计算最佳路径
5 4 3 2 1 J I
∞ ∞ ∞ 0.2 0.1 ∞ 0.1 0.2 0.1 ∞ 0.3 0.1 0.2 ∞ ∞ 0.1 ∞ ∞ ∞ ∞ 1 2 3 4