实验一 语音信号的端点检测
一、实验目的
1、掌握短时能量的求解方法 2、掌握短时平均过零率的求解方法
3、掌握利用短时平均过零率和短时能量等特征,对输入的语音信号进行端点检测。
二、仪器设备 HP计算机、Matlab软件
三、实验原理 3.1、短时能量
3.1.1、原理:语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。 语音信号的短时能量定义:
xw(n)?w(n)?x(n)0?m?N?1
0?n?N?1?1w(n)? ? 其它?0
n?N?12 En??xw(m) m?n
3.1.2、短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律。从原始语音信号图中可以看到语音信号幅度随时间有相当大的变化,特别是清音段的幅度一般比浊音段的幅度小很多,语音信号的短时能量给出了反映这些幅度变化的一个合适的描述方法。
3.1.3、短时平均幅度函数和能量函数的作用 (1)区分清/浊音。
En、Mn大,对应浊音; En、Mn小,对应清音。其中Mn是短时幅度差。 (2)在信噪比高的情况下,能进行有声/无声判决。 无声时,背景噪声的En、Mn小;
有声时,En、Mn显著增大。判决时可设置一个门限。 (3)大致能定出浊音变为清音的时刻,或反之。 3.2、短时过零率:
3.2.1、定义:过零就是信号通过零值。
连续语音信号,考察其时域波形通过时间轴的情况;离散时间信号,相邻的 值改变符号则称为过零。
n?N?11 Z?sgn[xw(m)]?sgn[xw(m?1)] n2m?n x(n)?0?1sgn[x(n)]??
??1x(n)?0
窄带信号,平均过零数作为信号频率的一种简单度量是很精确的,语音信号序列是宽带信号, 则不能简单用上面的公式,但是可以用短时平均过零数来得到频谱的粗略估计。
3.2.2、短时过零分析的意义: (1)、可以区分清音与浊音:浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。 (2)、利用它可以从背景噪声中找出语音信号,可用于判断寂静无语音和有语音的起点和终点位置。 (3)、在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零数识别较为有效。 3.3、语音的端点检测: 语音信号有如下特点:
(1)浊音的短时平均幅度最大,过零率最低; (2)无声的短时平均幅度最低,过零率居中; (3)清音短时平均幅度居中,过零率最高;
根据上述特点就可以检测出语音的端点来。即区分出有声和无声的分界线。
四、实验内容
?1、找到机器中声音文件,对其进行相应的文件操作。 2、对该声音文件提取短时能量和短时过零率。 3、根据上述特征进行端点检测。 4、按照实际的情况调整阈值。 五、实验步骤及程序
1、实验步骤:
(1)、编写程序提取语音的短时能量,即过零率; (2)、设定阈值,进行端点检测。
2、实验流程:
开始
3、实验程序: 端点检测:
[x,fs,nbits]=wavread('1.wav');%语音信号的端点检测matlab实现 x = x / max(abs(x));%幅度归一化到[-1,1] %参数设置
FrameLen = 256; %帧长
inc = 90; %未重叠部分,帧移 amp1 = 10; %短时能量阈值 amp2 = 2;
zcr1 = 10; %过零率阈值 zcr2 = 5;
minsilence = 6; %用无声的长度来判断语音是否结束 minlen = 15; %判断是语音的最小长度 status = 0; %记录语音段的状态 count = 0; %语音序列的长度 silence = 0; %无声的长度
%计算过零率
设定阈值,amp1,amp2,zcr1,zcr2 求短时过零率zcr 对语音信号预加重分帧 读入语音信号 求短时能量amp 根据阈值进行端点检测 tmp1 = enframe(x(1:end-1), FrameLen,inc); tmp2 = enframe(x(2:end) , FrameLen,inc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs,2);
%计算短时能量 amp = sum((abs(enframe(filter([1 -0.9375], 1, x), FrameLen, inc))).^2, 2);
%调整能量门限
amp1 = min(amp1, max(amp)/4); amp2 = min(amp2, max(amp)/8);
%开始端点检测
for n=1:length(zcr) goto = 0;
switch status
case {0,1} % 0 = 静音, 1 = 可能开始 if amp(n) > amp1 % 确信进入语音段
x1 = max(n-count-1,1); % 记录语音段的起始点 status = 2; silence = 0;
count = count + 1;
elseif amp(n) > amp2 || zcr(n) > zcr2 % 可能处于语音段 status = 1;
count = count + 1;
else % 静音状态 status = 0; count = 0; end
case 2, % 2 = 语音段
if amp(n) > amp2 ||zcr(n) > zcr2 % 保持在语音段
count = count + 1;
else % 语音将结束 silence = silence+1;
if silence < minsilence % 静音还不够长,尚未结束 count = count + 1;
elseif count < minlen % 语音长度太短,认为是噪声 status = 0; silence = 0; count = 0;
else % 语音结束
status = 3; end end case 3, break; end end
count = count-silence/2;
x2 = x1 + count -1; %记录语音段结束点
subplot(3,1,1) plot(x)
axis([1 length(x) -1 1]) ylabel('Speech');
line([x1*inc x1*inc], [-1 1], 'Color', 'red');%给语音端点加分界线 line([x2*inc x2*inc], [-1 1], 'Color', 'red');
subplot(3,1,2) plot(amp);
axis([1 length(amp) 0 max(amp)]) ylabel('Energy');
line([x1 x1], [min(amp),max(amp)], 'Color', 'red'); line([x2 x2], [min(amp),max(amp)], 'Color', 'red');
subplot(3,1,3) plot(zcr);
axis([1 length(zcr) 0 max(zcr)]) ylabel('ZCR');
line([x1 x1], [min(zcr),max(zcr)], 'Color', 'red'); line([x2 x2], [min(zcr),max(zcr)], 'Color', 'red');
六、实验结果与分析
1、实验结果: 端点 x1 = 63 x2 = 93