网络语言项目中的语音技术
;D. Nahamoo(Purdue毕业),主要负责少训练问题的研究;P.F.Brown (CMU毕业),主要研究Robust统计问题。 小组过去是由L.R.Rabiner领导。重要成员有:Juang Bing Hwang, S. E. Levinson, Lee Chin Hui 等。IBM领先于 Bell Lab的原因 使用离散参数HMM适合大规模词汇( 30000词 )系统,采纳mixture distribution较为容易,统计的Robust是通过增加状态数目实现的。利用固定的有限个基本声学模型构成word模型。可以有效地减少训练数据,甚至于可以使用户不必为每一个word提供一个发音样本。用较少的训练数据获得较好的统计结果,同时可使训练自动完成。这对于系统在以后的使用过程中,一个新的用户可以较为轻松地、使用较少注册数据,将自己的发音特点映射到系统的参数空间中去,是极为关键的。这种方法,使得目前IBM在语音识别领域处于领先地位。 连续参数HMM,适合对于中小规模词汇 ( 10000词 ) 的系统,采纳mixture distribution较为困难,为获得Robust的统计结果,需要使用Segment Models,然而获得分段边界的最大似然(Maximum Likelihood) 结果非常难,使得分段的性能不稳定。3.4 ViaVoice中文语音识别系统介绍
1997年IBM在中国开发了汉语 ViaVoice语音识别系统(除普通话外,能识别中国地方口音,如广东话、四川话等),是非特定人、大规模词汇、连续语音识别系统,应用于Windows等系列中,Viavoice在中国市场占有率为90%以上,而对于有限词汇的识别,甚至可以达到99.9%以上。ViaVoice通过语音指令向电子邮件和其他文档输入文本,控制电脑的各项功能、自动语音查询、语音输入网上聊天、语音辅助教学等多种应用。ViaVoice世纪版能够识别和支持许多不同的用户,使得家庭用户和协同工作者可以分享同一台计算机;Pro USB版本带有一个立体声的USB头戴型麦克风,能够精确、快速地进行语音识别,为用户提供了快速、高效的计算机交流服务。
声学层的HMM训练是由54的男女普通话发音人,每人发音3万多条语句,经大量的统计训练而成;语言模型(Language Models)同样被看作是HMM,用n-gram文法概率通过对300兆的汉语真实语料文本统计得到。能准确地提取各种说话人在不同语境中语音信号的特性,同时将大量的系统参数压缩到最低的限度,系统功能指标见Table 4。
Table 4 ViaVoice系统功能说明
内
容:功能说明:a 语音板(VoicePad): 听写系统,实现汉字语音输入、编辑、打印等;主要功能是对含有标点和编排符号的文本进行听写,并可以将听写文本传送给其它应用程序。
· 带有一个32000词的基本词汇表,包括办公常用的中文词条,大部分常用计算机命令也被收录在内