网络语言项目中的语音技术(10)

2021-02-21 13:01

网络语言项目中的语音技术

;D. Nahamoo(Purdue毕业),主要负责少训练问题的研究;P.F.Brown (CMU毕业),主要研究Robust统计问题。  小组过去是由L.R.Rabiner领导。重要成员有:Juang Bing Hwang, S. E. Levinson, Lee Chin Hui 等。IBM领先于 Bell Lab的原因  使用离散参数HMM适合大规模词汇( 30000词 )系统,采纳mixture distribution较为容易,统计的Robust是通过增加状态数目实现的。利用固定的有限个基本声学模型构成word模型。可以有效地减少训练数据,甚至于可以使用户不必为每一个word提供一个发音样本。用较少的训练数据获得较好的统计结果,同时可使训练自动完成。这对于系统在以后的使用过程中,一个新的用户可以较为轻松地、使用较少注册数据,将自己的发音特点映射到系统的参数空间中去,是极为关键的。这种方法,使得目前IBM在语音识别领域处于领先地位。  连续参数HMM,适合对于中小规模词汇 ( 10000词 ) 的系统,采纳mixture distribution较为困难,为获得Robust的统计结果,需要使用Segment Models,然而获得分段边界的最大似然(Maximum Likelihood) 结果非常难,使得分段的性能不稳定。3.4 ViaVoice中文语音识别系统介绍
  
  1997年IBM在中国开发了汉语 ViaVoice语音识别系统(除普通话外,能识别中国地方口音,如广东话、四川话等),是非特定人、大规模词汇、连续语音识别系统,应用于Windows等系列中,Viavoice在中国市场占有率为90%以上,而对于有限词汇的识别,甚至可以达到99.9%以上。ViaVoice通过语音指令向电子邮件和其他文档输入文本,控制电脑的各项功能、自动语音查询、语音输入网上聊天、语音辅助教学等多种应用。ViaVoice世纪版能够识别和支持许多不同的用户,使得家庭用户和协同工作者可以分享同一台计算机;Pro USB版本带有一个立体声的USB头戴型麦克风,能够精确、快速地进行语音识别,为用户提供了快速、高效的计算机交流服务。
声学层的HMM训练是由54的男女普通话发音人,每人发音3万多条语句,经大量的统计训练而成;语言模型(Language Models)同样被看作是HMM,用n-gram文法概率通过对300兆的汉语真实语料文本统计得到。能准确地提取各种说话人在不同语境中语音信号的特性,同时将大量的系统参数压缩到最低的限度,系统功能指标见Table 4。

Table 4 ViaVoice系统功能说明

容:功能说明:a 语音板(VoicePad):  听写系统,实现汉字语音输入、编辑、打印等;主要功能是对含有标点和编排符号的文本进行听写,并可以将听写文本传送给其它应用程序。
· 带有一个32000词的基本词汇表,包括办公常用的中文词条,大部分常用计算机命令也被收录在内


网络语言项目中的语音技术(10).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:毕业生推荐表填写注意事项

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: