网络语言项目中的语音技术(10)

2021-02-21 13:01

网络语言项目中的语音技术

；D. Nahamoo（Purdue毕业），主要负责少训练问题的研究；P.F.Brown (CMU毕业)，主要研究Robust统计问题。　　小组过去是由L.R.Rabiner领导。重要成员有：Juang Bing Hwang, S. E. Levinson, Lee Chin Hui 等。IBM领先于 Bell Lab的原因　　使用离散参数HMM适合大规模词汇( 30000词 )系统，采纳mixture distribution较为容易，统计的Robust是通过增加状态数目实现的。利用固定的有限个基本声学模型构成word模型。可以有效地减少训练数据，甚至于可以使用户不必为每一个word提供一个发音样本。用较少的训练数据获得较好的统计结果,同时可使训练自动完成。这对于系统在以后的使用过程中，一个新的用户可以较为轻松地、使用较少注册数据，将自己的发音特点映射到系统的参数空间中去，是极为关键的。这种方法，使得目前IBM在语音识别领域处于领先地位。　　连续参数HMM，适合对于中小规模词汇 ( 10000词 ) 的系统，采纳mixture distribution较为困难，为获得Robust的统计结果，需要使用Segment Models，然而获得分段边界的最大似然(Maximum Likelihood) 结果非常难，使得分段的性能不稳定。3．4 ViaVoice中文语音识别系统介绍
　　
　　1997年IBM在中国开发了汉语 ViaVoice语音识别系统（除普通话外，能识别中国地方口音，如广东话、四川话等），是非特定人、大规模词汇、连续语音识别系统，应用于Windows等系列中，Viavoice在中国市场占有率为90％以上，而对于有限词汇的识别，甚至可以达到99．9％以上。ViaVoice通过语音指令向电子邮件和其他文档输入文本，控制电脑的各项功能、自动语音查询、语音输入网上聊天、语音辅助教学等多种应用。ViaVoice世纪版能够识别和支持许多不同的用户，使得家庭用户和协同工作者可以分享同一台计算机；Pro USB版本带有一个立体声的USB头戴型麦克风，能够精确、快速地进行语音识别，为用户提供了快速、高效的计算机交流服务。
声学层的HMM训练是由54的男女普通话发音人，每人发音3万多条语句，经大量的统计训练而成；语言模型(Language Models)同样被看作是HMM，用n-gram文法概率通过对300兆的汉语真实语料文本统计得到。能准确地提取各种说话人在不同语境中语音信号的特性，同时将大量的系统参数压缩到最低的限度，系统功能指标见Table 4。

Table 4 ViaVoice系统功能说明
内
容：功能说明：a 语音板(VoicePad)：　　听写系统，实现汉字语音输入、编辑、打印等；主要功能是对含有标点和编排符号的文本进行听写，并可以将听写文本传送给其它应用程序。
· 带有一个32000词的基本词汇表，包括办公常用的中文词条，大部分常用计算机命令也被收录在内

共19页:

网络语言项目中的语音技术(10).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档