LSTM+CTC详解(6)

2018-12-27 15:54

而对于双向的模型，我无限的数据、无限的模型、好的训练算法，我一样可以学习到一个东西。所以，CTC不是灵丹妙药，这是我的理论的结果。

我相信，会有大家更多的人去分析、去追求，甚至于否定我的理论，我很欢迎，但是至少今天，我愿意努力地给大家share一下，我们的理论发现，那从而帮助大家更好地去做CTC的学习和训练。

然后，大数据的大模型的结论呢就是说，数据将近万小时的时候，我们采用的是1024和2048，因为1024是可以上线的，所以没必要采用更小的，那更小的性能我们可以再去做追求。

第一点，大数据下极致训练速度的追求是必须的。如果没有极致化的训练速度，你们很难得到好项目。这个相比于传统的技术，如果你要想提升，你需要采用上下文相关的声韵母建模，你还要采用固定边界的训练，再用CTC，再用区分度，最终可以降低产品误识率15%以上，我们得到的收益远远大于谷歌。谷歌当时的收益不足10%，它的论文中，我们的收益很大。而且是跟一个产品性能去比。那么本工作和未来语音识别的贡献呢，就是未来的语音识别服务将不再昂贵，那么我觉得，这是刚才已经解释的技术。

第二呢，语音识别的建模单元从禁锢了几十年的状态建模中会被解放出来，那么如果不用状态建模，你可以采用更复杂的、任意的模型。CTC建模理论上可以让

你学到一个很好的结果，那么你可以尝试，什么样的建模单元能够减小语音识别率。

那么，第三点，我觉得也有启示性价值，近万小时的训练条件下产生了过拟合，过拟合是我在CNN和DNN训练中没有看到的。但是对CTC，对目前的学习，我发现了过凝和，那这是很好的效益，说明继续加数据对算法还是会用提升的。

第四点，语音识别的深度学习技术呢，我觉得就向极致计算去发展，那整个工作最核心的价值是计算能力，当年的DNN能够成功是挖掘了GPU，我们现在要挖掘的是把GPU的能力挖掘到极致，会有多个GPU去并行运算，更大规模的并行运算实际上是能推生这个的发展。

共6页:

LSTM+CTC详解(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档