《语音识别基础》课程教学大纲
一、课程基本信息
1、课程代码:CS414
2、课程名称:语音识别基础/Fundamentals of Speech Recognition 3、学时/学分:36/2
4、先修课程:数字信号处理(非必修) 5、面向对象:计算机应用专业
6、开课院(系)、教研室:电子信息与电气工程学院计算机科学与工程系、计算 机应用学科组 7、教材、教学参考书:
自编教材:《语音识别基础讲义》,吴亚栋,1999年。
参考书: 1.胡光锐:“语音处理与识别”,上海科学技术出版社,1994。
2.陈永彬,王仁华:“语言信号处理”,中国科技大学出版社,1990。
3.陈永彬:“语音信号处理”,上海交通大学出版社,1990。 4.姚天仁:“数字语音信号处理”,华中理工大学出版社,1992。
5.Lawrence Rabiner,Biing-Hwang Juang:“FUNDAMENTALS OF SPEECH RECOGNITION”,PTR Prentice-Hall,Inc,1993。
二、本课程的性质、地位、任务
语音识别基础是计算机应用专业的一门专业课(选修)。它的主要任务是通过各个教学环节,运用各种教学手段和方法,使学生掌握语音识别及语音信息处理的基本概念、基本原理、基本计算方法;培养学生分析、解决问题的能力和实验技能,为日后从事语音信息处理方面的工程技术工作、科学研究以及开拓新技术领域,打下坚实的基础。
三、本课程教学内容和基本要求
1.绪论(2)
〃了解语音识别的重要性
〃了解语音识别的定义、原理及分类 〃了解语音识别研究的历史
2. 语音的特征(3)
〃了解发音的生理机构与过程 〃了解汉语语音基本特征
3.用于语音识别的信号处理及分析方法(4) 〃短时分析及窗函数
〃理解语音信号的数字化过程 〃掌握短时分析及窗函数的基本概念 〃时域分析
〃了解时域分析的基本方法
〃掌握短时平均幅度和能量、平均过零率及短时自相关函数 在语音信息处理及语音识别中的用途 〃理解语音端点检测方法及基音检测的时域方法 〃频域分析
〃了解频域分析的基本方法
〃短时傅里叶变换(DFT: Discrete Fourier Transform) 〃快速傅里叶变换(FFT: Fast Fourier Transform) 〃掌握振幅谱和功率谱的求取方法及其用途 〃倒谱域分析
〃了解倒谱域分析的基本方法 〃理解倒谱分析流程
〃掌握倒谱分析在语音信息处理及语音识别中的用途 〃基于倒谱分析的频谱包络成分的提取 〃基于倒谱分析的基音检测提取 〃线性预测分析
〃了解线性预测分析的基本方法 〃理解线性预测参数方程组的算法 〃掌握线性预测分析在语音识别中的用途 〃基于线性预测分析的频谱包络成分的提取 〃矢量量化法(VQ: Vector Quantization)
〃掌握矢量量化的基本原理 〃理解基于LBG算法的码本设计法
〃掌握矢量量化在语音信息处理及语音识别中的用途 4. 基于模式匹配方式的语音识别技术(4) 〃失真测度
〃掌握语音识别中失真测度的基本概念 〃理解几种典型的失真测度的定义
〃动态时间归正法(DTW: Dynamic Time Warping) 〃了解语音模式匹配的问题点 〃理解DTW的基本原理 〃掌握DTW的典型解法
〃掌握基于DTW技术的语音识别方案 5. 基于统计模型(HMM)方式的语音识别技术(4) 〃了解基于统计模型框架的语音识别法
〃隐马尔柯夫模型(HMM: Hidden Markov Model )
〃理解隐马尔柯夫模型(HMM: Hidden Markov Model )的基本概念 〃掌握描述语音信号的HMM模型 〃HMM的三个基本问题及其解法 〃理解HMM的三个基本问题及其解法
〃掌握利用前向算法求解模型产生观察序列条件概率的方法 〃掌握利用Viterbi算法求解最佳路径的方法 〃掌握基于HMM技术的语音识别方案 6. 孤立字(词)语音识别系统(4) 〃了解语音输入装置的实用化条件
〃了解语音识别系统的基本构成及其主要技术指标 〃理解几种典型的识别方式
〃基于DTW技术的多重样板识别方式
〃基于语音特征轨迹的时间规整技术的识别方式 〃基于HMM技术的识别方式
〃系统实例:理解采用“线性预测-矢量量化/动态规划”的孤立词识别系统 (LP-VQ/DP)工作原理 7. 连续语音识别系统(4)
〃了解连续语音识别问题的难点 〃理解及掌握几种典型的算法
〃两级DP法(Two-Level Dynamic programming) 〃分层构造法(Level Building) 〃一次通过法(One Pass)
〃理解语音听写系统的构成及其工作原理 8. 语音识别的应用及其展望(3)
〃了解语音识别的各种典型的应用领域 〃了解今后语音识别技术的发展方向
四、实验(上机)内容和基本要求
1.实验的学时数为8学时。
2.实验以体现能力为主,不提模型,只提要求,可锻炼学生分析和解决问题能力。
3.通过实验,应使学生掌握语音信息处理的基本方法。了解语音信息处理 的实际过程,并具有分析、整理实验数据和编写实验报告的能力。 实验内容和基本要求: (1) 语音波形及特征观察
〃通过观察语音信号,进一步加深对语音波形特征及频谱特征的理解。 〃熟悉语音波形编辑工具软件的使用方法。 (2) 语音信息处理基础
〃掌握wav文件的读取方法。
〃掌握语音信号在时域中的短时处理的基本方法(短时能量、过零数0
及自相关函数等)。
〃了解采用自相关函数提取语音基音的方法及提取汉语声调的方法。 (3) 语音特征提取及模式匹配
〃掌握采用FFT技术获取语音频谱特征的方法。
〃了解利用DTW技术进行模式匹配的方法
五、对学生能力培养的要求
1. 课内教学活动中能力培养的安排及要求:
在课内教学活动中侧重于培养学生理解专业算法的工程背景及语音信息处理中的工程考虑。
2. 课外科技活动和社会实践等教学活动中能力培养的安排及要求:
通过兴趣小组等形式,广泛阅读相关论文,进行一定的仿真研究,使学生具有初步从事科研的能力。
六、其它需要说明的内容
为了培养学生科研的能力,本课程要求每位学生学完本课程后,要写一篇小论文。
学时分配表
教学环节 教学时数 课程内容 讲 课 2 3 4 4 4 4 4 3 28 实 验 2 3 3 8 习 题 课 讨 论 课 上 机 课外 实践 其 它 绪论 语音的特征 用于语音识别的信号处理及分析法 基于模式匹配(DTW)方式的语音识别技术 基于统计模型(HMM)方式的语音识别技术 孤立字(词)语音识别系统 连续语音识别系统 语音识别的应用及展望 总计:36