合肥工业大学自然语言理解实验报告

2019-04-21 01:09

计算机与信息学院

自然语言理解实验报告

专业班级学生姓名及学号课程教学班号任课教师实验指导教师实

验

地

点

信息安全13-1 马骏2013211869 谷雨谷雨逸夫楼

2015 ~2016 学年第一学期

实验1 统计词频

一、实验目的

掌握中文词语的标记方法二、实验要求

统计材料中词语的出现次数及频率三、实验内容

将形如如下格式的文章统计词频

19980101-01-001-001/m 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n ——/wp 一九九八年/t 新年/t 讲话/n （/wkz 附/vt 图片/n １/m 张/qe ）/wky

19980101-01-001-002/m 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg

19980101-01-001-003/m （/wkz 一九九七年/t 十二月/t 三十一日/t ）/wky

19980101-01-001-004/m １２月/t ３１日/t ，/wd 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg 发表/vt １９９８年/t 新年/t 讲话/n 《/wkz 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n 》/wky 。/wj （/wkz 新华社/nt 记者/n 兰/nrf 红光/nrg 摄/Vg ）/wky

19980101-01-001-005/m 同胞/n 们/k 、/wu 朋友/n 们/k 、/wu 女士/n 们/k 、/wu 先生/n 们/k ：/wm 四、实验步骤

五、实验总结

通过实验我了解了中文词语的标记方法

实验2 前向最大匹配

四、实验目的

掌握fmm算法并编程完成五、实验要求

基于已统计的词频来实现fmm算法六、实验内容

FMM算法的最简单思想是使用贪心算法向前找n个，如果这n个组成的词在词典中出现，就ok，如果没有出现，那么找n-1个...然后继续下去。假如n个词在词典中出现，那么从n+1位置继续找下去，直到句子结束。四、实验步骤

通过分词坐标，得到分词结果是：在/中国/的/歪果仁/希望/迈向/新/世纪五、实验总结

通过实验我了解了fmm算法的编程过程

实验3 后向最大匹配

七、实验目的

掌握bmm算法并编程完成八、实验要求

基于已统计的词频来实现bmm算法九、实验内容

B MM算法的最简单思想是使用贪心算法从后向前找n个，如果这n个组成的词在词典中出现，就ok，如果没有出现，那么找n-1个...然后继续下去。假如n个词在词典中出现，那么从n+1位置继续找下去，直到句子开始字。四、实验步骤

通过分词坐标，得到分词结果是：在/中国/的/歪果仁/希望/迈向/新/世纪虽然结果和fmm一样，但实现的过程显然是不一样的五、实验总结

通过实验我了解了bmm算法的编程过程

实验4 基于一阶马尔科夫链的分词算法

十、实验目的

掌握基于马尔科夫链的中文分词方法十一、实验要求

编程实现基于一阶马尔科夫链的分词算法十二、实验内容

马尔科夫(Markov)过程的定义

一般地，考虑只取有限个(或可数个)值的随机过程{Xn=1．2 ?}：若Xn=i，就说过程在n时刻处于i状态，假设每当过程处于状态i，则过程在下一时刻处于状态j的概率P为一定值，即Vn≥1有：

这样的随机过程称为Markov链(给定过去的状态X1 ..，Xn-1 和现在的状态Xn 将来的状态Xn+1 的条件分布独立于过去的状态．只依赖于现在的状态— — 这就是Markov性)。

一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵显然．它可被视为一个随机有限状态自动机．其每个状态都代表一个可观察的事件．之间的转换都对应一定的概率

对于马尔科夫模型而言．每个状态都是决定性地对应于一个可观察的物理事件．所以其状态的输出是有规律的然而．这种模型限制条件过于严格．在许多实际问题中无法应用于是人们将这种模型加以推广．提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即：观察事件是依存于状态的概率函数．这是在HMM 中的一个基本随机过程．另一个随机过程为状态转移随机过程．但这一过程是隐藏着的．不能直接观察到．而只有通过生成观察序列的另外一个概率过程才能间接地观察到

对于隐马尔科夫模型的应用．在语音识别领域已经取得了很好的成效．在信息抽取领域的应用也正在不断的尝试和推广中

四、实验步骤

共2页:

合肥工业大学自然语言理解实验报告.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档