计算机与信息学院
自然语言理解 实验报告
专 业 班 级 学生姓名及学号 课程教学班号 任 课 教 师 实验指导教师 实
验
地
点
信息安全13-1 马骏2013211869 谷雨 谷雨 逸夫楼
2015 ~2016 学年第 一 学期
实验1 统计词频
一、 实验目的
掌握中文词语的标记方法 二、 实验要求
统计材料中词语的出现次数及频率 三、 实验内容
将形如如下格式的文章统计词频
19980101-01-001-001/m 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n ——/wp 一九九八年/t 新年/t 讲话/n (/wkz 附/vt 图片/n 1/m 张/qe )/wky
19980101-01-001-002/m 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg
19980101-01-001-003/m (/wkz 一九九七年/t 十二月/t 三十一日/t )/wky
19980101-01-001-004/m 12月/t 31日/t ,/wd 中共中央/nt 总书记/n 、/wu 国家/n 主席/n 江/nrf 泽民/nrg 发表/vt 1998年/t 新年/t 讲话/n 《/wkz 迈向/vt 充满/vt 希望/n 的/ud 新/a 世纪/n 》/wky 。/wj (/wkz 新华社/nt 记者/n 兰/nrf 红光/nrg 摄/Vg )/wky
19980101-01-001-005/m 同胞/n 们/k 、/wu 朋友/n 们/k 、/wu 女士/n 们/k 、/wu 先生/n 们/k :/wm 四、实验步骤
五、实验总结
通过实验我了解了中文词语的标记方法
实验2 前向最大匹配
四、 实验目的
掌握fmm算法并编程完成 五、 实验要求
基于已统计的词频来实现fmm算法 六、 实验内容
FMM算法的最简单思想是使用贪心算法向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子结束。 四、实验步骤
通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪 五、实验总结
通过实验我了解了fmm算法的编程过程
实验3 后向最大匹配
七、 实验目的
掌握bmm算法并编程完成 八、 实验要求
基于已统计的词频来实现bmm算法 九、 实验内容
B MM算法的最简单思想是使用贪心算法从后向前找n个,如果这n个组成的词在词典中出现,就ok,如果没有出现,那么找n-1个...然后继续下去。假如n个词在词典中出现,那么从n+1位置继续找下去,直到句子开始字。 四、实验步骤
通过分词坐标,得到分词结果是:在/中国/的/歪果仁/希望/迈向/新/世纪 虽然结果和fmm一样,但实现的过程显然是不一样的 五、实验总结
通过实验我了解了bmm算法的编程过程
实验4 基于一阶马尔科夫链的分词算法
十、 实验目的
掌握基于马尔科夫链的中文分词方法 十一、 实验要求
编程实现基于一阶马尔科夫链的分词算法 十二、 实验内容
马尔科夫(Markov)过程的定义
一般地,考虑只取有限个(或可数个)值的随机过程{Xn=1.2 ?}:若Xn=i,就说过程在n时刻处于i状态,假设每当过程处于状态i,则过程在下一时刻处于状态j的概率P为一定值,即Vn≥1有:
这样的随机过程称为Markov链(给定过去的状态X1 ..,Xn-1 和 现在的状态Xn 将来的状态Xn+1 的条件分布独立于过去的状态.只依赖于现在的状态— — 这就是Markov性)。
一个马尔科夫模型(MM)M就是一个Markov链加上一个转移概率矩阵 显然.它可被视为一个随机有限状态自动机.其每个状态都代表一个可观察的事件.之间的转换都对应一定的概率
对于马尔科夫模型而言.每个状态都是决定性地对应于一个可观察的物理事件.所以其状态的输出是有规律的然而.这种模型限制条件过于严格.在许多实际问题中无法应用 于是人们将这种模型加以推广.提出了隐马尔科夫模型(HMM)。隐马尔科夫过程是一种双重随机过程。即:观察事件是依存于状态的概率函数.这是在HMM 中的一个基本随机过程.另一个随机过程为状态转移随机过程.但这一过程是隐藏着的.不能直接观察到.而只有通过生成观察序列的另外一个概率过程才能间接地观察到
对于隐马尔科夫模型的应用.在语音识别领域已经取得了很好的成效.在信息抽取领域的应用也正在不断的尝试和推广中
四、实验步骤