汉语组块的定义和获取 - 首页-中国计算机学会信息网(3)

2021-02-21 13:40

于同一个层次上,是平等的关系。

此外,这里的组块核心词也可以作为组块的开始。同时通过引入4 1 t组决的组块类型,保证句中任何一个词都属于且只属于一种组块。对语句组块划分遵循以下的原则: ( 1 )各种组块类型在构成上都是平等的,任一个组块都严格符合一定的语法规则,且不能由 其他类型的组块构成。

( 2 )组块之间不发生重叠.句中任一词只能属于一个组块,且组块之间不存在嵌套的现象, 在发生歧义时遵守最长匹配原则,能够构成大组块的情况下,屏蔽小组块。 ( 3 )覆盖原则,我们在划分组块时,要保证句中每一个词语都能够归入一个组块内,对于一些词 ( 如:连词、虚词),不能被归并到其他组块时,则归入到非组获岁粗啪勺组块内。

3 .组块库的获取 组块库的获取是一项繁重和迫切的任务。由于己经存在一定规模的树库,因此利用现有资源完成组块库的构建可以减少部分劳动量。我们选用宾州大学中文树库抽取中文组块。宾州大学中文树库共4, 1 8 5个句子,约1 0 0, 0 0 0个词语。语料库中每一句都形成了一个以词语为叶子节点,以整句为根的树状图。

3 .,树库到组块库的转化组块类型ADJ C ADVC DNC DVC L CC L S T NC

P C

Q CVC C NOCO

组块描述形容词组块副词组块“的”字组块“地”字组块方位组块列举标示组块名词组块介词组块量词组块动词组块非组块

主要用于表示标点符号表1 :中文组块类型本文定义了1 2种组块类型,如表 1。这里的组块类型与宾州树库的短语类型有很多对应之处。下面将具体描述一下如何利用中文树库抽取组块。 ( 1 ) A D J C:为形容词组块,和宾州树库的形容词短语A D J P基本保持一致.不同的是i i (形容词) 和、 A(形容动词)都可以作为组块核心词。而A D J P只以i i作为核心词。例如:

.1 1 2.


汉语组块的定义和获取 - 首页-中国计算机学会信息网(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小学六年级跳高教案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: