于同一个层次上,是平等的关系。
此外,这里的组块核心词也可以作为组块的开始。同时通过引入4 1 t组决的组块类型,保证句中任何一个词都属于且只属于一种组块。对语句组块划分遵循以下的原则: ( 1 )各种组块类型在构成上都是平等的,任一个组块都严格符合一定的语法规则,且不能由 其他类型的组块构成。
( 2 )组块之间不发生重叠.句中任一词只能属于一个组块,且组块之间不存在嵌套的现象, 在发生歧义时遵守最长匹配原则,能够构成大组块的情况下,屏蔽小组块。 ( 3 )覆盖原则,我们在划分组块时,要保证句中每一个词语都能够归入一个组块内,对于一些词 ( 如:连词、虚词),不能被归并到其他组块时,则归入到非组获岁粗啪勺组块内。
3 .组块库的获取 组块库的获取是一项繁重和迫切的任务。由于己经存在一定规模的树库,因此利用现有资源完成组块库的构建可以减少部分劳动量。我们选用宾州大学中文树库抽取中文组块。宾州大学中文树库共4, 1 8 5个句子,约1 0 0, 0 0 0个词语。语料库中每一句都形成了一个以词语为叶子节点,以整句为根的树状图。
3 .,树库到组块库的转化组块类型ADJ C ADVC DNC DVC L CC L S T NC
P C
Q CVC C NOCO
组块描述形容词组块副词组块“的”字组块“地”字组块方位组块列举标示组块名词组块介词组块量词组块动词组块非组块
主要用于表示标点符号表1 :中文组块类型本文定义了1 2种组块类型,如表 1。这里的组块类型与宾州树库的短语类型有很多对应之处。下面将具体描述一下如何利用中文树库抽取组块。 ( 1 ) A D J C:为形容词组块,和宾州树库的形容词短语A D J P基本保持一致.不同的是i i (形容词) 和、 A(形容动词)都可以作为组块核心词。而A D J P只以i i作为核心词。例如:
.1 1 2.