块的定义及组块库的构建,仍然需要做进一步的研究。第2节详细介绍了相关的组块研究工作,并据此给出了本文的组块定义:第3节详细说明了所定义的组块类型及相应类型组块的获取;第4节对全文进行了小结。
组块的研究人们一直都是对词或整句进行研究。组块是较词语复杂、句子简单的成分,对它的定一直没有一个明确的定义。下面介绍一些典型的组块研究,并给出本文对组块的界定。
2.义 2. , 11
组块的研究
A b n e y[ 5〕最早提出了一个完整的组块描述体系,对组块有着权威性的定义。他把组块定
义为从句内的一个非递归的核心成分。这种成分包含核心成分的前置修饰成分,而不包含后置附属结构。组块不一定
覆盖整个句子,例如:常有一些介词、连词等不是任何一个组
块的部分。 B u c h h o l z[ 6]、 V e e n s t r a[ ']也分别对N P, V P, P P等组块类型及自动识别方法进行了比较完整的研究工作。这些研究都为C o N L L - 2 0 0 0提出的组块共享任务奠定了基础。
中 文组块最初侧重对基本名词短语、最长名词短语、以及命名实体等的研究[ 8, 9, 1 0]。但
汉语句法中除了大部分名词块外,还有很多其他结构的组块。东北大学针对机器翻译提出
了扩展组块( E - C h u n k )的概念[ 3 1。清华大学对整理和加工中文组块库作了大量工作,建立了一个完整的组块划分体系,其中设计了 8个标记的语块标记集 (包括主语语块、述语语块、宾语语块、兼语语块、状语语块、补语语块、独立语块、语气块) 0 1 2 . 3本文对组块的界定
虽然在汉语学习中我们对语句划分的标准经常是主语、谓语、宾语、状语等,然而这种划分属于一种从全局考虑的划分方式,如果没有对语句深入的理解,就不能正确标注出这些成分,这就违背了组块分析的原则.组块分析又称浅层分析,意在不用通过深入的理解就可以得到确定的一个片段。同时从组块的大小来看,组块粒度越大,组块概念的确定性就越强,进一步的分析也就越容易,而组块本身的正确识别却比较困难。因此组块粒度的选取是一个大问题,粒度过小时,组块分析的任务就成了词性标注的问题;粒度过大,则成了完全句法分析问题。这样,选取组块要粒度适当,同时保证组块简单性和概念确定性的均衡问题。因此我们确定建立类似A b n e y组块的汉语组块体系。
从 组块分析角度来看, A b n e y提出的组块是有级别的,高层次的组块由低层次组块构成。本文对所有组块都一视同仁,使它们都处于一种平等的地位。这里组块的定义借用了 A b n e y组块定义的思想,但也存在着差别。为汉语组块定义如下:定义 1:组块是一种结构,是符合一定句法功能的基本短语。每个组块都有一个核心词,并围绕核心词展开,以核心词作为组块的开始或结束。这里,如果一个词序列可以 构成某种类型的组块,那么它的内部即使有形成其他类型组块的可能性,也不会产生其他类型的组块。组块之间不存在级别问题,即所有组块都位
.n1。