( N P ( N N劳动) ( N N模范 )从树库中抽取组块时,我们可以获得两个名词组块,如下:
伽C ( D T全) (刊 N国 ) ( N C ( N N劳动)《 N N模范) ) ( 8 ) P C表示介词组块。由于组块不能包含其他组块,因此在形成介词组块时,不需先得到名词组块后才获得。例如, 在宾州树库中介词短语如下:
( P P ( P按)伽P ( N N国家) ( N N政策) )转化为组块构成,为:
( P C ( P按 )《 N N国家 ) ( N N政策 ) )( 9 ) Q C:为数量组块,从树库数量短语Q P中抽取出来。宾州树库中存在着一种短语类型一量词短语C L P,多由一个或两个词构成。我们一般直接将其转化为数量组块。例如: ( Q P ( C D三+多) ( C L P ( M项) ) )转化为组块构成,为:
( Q C ( C D三+多 )( M项) )也有基数词C D单独作为数量组块的情况. ( 1 0 ) V C C:为动词组块。一般由动词短语 V P转化或抽取得来。因为动词短语在树库中经常包含其他类型的短语, 这种情况下,我们把动词短语中和动词相关的词剥离出来.同时在进行校对时根据一些规则抽取一个动词组块.核心词为动词。例如: ( V P ( A D V P ( A D及时) ) ( V V指定) ( N P ( N N法规性)( N N文件) )转化后,为两个组块,一个动词组块和一个名词组块。为:
( V C C ( A D困C ( N N
及时 ) ( V V指定 )法规性 ) ( N N文件刀
这里,首先从大动词短语中抽取名词组块,然后一个单独的动词“指定”随之被剥离出来, 再根据校对规则:副词A D和动词V V可以构成一个动词组块。如果被抽取的动词短语所含有的其他类型的短语只有一个词,则该词不再单独构成其他组块。 例如: ( V P ( V V走) ( N P ( N N亲戚) )转化为 动词组块为: ( V
C C ( V V走) ( N N亲戚) )
在表 1 中.我们还定义了两个特殊的组块类型:非组块( N O C )用来对于一些经常不能组成组块的规则总结出来.在落单时进行识别和错误纠正。 O专门用来表示标点符号。
3 . 2组块库构成 上的我们根据以对应关系从中文树库中抽取组块,获得组块库,共包含6 7, 7 3 4个组块,各种类型的组块数目统计如表 2 .其中名词组块和动词组块所占比例最高,分别为 3 8 . 4%和1 7 . 7%。平均每个组块含有1 . 4 6个汉语字符 (汉字或标点) .如果不计算表示标点符号的.1 1 4.