汉语组块的定义和获取 - 首页-中国计算机学会信息网(5)

2021-02-21 13:40

( N P ( N N劳动) ( N N模范 )从树库中抽取组块时,我们可以获得两个名词组块,如下:

伽C ( D T全) (刊 N国 ) ( N C ( N N劳动)《 N N模范) ) ( 8 ) P C表示介词组块。由于组块不能包含其他组块,因此在形成介词组块时,不需先得到名词组块后才获得。例如, 在宾州树库中介词短语如下:

( P P ( P按)伽P ( N N国家) ( N N政策) )转化为组块构成,为:

( P C ( P按 )《 N N国家 ) ( N N政策 ) )( 9 ) Q C:为数量组块,从树库数量短语Q P中抽取出来。宾州树库中存在着一种短语类型一量词短语C L P,多由一个或两个词构成。我们一般直接将其转化为数量组块。例如: ( Q P ( C D三+多) ( C L P ( M项) ) )转化为组块构成,为:

( Q C ( C D三+多 )( M项) )也有基数词C D单独作为数量组块的情况. ( 1 0 ) V C C:为动词组块。一般由动词短语 V P转化或抽取得来。因为动词短语在树库中经常包含其他类型的短语, 这种情况下,我们把动词短语中和动词相关的词剥离出来.同时在进行校对时根据一些规则抽取一个动词组块.核心词为动词。例如: ( V P ( A D V P ( A D及时) ) ( V V指定) ( N P ( N N法规性)( N N文件) )转化后,为两个组块,一个动词组块和一个名词组块。为:

( V C C ( A D困C ( N N

及时 ) ( V V指定 )法规性 ) ( N N文件刀

这里,首先从大动词短语中抽取名词组块,然后一个单独的动词“指定”随之被剥离出来, 再根据校对规则:副词A D和动词V V可以构成一个动词组块。如果被抽取的动词短语所含有的其他类型的短语只有一个词,则该词不再单独构成其他组块。 例如: ( V P ( V V走) ( N P ( N N亲戚) )转化为 动词组块为: ( V

C C ( V V走) ( N N亲戚) )

在表 1 中.我们还定义了两个特殊的组块类型:非组块( N O C )用来对于一些经常不能组成组块的规则总结出来.在落单时进行识别和错误纠正。 O专门用来表示标点符号。

3 . 2组块库构成 上的我们根据以对应关系从中文树库中抽取组块,获得组块库,共包含6 7, 7 3 4个组块,各种类型的组块数目统计如表 2 .其中名词组块和动词组块所占比例最高,分别为 3 8 . 4%和1 7 . 7%。平均每个组块含有1 . 4 6个汉语字符 (汉字或标点) .如果不计算表示标点符号的.1 1 4.


汉语组块的定义和获取 - 首页-中国计算机学会信息网(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小学六年级跳高教案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: