汉语组块的定义和获取李素建刘群 北京大学计算语言学研究所 1 0 0 8 7 1E ma i l: l i s u i i a n
摘要:组块是介于词语和句子之间的一种语言结构,目前还没有明确的定义。本文总结了当前对组块的各种研究,对汉语组块进行了定义。同时组块的获取和收集也是一项迫切的任务,由于不易直接获取到具有组块标注的语料,我们从现有树库中抽取组块。本文根据汉语特点提出了 1 2种汉语组块类型,并根据这些组块类型和宾州大学中文树库短语类型的对应关系进行转化获得组块库.关钮旬:组块,组块语料库,树库,语法分析
R e s e a r c h o n D e f i n i t i o n a n d A c q u i s i t i o n o f C h u n kL i S u j i a n, L i u Q u nI n s t i t u t e o f C o m p u t a t i o n a l L i n g u i s t i c s, P e k i n g U n i v e r s i y t, P e k i n g, C h i n a, 1 0 0 8 7 1E ma i l: l i s u i i a n
A b s t r a c t: C h u n k i s a k i n d o f l i n g u i s t i c s t r u c t u r e b e t w e e n w o r d a n d s e n t e n c e, w h i c h i s n ' t d e f i n e d d e f i n i t e l y n o w . T h i s p a p e r s u m m a r i z e s v a r i o u s c u r r e n t r e s e a r c h e s o n c h u n k s, a n d d e f i n e s w h a t i s a C h i n e s e c h u n k . A t t h e s a m e t i m e, t h e a c q u i s i t i o n a n d c o l l e c t i o n o f c h u n k s a r e a h a r d b u t u r g e n t w o r k . D u e t o t h e d i f i f c u l t y, o f a c q u i r i n g c h u n k e d c o r p u s, w e a d o p t t h e m e t h o d o f c o n v e t r i n g r f o m T r e e b a n k a v a i l a b
l e . A c c o r d i n g t o t h e c h a r a c t e r i s t i c s
o f C h i n e s e, 1 2 C h i n e s e c h u n k c a t e g o r i e s a r e p r o p o s e d . T h e n o u r c h u n k e d c o r p u s i s o b t a i n e d b y e x t r a c t i n g f r o mU p e n n C h i n e s e T r e e b a n k .
K e y w o r d s: C h u n k, C h u n k e d c o r p u s, T r e e b a n k, S y n t a c t i c p a r s i n g
1引言 当前I n t e r n e t的发展促进了信息的交流,文本的获取和收集变得相对容易。然而构建大规模标注语料库的任务却依然严峻,这是因为标注标准的不一致性,同时需要耗费大量的人力和物力。目前经过词性标注加工的英文、中文语料库已经具有一定规模,对于更高层
次上的语言加工, U p e n n英文树库是一个大规模的句法标注语料库,汉语方面的成果包括:清华大学的汉语测试树库[ 0,美国宾州大学的中文树库M,和东北大学的中文语义树库P I随着部分分析技术的发展和应用范围的不断扩大,粒度处于词和句之间的组块标注语料的
开发也越来越受到重视。 C O N L L - 2 0 0 0 1 0 '会议提供了从U p e n n英文树库中抽取出来的英文组块库:虽然清华大学提出了一套语块标注体系,构建了 2 0 0万字的汉语语块库。但汉语组
1 1 0.