组块 O.
C组块类型 ADJ
ADVC8 5 6 P C
DNC2 1 0 0
DVC8 7
L CC1 4 7 0 O
L S T9
组块数目组块类型
8 7 5
NC 2 6 0 0 2
Q C3 2 7 0
VCC 1 1 9 7 1
NOC4 4 2 9
组块数目
3 8 6 3
1 2 8 0 2
衰2:组块数目统计
4 .结论 信息抽取、信息检索、文本聚类1分类等领域的发展都迫切需要粒度较词语大的确定性成分—组块,这些反过来也促进了组块的研究工作。本文在借鉴其他研究者思路的基础上,对组块进行了定义。只有对组块和组块类型有了明确的定义.才能有效地进行下一步的工作,正确地划分和识别各种类型的组块。同时,我们还提出了利用树库抽取组块库的方法,虽然目前获得的组块语料库规模还比较小,这些语料可以作为种子库,作为构建组块分析器的试验语料,同时为今后大规模的组块获取和收集工作奠定良好的基础。
参考文献 自然语言理解与机器翻译[ I】周强.詹卫东,任海波,构建大规模的汉语语块库.清华大学出版社:2 0 0 1, p p 1 0 2 - 1 0 7 .
[ 2] N i a n w e n X u e,F e i X i a, T h e B r a c k e t i n g G u i d e l i n e s f o r t h e P e n n C h i n e s e T e r e b a n k ( 3 . 0 ), 2 0 0 0, h即:// m o叻. I d c . u p e n n . e d u/ c t b/仁 3 7姚夭顺等,自然语言理解—一种让机器值得人类语言的研究,北京:清华大学出版社。1 9 9 5[ 4] E r i k F . T j o n g K i m S a n g a n d S a b i n e B u c h h o l
z, I n t r o d u c t i o n t o t h e C o N L L2 0 0 0 S h a r e d T a s k: C h u n k i n g . I n: P r o c e e d i n g s o f C o N L L - 2 0 0 0 a n d L L L 2 0 0 0, L i s b o n, P o t r u g a l, 2 0 0 0[ 5] A b n e y S t e v e n, P a r s i n g b y C h u n k s, I n: R o b e tB r e r w i c k, S t e v e n A b n e y a n d C a r o l T e n n y ( e d s . ), P r i n c i p l e - B a s e d
P a r s i n g, K l u w e r A c a d e m i c P u b l i s h e r s, 1 9 9 1, p p . 2 5 7 - 2 7 8[ 6] B u c h h o l z S ., J ., V e e n s t r a a n d W D a e l e m a n s, C a s c a d e d g r a m m a t i c a l e r l a t i o n a s s i g n m e n t, I n P o r c e e d i n g s o f t h e J o i n t S I G D A T C o n f e r e n c e o n E m p i r i c a l . M e t h o d s i n N a t u r a l L a n g u a g e P r o c e s s i n g a n d V e y r L a r g e C o r p o r a, C o l l e g e P a r k, MD, 1 9 9 9, p p . 2 3 9 - - 2 4 6[ 7] J o m V e e n s t r a, M e m o y r - B a s e d T e x t C h u n k i n g, I n: N i k o s F a k o t a k i s l e d ), M a c h i n e l e a n r i n g i n h u m a n l a n g u a g e t e c h n o l o g y, w o r k s h o p a t A C A I 9 9, 1 9 9 9[ 8 1赵军,汉语基本名词短语识别及结构分析研究,清华大学工学博士学位论文,1 9 9 8
[ 9〕孙宏林,现代汉语非受限文本的实语块分析,北京大学博士学位论文, 2 0 0 1[ 1 0〕周强.孙茂松.黄昌宁。汉语最长名词短语的自动识别。软件学报,2 0 0 0 . 1 1 ( 2 ):1 9
5 - 2 0 1
.1 1 5.