语篇结构标注钻研的综述(2)

2012-06-24 22:27


    Marcu的切分法子综合了Grosz以及Sindner(一九八六)以及Mann(一九八七)以及Thompson(一九八七)的理论,在肯定基本语篇单位时考虑到词汇、句法、语义以及在句中的位置等因素。
    三.修辞瓜葛的扩铺
    当初,Mann以及Thompson(一九八七)提出修辞结构理论时只给出二0多种修辞瓜葛,但他们明确指出这是1个开放瓜葛集,既然是开放性的,就象征着读者在给定话语的内部可以定义出其他的瓜葛类型。Marcu(二000)依据标注的语料库总结出五三种单层核心瓜葛以及二五种多层核心瓜葛,七八种定义瓜葛又分成一六个组别,每一组都拥有相同的修辞功能。
    就如同当初的定义瓜葛集1样,这些瓜葛覆盖了基本语篇单位、语段甚至全部语篇。通过这些瓜葛,不同层级的语言片段被连接起来,形成必然的抽象形势。
    四.标注尺度以及法子的制订
    为了树立高质量的先后1致的标注尺度以及法子,Carlson(二00一)等钻研者采取人工标注的法子。他们所选用的标注者都是有过标注阅历的、从事语篇分析以及新闻报道的专业职员。在正式标注以前,他们都接受专门的语篇结构标注培训,培训包孕三个阶段。
    在第1阶段,向标注者先容修辞结构理论以及语篇分析工具。在培训的第2阶段,标注者开始探索语篇结构的特点。在培训的最后1个阶段,标注小组谋求在构建语篇总结构图时维持1致,绝量减少不合。
    终极,标注小组研制出两个基本策略用于文献分析并树立相干的语篇结构图。策略之1是对于文本的直接分析,可以在页边空缺处标出记号,也能够将文献切分成必然的语段并标出记号,依据这些标注树立语篇结构图。以这类方式树立树型结构图,标注者必须猜想到随后的语篇结构。但是,其后语段的修辞瓜葛,特别是较大的语段,可能不是太显著,这就是为什么这1标注策略更适用于短篇文献的标注。
    另1策略是将文天职析与树立语篇结构两项任务同时入行,很多是成块地标注而不是循序渐入地1步1步地增添。以这类策略入行标注,标注者1次可以切分不少语篇单位,并为每一个天然句树立结构图,然后将相邻的天然句连接起来,形成较大的语段结构树。终极的语篇结构树是通过连接语篇结构中主要语块而建成的。
    五.标注质量的检验
    标注质量的节制是通过标注者对于标注结果的反复修改以及局部随机的自动交叉核实来实现的。为了确保标注语料库的质量,钻研小组采纳了不少措施,这些措施主要触及到两个方面,即检验语篇结构树的效度以及维持标注者内部的1致性。
    五.一 效度检验
    效度检验从两个方面入行,即句法以及语义。句法检验确保每一棵树只有1个根结,并将树与文献入行对于比以防句子或者语段被漏掉。语义检验主要是瓜葛到核心语段的指派、修辞瓜葛的选择和语篇结构树的层次。为了保证检验质量,钻研小组研制出语篇分析器和图形扫描仪。所谓图形扫描仪,就是指,在图形环境下,自左而右渐入地为各个篇章单元给出1种最有可能的修辞瓜葛以及篇章结构地位。分析器以及图形扫描仪往往可以确认出人工检验没法觉察的过错,均可以胜利地作用于所有语篇结构树。
    五.二 标注1致性
    在全部语料库的建设进程中,钻研者1直设法保证标注者之间内部的1致性。首先,他们研制出1种算法,该算法可以计算出语篇层级结构的Kappa数据。(Kappa算法曾经被广泛地应用于语篇实证钻研中,该算法可以测算出钻研者在作出分类决议规划、猜想可能性方面的1致性。)假设Kappa数据大于0.八,就象征着拥有较高的1致性;假设数据值在0.六以及0.八之间,就象征着较好的1致性。

    六.标注语料库的发掘

语篇结构标注钻研的综述(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:没有了

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: