文本分类概述(3)

2019-05-24 12:17

示原本属于类别cj但被分类器错误判断为ci的文档数目。

根据表2-1，各指标定义及计算方法如下： 1.查全率(Recall, r)与查准率(Precision, p)

查全率定义为正确判别为该类的测试样本占该类总测试样本的比例，查准率定义为正确判别为该类的测试样本占判别为该类的测试样本的比例，那么类别ci的查全率ri和查准率pi的计算公式如下[5]：

ri?aii?ak?1NN

ki (2-2)

pi?aii

ik (2-3)

?ak?1查全率与查准率来源于信息检索领域，是最为传统、也是使用最多的两个指标。查全率和查准率从不同方面反映了分类系统的性能，查全率反映了分类的完备程度，即应该正确分类的文本中有多少被正确分类；查准率反映了分类的准确程度，即分类结果中有多少是正确的。二者通常被一起使用，作为一对指标从不同侧面共同描述分类器性能。 2.F?

把查全率和查准率分开考虑没有任何意义，例如，100篇文档中有10篇属于类别c1，假设训练了一个类别c1的“接受分类器”，即所有文本均判为c1，那么对于c1来讲，查全率达到100％，但查准率只有10％。于是，Rijsbergen提出了把二者综合考虑的指标F?，类别ci的F?i定义如下[108]：

(?2?1)piriF?i? (2-4)

?2pi?ri其中，反映了pi和ri的相对重要程度。当??0??[0,??)，?是可调节参数，时，F?为查准率pi；当????时，F?为查全率ri。?越小，越强调pi的作用；

?越大，越强调ri的作用。最为常用的是F1i值，此时??1，认为pi与ri具有同等重要程度，计算公式如下：

F1i?2piri (2-5) pi?ri3.11-点平均(11-point average, 11-Ave)

11-点平均也是一个常用的分类器综合评价指标[31,61]，来源于信息检索领域。11-点平均定义为调整分类器参数，使得查全率分别为0％, 10％, …, 90％, 100％时相应的查准率的算术平均值。 4.平衡点(Breakeven point, BEP)

Break-even点是另外一个综合评价指标[39,62]，指的是分类器查全率与查准率相等时的值，这是分类器的一种特殊情况，此时pi?ri?F?i。有时通过实验可能得不到ri和pi相等的值，这时就取ri和pi最接近的值的平均值作为BEPi，称为插值BEPi。

5.宏平均(Macro-average)与微平均(Micro-average)

前面所述几个指标都是针对单个类别的局部性能进行评估的，对于一个多类分类器来讲，关心的是整体性能。宏平均和微平均是计算全局性能的两种方法。

宏平均是指先计算各类别的性能指标，然后再求算术平均值，宏平均查全率(macroR)、宏平均查准率(macroP)及宏平均F1(macroF1)的定义如下：

macroR??ri?1NiN (2-6)

macroP??pi?1NiN (2-7)

macroF1??Fi?1N1iN (2-8)

微平均是指计算各个样本的分类性能，然后求算术平均值。微平均查全率

(microR)、微平均查准率(microP)及微平均F1(microF1)的定义如下：

microR??ai?1NiiM (2-9)

microP???ai?1j?1i?1NN?aNii (2-10)

ijmicroF1?2?microP?microR (2-11)

microP?microR从微平均各指标的定义可以看出，如果在分类器中未引入拒识策略，则有

??ai?1j?1NNij?M，此时microR?microP?microF1。

宏平均和微平均两种方式的结果可能相差很大，尤其是对于不均衡的测试集更是如此。宏平均是按类别求平均，微平均是按样本求平均，故宏平均的结果受小类别影响较大，微平均的结果受大类别影响较大。 6.正确率(Accuracy, acc)与错误率(Error, err)

正确率与错误率也是两个衡量分类器整体性能的指标。正确率定义为分类器正确分类的样本占所有测试样本的比例，错误率定义为分类器错误分类的样本占所有测试样本的比例，计算公式如下：

acc?N?ai?1NiiMNij (2-12)

??aerr?i?1j?1j?iM?1?acc (2-13)

正确率与错误率来源于机器学习领域，由公式(2-9)可以看出，正确率与微平均查全率的值完全相等，只是物理意义不同罢了。

第三章文本表示

3.1引言

文本是一个由众多字符构成的字符串，人类在阅读文章后，可以根据自身的理解能力产生对文章的模糊认识，并对其进行分类。但计算机并不能理解文章的内容，从根本上说，它只认识0和1，所以必须把文本转换为计算机或者说分类算法可以识别的形式。

文本表示方法的选择取决于文本中的语义单元以及把这些单元结合在一起的自然语言处理规则。对文本中语义单元的研究属于词汇语义学的范畴，对各单元组合规则的研究属于组合语义学的范畴。文本表示首先根据词汇语义学及组合语义学的相关知识对文本dj进行分割，把文本转化为由若干个语义单元组成的空间形式(t1,t2,...,tk,...)，这就是在文本分类及信息检索领域广泛应用的向量空间模型(Vector Space Model，VSM)，这些语义单元tk称为特征(term或feature)。确定文本所用特征后，再计算各特征在文本中的权重(weight)，文本dj被表示为特征向量的形式wj?(w1j,w2j,...,wkj,...,w|T|j)，其中权重值wkj表示特征tk在文本dj中的重要程度，T表示特征空间的特征集。

向量空间模型是由Salton提出的[18]，最早成功应用于信息检索领域，后来在文本分类领域也得到了成功应用。Salton的向量空间模型基于这样一个假设：文本所属类别仅与特定单词或词组在该文本中出现的频数有关，而与这些单词或词组在该文本中出现的位置或顺序无关。

针对如何尽可能准确地表示文本，众多学者进行了广泛研究，主要集中在特征空间的选取和特征权重的计算方面。虽然使用向量空间模型表示文本将丢失大量文本信息，但这种文本的形式化处理使得大量机器学习算法在文本分类领域得到成功应用，大大促进了自动文本分类的发展。

随着文本分类技术的不断进步，向量空间模型也处于不断发展变化中。我们称Salton最初提出的向量空间模型为狭义向量空间模型，在这基础上发展起来的所有以向量形式表示文本的模型称为广义向量空间模型。事实上，目前使用的文本表示法基本上都是以向量形式表示的，各方法之间的差异主要表现在特征粒度

及权重计算方法的不同。本文其余部分若不特别指出，向量空间模型均指广义向量空间模型。

3.2向量空间模型

向量空间模型中，特征是文本表示的最小单位。划分文本的特征可以是词（包括字）、词组、n-gram和概念等，根据特征粒度的不同，一篇文本可以有多种表示方式。下面介绍各种文本特征及特征权重计算方法。

3.2.1特征

3.2.1.1词

词是自然语言理解的最小语义单位。不同的语种获取词的方式也大不相同。对英文等拼音文字而言，各个词之间用空格进行分隔，计算机处理时可以用空格作为切分标志，来提取文本的特征。但是对于中文等亚洲文字来说，表达方式以字为最小单位，在自然理解当中又是以词作为有意义的最小单位，词与词之间没有自然分割标志，这样就需要通过分词来取得文本的词特征。

无论何种语种，都会有一些对分类没有任何贡献的代词、介词和连词等，这些词称为停用词(stop words)。中英文对停用词的处理也不同。英文通常根据分类任务构建停用词表，然后在取词特征时根据该表去除停用词，表3-1是本文实验中采用的停用词表，包含319个停用词。而中文通常通过分词时建立的词典去除停用词，即词典初始建立时就不包含停用词。

表3-1 停用词表

a about above across after afterwards again against all almost alone along already but by call can cannot cant co computer con could couldnt cry de further get give go had has hasnt have he hence her here hereafter mostly move much must my myself name namely neither never nevertheless next nine several she should show side since sincere six sixty so some somehow someone towards twelve twenty two under until up upon use used very via was

共6页:

文本分类概述(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档