文本分类概述(6)

2019-05-24 12:17

??练集中的特征总数。在对文本d分类时计算d与ci的相似度,取相似度最大的一

个或几个类别作为文本d的类别。

?类别ci的代表向量ci的第k维值wki由公式(4-9)计算:

wki???dj?ciwkj|ci|???dj?ciwkjN?|ci| (4-9)

其中,β为训练样本中正例的控制参数,γ为训练样本中反例的控制参数,|ci|表示训练样本中正例的数目,N表示训练样本的文档总数,正例指属于类别ci的文本,反例指不属于类别ci的文本。β和γ是两个控制参数,可以通过提高β降低γ来削弱反例的影响。

?进行分类时,待分类文档d?(w1,w2,...,w|T|)与类别ci的距离度量公式为:

??sim(d,ci)??wwkk?1|T|2kk?1|T|ki?w?wk?1|T| (4-10)

2ki?当β=1,γ=0时,类别代表向量ci成为正例的质心。

Rocchio方法容易实现,分类速度快,尤其适合于大规模文本处理。但是,对于一个包含几个互不相交的簇的类别,例如,“运动”类包含“篮球”和“爬山”两个不相干的簇,该类别的质心则可能会落在所有簇的外面,如果使用Rocchio法分类将导致大部分正例被误分的情况发生。


文本分类概述(6).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:小古文100篇注音版

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: