??练集中的特征总数。在对文本d分类时计算d与ci的相似度,取相似度最大的一
个或几个类别作为文本d的类别。
?类别ci的代表向量ci的第k维值wki由公式(4-9)计算:
wki???dj?ciwkj|ci|???dj?ciwkjN?|ci| (4-9)
其中,β为训练样本中正例的控制参数,γ为训练样本中反例的控制参数,|ci|表示训练样本中正例的数目,N表示训练样本的文档总数,正例指属于类别ci的文本,反例指不属于类别ci的文本。β和γ是两个控制参数,可以通过提高β降低γ来削弱反例的影响。
?进行分类时,待分类文档d?(w1,w2,...,w|T|)与类别ci的距离度量公式为:
??sim(d,ci)??wwkk?1|T|2kk?1|T|ki?w?wk?1|T| (4-10)
2ki?当β=1,γ=0时,类别代表向量ci成为正例的质心。
Rocchio方法容易实现,分类速度快,尤其适合于大规模文本处理。但是,对于一个包含几个互不相交的簇的类别,例如,“运动”类包含“篮球”和“爬山”两个不相干的簇,该类别的质心则可能会落在所有簇的外面,如果使用Rocchio法分类将导致大部分正例被误分的情况发生。