系数:
αa= na / nc αb= nb / nc β=0 γ=0
② 重心法
利用方程式(2)。
系数:
αa= na / nc αb= nb / nc β= ー(na nb)/ nc2 γ=0
③ 最长距离法
利用方程式(1)。
系数:
αa= 0.5 αb= 0.5 β=0 γ=0.5
④ 可变法
利用方程式(2)。
系数:
αa= (1-β) / 2 αb= (1-β) / 2 β=定数 γ=0
⑤ 介质法
利用方程式(1)。
系数:
αa= 0.5 αb= 0.5 β=-0.25 γ=0
⑥ 最短距离法
利用方程式(1)。
系数:
αa= 0.5 αb= 0.5 β=0 γ=-0.5
⑦ Wood法
利用方程式(1)。
系数:
αa= (nx+na) / (nx+nc)
αb= (nx+nb) / (nx+nc) β=-nx / (nx+nc) γ=0
iii:分组(Grouping)算法
即将相类似的对象归为同一个组的算法。
从现有的组里抽样获取要素,利用类似算法求出对象与组之间的距离,找出最为类似
的组并将该对象归入该组。
iv:自然语言解析算法
自然语言解析是指将对象文章按单词的单位分割,并将其生成一个个的标签(tag),
进而选出必要的名词(如已知和未知的名词),计算出其出现频度,考虑其在文章中的位置,
文章的长度等因素,并进行关键字重复度处理.在必要的时候,可提供禁用词汇的管理机能
以及对现实生活中没有特别意义的名词不予登录(象对禁用语的处理一样)的机能.
预计开发产品的特点
① 关于算法
在对2.1.2中介绍的协调过滤系统的各种算法和上一节中介绍的各种数学模型进行分析后,我们在前期开发中进行了大量的模拟实验。
首先,协调过滤的算法可以分成3类。
其一,Active Collaborative Filtering。利用这一技术,互相了解的用户之间可以相互指定,(当然有安全保密上的限制),获得彼此有用的信息(包含电子邮件)。可以和这个领域之内的专家保持同步。这次列在预计开发范围之内。
其二,Automated Collaborative Filtering 和Feature Guided Automated Collaborative Filtering。从效率和精度的角度多方分析的结果上看,Feature Guided Automated Collaborative Filtering遥遥领先。因为本次开发准备採用FGACF。
其三,Content-Based Collaborative Filtering。这次准备分阶段实现。首先是以文章情报为对象,然后再考虑其它的媒介。
其次,对算法中使用的数学模型进行了分析。
在Cluster诸算法之中,Wood法和群平均法的精度较好。
分组计算方面,基本上是利用类似算法。分组所使用的类似算法中Jaccard’s Coefficient
法,平均最小二乘距离法,改良二值距离法的精度比较理想。
Clustering方法和分组算法的目的是相同的。Clustering的特点是精度高,但处理速度较慢。分组算法则恰恰相反。可以靠系统控制参数来平衡这两种方法的使用,根据系统的规模灵活调整。