可以根据文本之间的距离或密度定义相似度从而进行聚类。。其他方法也行。。
共5页 第4页
2、 中文分词是将输入的中文句子切分成一个个词语的过程,如“我是中国人? 我 是 中国 人”,中文分词可
以采用无事先定义词典的方法。试应用本课程学到的文本分类技术实现无词典的分词过程,给出你的思路的详细步骤(内容抽取到文本分类问题的映射、文本表示方法、特征选择及分类算法等)和过程(提示:尽量详细)。
一种是在每个字边界上定义 连-断 二类分类问题;
一种是在每个字上定义: 词开始,词中部、词尾部 三类分类问题。
可以根据上下文提取特征。。
3、 从发表内容和关注关系(结构)两个角度出发,设计一个算法来计算微博用户之间的相似度(提示:尽量详细)。
根据用户之间内容的相似度可以计算,基于两个用户的关注关系可以计算集合相似度,然后两个相似度组合起来。。
共5页 第5页