中国科学院大学现代信息检索2012年秋季期末试题及答案(2)

2019-03-28 15:13

可以根据文本之间的距离或密度定义相似度从而进行聚类。。其他方法也行。。

共5页第4页

2、中文分词是将输入的中文句子切分成一个个词语的过程，如“我是中国人? 我是中国人”，中文分词可

以采用无事先定义词典的方法。试应用本课程学到的文本分类技术实现无词典的分词过程，给出你的思路的详细步骤(内容抽取到文本分类问题的映射、文本表示方法、特征选择及分类算法等)和过程(提示：尽量详细)。

一种是在每个字边界上定义连-断二类分类问题；

一种是在每个字上定义：词开始，词中部、词尾部三类分类问题。

可以根据上下文提取特征。。

3、从发表内容和关注关系(结构)两个角度出发，设计一个算法来计算微博用户之间的相似度(提示：尽量详细)。

根据用户之间内容的相似度可以计算，基于两个用户的关注关系可以计算集合相似度，然后两个相似度组合起来。。

共5页第5页

中国科学院大学现代信息检索2012年秋季期末试题及答案(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！