中国科学院大学现代信息检索2012年秋季期末试题及答案(2)

2019-03-28 15:13

可以根据文本之间的距离或密度定义相似度从而进行聚类。。其他方法也行。。

共5页 第4页

2、 中文分词是将输入的中文句子切分成一个个词语的过程,如“我是中国人? 我 是 中国 人”,中文分词可

以采用无事先定义词典的方法。试应用本课程学到的文本分类技术实现无词典的分词过程,给出你的思路的详细步骤(内容抽取到文本分类问题的映射、文本表示方法、特征选择及分类算法等)和过程(提示:尽量详细)。

一种是在每个字边界上定义 连-断 二类分类问题;

一种是在每个字上定义: 词开始,词中部、词尾部 三类分类问题。

可以根据上下文提取特征。。

3、 从发表内容和关注关系(结构)两个角度出发,设计一个算法来计算微博用户之间的相似度(提示:尽量详细)。

根据用户之间内容的相似度可以计算,基于两个用户的关注关系可以计算集合相似度,然后两个相似度组合起来。。

共5页 第5页


中国科学院大学现代信息检索2012年秋季期末试题及答案(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:李子种植基地可行性研究报告

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: