本院文献信息检索课程考察试题

2018-11-21 21:18

衡阳师范学院2012年下学期2009级 《文献信息检索》期末考查试题

姓名: 学号: 院系: 班级:

考试说明:

①综合成绩分为平时成绩(出勤40分)和期末考查成绩(总分100分,占综合成绩的60%)。 ②要求独立完成,试卷雷同者、抄袭者和被抄袭者均不得分!

③要求交打印稿,注意排版整洁清晰,一级标题三号字,二级标题四号字,正文五号字。 ④12月20日上午将答卷交至外语楼北301。逾期不交者,没有期末成绩。

论文写作(60分)

请以“文献信息检索与利用之我见”/“我对文献信息检索与利用的认识”为参考题目写一篇1500字左右的中文论文。要求按论文的格式写,有中文关键词、中文摘要、正文等;正文至少要有三个部分,参考大纲(仅供参考,感觉写作困难者可以选用此大纲,更鼓励另起炉灶):

1 深入学习文献信息的基础理论和知识( 文献信息的类型、文献检索的工具)

2 全面了解文献信息的检索途径与方法( 搜索引擎及其使用、 中文主要数据库及其使用、 外文主要数据库及其使用)

3 重点掌握文献信息的检索步骤与策略(分析检索课题、选择检索工具、选择检索途径、制定检索策略、挖掘隐含概念、排除无关概念)

文献信息检索与利用之我见

一、

文献信息的基础理论和知识

一、搜索引擎简介

一)、定义:搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供用户查询的系统,它包括信息搜集、信息整理和用户查询三部分。

搜索引擎是一个提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助用户在茫茫网海中搜寻到所需要的信息。 二)、原理:

1、抓取网页

每个独立的搜索引擎都有自己的网页抓取程序(spider)。Spider顺着网页中的超链接,连续地抓取网页。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页

搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 3、提供检索服务

用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。 三)、检索功能: 1、词语检索:

1)简单检索(Simple Search):指输入一个单词(关键词),提交搜索引擎检索,这是最基本的检索方式。

2)词组检索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎检索,也叫短语检索。现有的搜索引擎一半都约定把词组或短语放在引号“”内表示。

3)语句检索(Sentence Search):指输入一点多词的任意语句,提交搜索引擎检索,也叫任意检索。 2、目录检索:

指按搜索引擎提供的分类目录逐级检索,一般不需要输入检索词,而是按照检索系统所给的几种分类项目,选择类别进行检索,也叫分类检索。 3、高级检索:

指用布尔逻辑组配方式检索,也叫定制检索。可以使用各种算符、通配符等。

四)搜索引擎的类型:

1、按工作方式区分的搜索引擎

按照工作方式的不同,搜索引擎可以分为主题引擎、目录引擎和多元引擎。 1)主题引擎:

主题引擎又称基于Robot的搜索引擎。这种引擎的信息主要为网页,通过程序自动地收集处理和提供信息是主题引擎的特点。

主题引擎的优点是信息量大、更新及时、无需人工干预;其缺点是返回信息过多,有很多无关信息,甚至有一定比例的死链接,用户必须从结果中进行筛选。主题引擎的代表是Google (http://www.google.com),Lycos (http://www.lycos.com),Excite (http://www.excite.com)和

Inktomi(http://www.inktomi.com)等;国内代表为百度(http://www.http://www.wodefanwen.com/)和OpenFind(http://www.openfind.com)等。

主题搜索引擎也提供分类查找途径,但其分类为自动分类,或是借用其他目录引擎的分类数据(例如Google利用网景公司的Open Directory分类),因而分类检索效果不如目录指南型搜索引擎。 2)目录引擎:

目录引擎又称目录指南型搜索引擎。目录引擎的信息大多面向网站,是依靠专职编辑或志愿人员人工建立起来的。人工收集和处理信息是目录引擎的主要特点。 目录引擎的用户界面基本上都为分级结构。首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别;另外,用户也可以利用目录引擎提供的搜索功能直接查找一个关键词;不过,由于目录引擎只在数据库保存的编辑对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录引擎与主题引擎之间的一个主要区别。 目录引擎的国外代表是Yahoo!(http://www.Yahoo.com, 雅虎中国http://cn.Yahoo.com/)、Open Directory(http://dmoz.org/)、LookSmart(http://www.looksmart.com)等;国内代表有新浪网(http://www.sina.com.cn)和搜狐(http://www.sohu.com.cn)等。

归纳上述,主题引擎和目录引擎两者最主要区别在于有无信息的人工处理过程。目录引擎的信息因为有人工处理过程,所以死链接较少、信息准确、导航质量高;缺点是需要人工介入,维护量大,信息量少,信息更新不及时。而主

题引擎的信息的收集和处理完全由程序软件自动进行,信息的特点正好和分类引擎相反,信息量大,更新速度略快,但死链接比例相对略高。因而主题引擎适用于专指度较高,内容要求比较新的课题。目录引擎适用于学科调研的场合。 3)多元引擎:

多元引擎又称元搜索引擎。多元引擎本身没有存放网页信息的数据库。当用户查询一个关键词时,它把查询请求转换成其他数个搜索引擎能够接受的命令格式,并行地或者有选择性地访问这些搜索引擎并查询这个关键词,处理这些搜索引擎返回的结果,然后再返回给用户。多元引擎的服务方式为面向网页的全文检索。 多数多元搜索引擎在处理其他搜索引擎的返回结果时,只提取出每个搜索引擎的结果中前面10~50条,并将这些条目合并在一起,去除重复后返回给用户,因此最后结果的数量可能会远少于直接在一个搜索引擎上进行查找所得到的数量。这就是为什么很多互联网用户都喜欢使用多元搜索引擎来查找信息的原因。多数多元搜索引擎都只能访问少数几个搜索引擎,而且不支持这些搜索引擎的高级搜索功能,在处理逻辑查询时也常常会出现错误,这些是多元搜索引擎的缺点。

国外多元搜索引擎的代表是Dogpile(http://www.dogpile.com)和search(http://www.search.com)等,国内的代表是万纬搜索引擎(http://www.widewaysearch.com)等。 二、主要搜索引擎介绍 一)Google

Google(http://www.google.com)是目前性能较为优越、应用较为普遍的主题引擎。Google 的优点是网址数量大,检索语种多,响应速度快,尤其是它所设置的“手气不错”功能,可直接进入可能最符合要求的网站;而“网页快照”功能,能从Google服务器里取出某些被删除的网页提供阅读,方便了使用。

Google的检索文本框中可以任意输入中、英文检索词。检索对象类型选择设置在检索文本框的上方,分为所有网站、图像、新闻组群和目录。系统默认为网站搜索(实际默认为网页搜索)。

在需要检索多个检索词时,相互间为逻辑与(AND)限制关系的,应直接使用空格。注意Google不允许使用AND,但可在检索词前加“+”;相互间为逻辑

或(OR)扩展关系的需使用大写英语字母的“OR”;相互间为逻辑非(NOT)剔除关系的使用减号“-”。在混合使用这些逻辑算符时,搜索引擎按照从左往右的顺序读取操作符号,但可以使用“( )”优先算符。如果只涉及逻辑与(AND)和逻辑非(NOT)运算,则不会产生顺序问题,搜索结果数量和检索词顺序无关。 Google不支持截词符,只能做精确查询。如果在检索词后紧跟有“*”或者“?”,系统会将其忽略掉。另外,Google不区分英文字符大小写。如果需要检索词组,需要对词组使用双引号。

和其他主题引擎一样,Google的缺点是它只负责自动地收集整理提供信息,而不负责信息的内容是什么,是典型的信息“吸尘器”。我们在利用Google时,应特别加以注意这点。另外Google的信息更新周期平均为28天,所以用它来搜索最新的信息有时候是不合适的。 二) Yahoo!中国

Yahoo! (http://www.yahoo!.com)是互联网搜索引擎的“元老”,属于目录引擎。Yahoo!对提供的网络信息按主题分类建立索引。这个主题分类就是我们用来查询的主要工具。

Yahoo!的分类类名后有的有“@”标志,表示这个类目会同时出现在多个不同分类类目下面。只要点击这个含有“@”的类目,就会链接至Yahoo! 中国的其他相关类目。

从Yahoo! 这些分类,可以看出网络信息的分类有一些根据学科进行区分,更多的是根据网络信息的数量和访问的具体情况设置的。所以利用Yahoo!检索网络信息的方法是先应浏览分类的大致情况,从中选出希望查找的分类类名,点击所选的这个分类的超链接,Yahoo! 就会给出下一级分类检索界面,如此逐层点击,就可以从中找到需要的信息。

Yahoo! 也提供了一种简单的主题查询,所得结果是基于类目名称、网站名称、网站描述以及网址的匹配来显示的。

三)百度(http://www.http://www.wodefanwen.com//)

1、百度是目前比较好的中文信息与传递技术供应商,拥有独特的超链分析技术,能在极短的时间内收集到最大数量的信息资源。 2、检索方式:

1)基本检索:百度搜索引擎简单方便。仅需输入查询内容并敲一下回车键(Enter),即可得到相关资料。或者输入查询内容后,用鼠标点击“百度搜索”按钮,也可得到相关资料。

输入的查询内容可以是一个词语、多个词语、一句话。例如:可以输入[足球]、[mp3 下载]、[蓦然回首,那人却在,灯火阑珊处。]

2)高级检索:利用高级检索可以方面用户定义搜索的时间、地区、语言等。

四)搜狐(sohu)

1、搜狐公司于1998年推出中国首家大型分类查询搜索引擎,经过数年的发展,到现在已经发展成为中国影响力最大的分类搜索引擎。

2、SOHU搜索引擎的特点:搜狐的目录导航式搜索引擎完全是由人工加工而成,相比机器人加工的搜索引擎来讲具有很高的精确性、系统性和科学性。分类专家层层细分类目,组织成庞大的树状类目体系。利用目录导航系统可以很方便的查找到一类相关信息。

3、SOHU的搜索引擎使用说明:

1)、关键词查找,用户可以在搜索框中直接输入自己想查找信息的关键词,找到相关信息。这种方法对网站、网页、新闻、网址、软件五类信息都适用。

2)、目录导航,用户层层点击想查找信息的类目,通过这种方法可以找到相关的一类信息。这种方法只适用于网站搜索。


本院文献信息检索课程考察试题.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:加强人武部干部队伍建设的调查与思考

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: