信息检索复习大纲

2019-05-26 00:20

第1章 信息资源概论 1、信息资源的涵义

信息的涵义:信息是生物以及具有自动控制系统的机器通过感觉器官或者细胞组织,或者具有类似功能的设备部件与外界进行交流的一切内容。 资源的涵义:资源是一切可被人类开发和利用的客观存在。 我们的观点:信息资源是经过人类主观或客观处理了的,并且能够被传播或传输的文字、声音、图像、数据。

2、信息资源的类型及各自的特点

我们将信息资源区分为纸质文献型信息资源和电子型信息资源(包括电子出版物、网络信息资源)两大类型。 纸质文献资源的特点: ? 携带、书写、保存方便 ? 直观性

? 以纸质为载体的艺术作品的不可替代性 ? 纸质文献作为收藏品的不可替代性 电子信息资源的特点: ? 存储形式多样化 ? 资源数字化 ? 可交流程度高 ? 方便利用 ? 内容丰富 ? 载体容量大

第2章 信息存储与检索基础 1、信息存储与检索的基本原理

信息检索的基本原理:为了促进信息资源的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得特定需要的信息资源,必须要对广泛、大量、分散、无序的信息进行搜集、记录、组织、存储,以建成各种信息存取系统。用户则根据检索需要,将需求转变为系统所能识别的检索式,再与存取系统中表征信息资源特征的标识进行逐一的相符性匹配与比较,两者完全一致或部分一致时,即为命中信息,可按用户要求从存取系统中输出。

2、信息存储与检索的历程

信息存储与检索走过了文献检索、情报检索的历程,并且正在向着知识检索的领域迈进:

文献检索就是一个从文献集合中查找出特定文献的活动、方法与程序,并指明“文献集合”即为经过加工的“众多文献”。

情报检索是一种时间性通信形式,是“发生在当代人之间或当代人与前人和后

人之间思想、文化和科学信息的交流,它是实现情报传递的重要环节,它本身就意味着人类的通信。

信息是人类社会和自然界所有物质的一种普遍属性,其概念外延十分宽广。知识是通过大脑思维重新组合和系统化的信息。一般认为,“情报”是传递中的知识,文献则是指记录在一定物质载体上的知识。

3、信息检索通常包括的四种类型

? 从信息需求与查询结果看,信息检索通常包括四种类型:

? ? ? ?

关于文献的检索

关于某事实或事项的知识检索 关于数值或数据的情报检索 关于图像信息的信息检索

4、索引的概念

索引(Index)是存取信息资源“地址”或“出处”的标识系统,是信息存储与检索的基本形式。索引的基本功能是指示知识点在正文或文献款目中的位置。传统的文本式检索工具通常由两部分组成,即文摘正文部分和辅助索引部分。

5、索引的款目结构中,例如 未来的地球人①/王佃亮② 31③ ①②③分别代表什么

①索引标题词(题名) ②文献作者 ③地址参照项(所在页码)

6、引文索引的概念

引文索引是近30年来出现的一种新型的索引形式。其特点是,把一系列具有引用与被引用关系的科学文献以多向线性的方式联系起来,提供一个以引证关系为依据来检索文献的新途径。

引文索引的主要职能是,回答某作者的论文曾经被哪些人的文章所引证,这些文章何时发表在何种刊物上。

第3/4章 信息存取途径与检索策略 1、布尔逻辑算符

用户利用逻辑算符构造检索式,可将一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。系统中采用的逻辑组配算符是布尔代数中的逻辑运算符AND、OR、NOT,故简称为布尔逻辑组配算符。这三种算符表示不同的逻辑关系,在构建提问检索式时必须正确选择使用。 ? 逻辑“与”——AND或* ? 逻辑“或”——OR或+ ? 逻辑“非”—NOT或-

? 布尔逻辑算符的优先执行顺序为NOT、AND、OR。 ? 由布尔逻辑算符连接而成的检索式称为逻辑检索。

2、位置逻辑算符

由于布尔逻辑算符不能限定检索词在检索记录中的位置关系,因此其检索结果常常不能满足精确检索的需要。为了弥补逻辑算符准确表达提问要求的缺陷,提高检索效率避免误检,特规定了一些位置算符。也就是当使用文献记录中的自由词作为检索词进行检索时,词与词之间的逻辑关系则用位置算符组配。位置算符主要用于全文数据库查询。

位置算符不仅可用来组配带有前缀或后缀的检索词,也可用来组配带有逻辑算符的检索式。常用的位置算符有下列几种 ①(W)或( )—with

②(nw)表示在此算符两侧的检索词之间允许插入n个实词或虚词,两个检索词的词序不允许颠倒。

③(N)—“Near”由(N)连接的检索词在记录中出现的顺序可以调换,但必须彼此相邻。

④(nN)表示算符两侧的检索词(或称检索项)之间允许插入n个词,且两检索项的位置可以调换。

⑤(F)—Field表示算符两侧的检索词,必须同时出现在文献记录的同一字段中,如同一文摘或同一标题字段,同一题名字段等,此文便为命中,算符两侧检索词词序不变,夹在其间的其它词数量也不限。

⑥(S)—Sub field表示算符两侧的检索词必须同时出现在文献记录的相同子字段内,其检索词的顺序不限、夹在其间的词汇数量也不限,子字段通常由数据库确定。

⑦(L)—Link(L)算符通常用来表示算符两侧的检索词是从属关系,前者为上位概念,后者为下位概念;或算符左侧为主叙词,右侧为副叙词。

⑧(C)—CITATION表示算符两侧的检索词可以不分字段、不按顺序,只要同时出现在一篇文献记录中即为命中,其作用和效果与逻辑算符“and”相同。 ⑨(X)和(nX)(X)算符表示两个相邻且又词形相同的检索词作为词组进行检索,其间只能是“—”号而不得有其它的字母或词,

? (nX)表示两个词形相同的检索词,其间夹有n-1个其它词时,可作为词组进

行检索。

⑩在位置算符的前面加上NOT即可构成位置算符的逻辑(非)

3、信息检索一般方法

信息检索的方式是指根据检索课题的需要与检索系统的现状灵活选定的。一般的查询方法可划分为以下几种:

1.工具法:又称一般查找法,即利用各类存取系统(工具)包括书本式与电子文本式,直接检索信息的方法,主要包括顺查法、逆查法、抽查法。

2.追溯法:利用文献后所附参考文献,逐一追查被引用文献,然后,再从被引用文献所附参考文献目录逐一扩大检索范围,依据文献引用与被引用之间的关系获得内容相关的诸多文献,这是一种扩大信息来源最简捷的方法。 3.综合法:亦称循环法或分段法,它是指分期分段交替使用上述各种检索法以达到优势互补、获得理想结果的一种检索法。

4、信息检索步骤

分析检索课题,明确检索需求、制定检索策略(主题分析)

选择检索系统与数据库、确定检索词和检索途径,编制逻辑检索式 检索策略的调整

第5章 联机存取系统 1、联机存取系统概述

联机存取系统由用户检索终端、通信网络、联机存取中心三部分组成。其中检索终端设备用于输入检索程序、显示检索过程、控制打印机打印检索结果;联机存取中心是存储和检索信息的核心;通信网络主要用来连接用户终端和联机存取中心,以实现远程人机对话的目的。

2、联机存取系统国内外概况 国外联机存取系统

? Dialog系统:目前世界上规模最大、检索功能最完善、用户终端最多的联机存取系统。由美国洛克希德导弹航空公司下属的一个情报科学实验室始建于1966年,总部设在加里福尼亚州的PALO ALTO市,1972年开始向用户提供服务。

? STN系统:是The Scientific and Technical Information Network-Retrieve(国际科技信息网络)。STN系统创建于1983年,是由美国化学文摘社CAS、德国卡尔斯鲁厄专业信息中心FIZ-Karlsruhe和日本科技信息中心JICST共同合作经营的跨国数据库存取系统,也是世界著名的国际联机信息存取系统之一,1986年开始向用户提供全面服务。 ? OCLC FirstSearch(Online Computer Library Center):即联机计算机图书馆中心。 OCLC创建于1967年,是世界上最大的文献信息服务机构之一。其总部设在美国的俄亥俄州,它主要通过Internet远程通讯网向成

员馆及其它组织提供各种处理过程、产品和参考服务。

国内联机存取系统

1、万方数据资源统一服务系统:主要业务是以数据库建设为核心内容的信息资源建设和服务。该系统提供108个数据库的网上检索,包括期刊论文、专业文献、会议论文、学位论文、科技成果、专利数据、公司及企业、产品信息、标准、法律法规、科技名录、高等院校信息、公共信息等各类数据资源。

2、CNKI数据资源系统:中国知识基础设施工程是1999年 6月正式开通的联机网络存取系统,由清华大学光盘国家工程研究中心( Optical Memory National Engineering Research Center)开发,以中国期刊网为其主要形式。中国期刊网是目前国内最大的网上期刊信息资源存取系统。不仅实现了国内期刊信息资源的网络化,而且有全新的目标定位:主要以中外文期刊、博士硕士论文、学术会议论文、专著、专利、科学报告等文献为基本资源。

3、维普数据资讯系统 :是国内目前数据量最大的综合性文献型数据库资源系统。主要报导自然科学领域及部分社会科学(经济、文化、高等教育、图书情报等)领域的中文期刊文献,收录期刊5400余种(含港、台核心期刊)。

3、联机数据库分类及概念

联机数据库通常储存在磁带、磁盘或光盘等计算机随机存取设备上,一般由专门的数据库供应商(即数据库的提供者和出版商)提供。数据库供应商承担收集、编辑、出版,并将之制作成机读形式提供给联机存取服务公司。 按照数据库所含信息记录的内容结构划分,可将联机数据库分为两大类:文献参考型数据库和源数据库。源数据库存储用户作为检索目的而要求获取的数据、事实或文字等一次信息。而文献参考型数据库是在原始文献的基础上加工整理而成的,著录项一般包括有原始参考文献的出处和相关信息,主要有书目型、文摘型、索引型数据库等。

联机存取系统主要提供追溯检索、定题服务、联机订购原文、电子邮件以及数据库光盘等传统服务,同时各个联机存取系统也都推出了自己的特色服务,如FirstSearch的一体化服务(包括整合检索、全文库标识等)、Dialog公司的跨文档检索和分级别检索以及万方数据公司的数字化期刊、咨询服务等等。

第6章 Internet 网络信息存取 1、搜索引擎的构成

搜索引擎的基本结构如图所示。

一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。


信息检索复习大纲.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:康佳集团存货管理分析

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: