信息检索期末课件整理资料

2019-01-26 16:42

第一章

1.2信息检索的原理

就是将特定的信息需求与存储在检索系统的信息标识进行异同的比较与匹配,选取两者相符或部分相符的信息予以输出。无论是手工检索还是计算机检索,其基本原理都是一样的。即检索系统对所要存储的信息,按照其外部特征和内部特征进行描述并赋予特征标识,然后进入系统;检索时,将所需信息特征标识与所存信息的特征标识进行比较。凡是两边标识一致的,就将具有这些标识的信息从检索系统中输出。 包含信息存储和信息获取两个环节。

(书本上的P14)

1.3 信息检索系统(手绘P17)

1.3.2 逻辑构成

一个完整的信息检索系统通常由以下几个功能模块组成:信息选择子系统、标引子系统、建库子系统、词表管理子系统、用户接口子系统、提问处理子系统。

1.信息选择子系统

根据系统的目标和服务对象的需要,确定信息收集范围,并广泛地、定期地采集各种信息源,为系统提供充足而适用的信息。 2.标引子系统

将收录的信息源利用检索语言表达和组织,并赋予检索标识的过程。 3.词表管理子系统

管理维护系统中已有的词表,使它与标引、建库等子系统相连接,支持用户查询操作,从提、对话或其他文本中采集新的词汇信息,并输出各种形式的词汇数据或词表产品。 4.提问处理子系统

专门负责处理用户输入的提问式,将提问式中的检索元和算符区分,并转换成系统内部的可接受的命令方式。在对提问进行转换后,与数据库中存储的数据进行比较运算,然后,把运算结果输出给用户。 5.用户接口子系统

承担用户与系统之间的交流功能。通常由用户模型、信息显示、命令语言和反馈机制等部分构成。

6.建库子系统

建立和维护可直接用于检索的数据库,包括系统所用的各索引文档。其工作流程主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。 1.4 信息检索方法

1)顺查法:是指按照时间的顺序,由远及近地利用检索系统进行信息检索的方法。这种方法能收集到某一课题的系统信息,适用于较大课题的检索。(查全率高)

2)倒查法:是由近及远,从新到旧,逆着时间的顺序利用检索工具进行检索的方法。此法的重点是放在近期信息上。使用这种方法可以最快地获得最新资料。(新) 3)抽查法:是指针对项目的特点,选择有关该项目的信息最可能出现或最多出现的时间段,利用检索工具进行重点检索的方法。(准) 3.追溯法

也称为回溯检索法、引文法、引证法,是跟踪查找的方式,以信息后面所附的参考文献为线索,逐一追溯查找相关信息的方法,此方法有助于对课题的主题背景和立论依据等内容有更深的理解。

获得的信息的针对性强,适合没有检索工具或检索工具不齐备的情况。 由于引证信息间关系的模糊性和非相关性所引起的“噪声”,该方法的查全率不高。

第二章(理解)

2.1

传统的检索语言:表达一系列概括文献信息内容的概念及其相关关系的概念标识系统。 检索语言概念:由词汇和语法组成。 词汇是登录在类表、词表中的全部标识,一个标识就是它的语词,分类表、词表是它的词典。 语法是如何创造和运用那些登录在类表、词表中的标识来正确地表达信息内容和用户信息需求,以有效地实现信息检索的一整套规则。 2.1.2 功能

(1)对信息的内容及其形式特征(主题)加以标引,保证不同的标引人员表达信息的一致性;

(2)对主题相同及主题相关的信息予以集中或揭示其相关性;

(3)将大量信息系统化、组织化,便于检索人员按照一定的排列次序进行有序化的管理; (4)方便标引语言和检索用语的相符性比较,提高检索效率。 2.1.3.3

按标识组合的使用的方法不同

先组式:表达信息主题概念的标识在编表时已固定组配好,例:体系分类法、标题词法 后组式:指在词表编制和标引信息时不规定表达主题标识的组配关系,在检索时再根据需要将各个标识进行组配。例:叙词语言、单元词语言。

散组式:指在词表中不组配复杂的主题概念,在标引阶段将表达主题概念的若干标识,根据一定的规则组配在一起。例:《冒号分类法》。 2.2.1 概念逻辑

2.2.1.2 概念逻辑的方法 概念的划分与概括(分类):利用概念内涵由反映事物本质属性的概念因素构成,概念因素的增加或减少可以形成新的概念,概念内涵与外延成反变关系等性质,对概念进行划分或概括,形成更为专指或更为泛指的新概念,用以区别事物。内涵(抽象) 概念的分析与综合(组配):利用在概念的交叉关系中两个概念外延的相同部分形成一个新概念,其内涵等于原来两个概念内涵之和,并且它与原来两个概念具有隶属关系的这种性质,进一步发展为将一个内涵较深的概念分解为两个或者两个以上内涵较浅的概念,以及将两个或两个以上内涵较浅的概念合成为一个内涵较深的概念的一种方法。外延(侧重个体) 2.3.1 分类检索语言概述

分类检索语言的概念指用标记符号(分类号)来揭示、表达信息内容,依据知识分类将主题概念组织、排列成类目体系,通过类目体系的自身结构显示主题概念之间的关系的检索语言。

基本原理和特点1直接体现知识分类 2以学科、专业为中心是其最主要特点。 体系分类法

——主要应用概念划分与概括的方法,以学科为基础,把概括信息内容与事物的各种类目组成一个层层隶属、详细列举的等级结构体系。

——特点:一是对知识进行逻辑的、系统的组织,因此称为体系分类法或系统分类法;二是把知识分门别类地进行等级排列,因此也称为等级分类法;三是把知识详细地罗列、展开,因此又称为列举分类法或枚举分类法。

——如:《杜威十进分类法》、《美国国会图书馆分类法》、《中国图书馆分类法》、《中国人民大学图书馆图书分类法》 组配分类法

——又称为分面分类法或分面组配分类法。是基于概念的可分析性和可综合性,即复杂的主题概念可以分析为若干简单的主题概念,若干简单主题概念可综合表达复杂的主题概念,将一个复杂的主题概念用若干表达简单概念的标识组配来表达的一种检索语言。主要应用概念分析与综合的方法。

体系分类法——2.3.2.1 结构 微观结构

类目是表达信息内容或主题范围的概念,是构成分类法的细胞。一个类目是由类号、类名、类级、注释和参照组成的。

按照类目之间的关系建立起来的类目集合称为类目体系,是分类法的核心。

类目是表达信息或主题范围的概念,是构成分类法的细胞,一个类目是由类号、类名、类级、注释和参照构成的。

(5)类目之间的相互关系处理 从属关系 并列关系 交替关系 相关关系

2.宏观结构

按功能分,一般分为以下几个部分:类目体系,标记系统,说明与注释,类目索引。 类目体系由主表和复分表组成。

类目体系——复分表(考复分表)

? 有通用复分表和专用复分表。

? 主要用途:一是可以缩小类表的篇幅,简化分类表;二是增强主表中有关类目的细

分程度,并规范同性质类目的细分。 ? 《中图法》(第四版)的复分表:总论表、世界地区表、中国地区表、国际时代表、

中国时代表、世界种族和民族表、中国民族表、通用时间地点表共8个通用复分表和69个专用复分表(详表中67个,总论表和中国地区表中各一个)。

标记系统—说明与注释

? 说明是对分类法结构原理和使用方法的揭示。

注释是类名的补充。有些类目名称不能准确表达类目的涵义,它要通过注释来明确。注释可进一步指明类目的内容范围,指出类目之间的关系,规定如何进一步细分或用什么方式


信息检索期末课件整理资料.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:统计学课后习题答案(2)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: