信息检索期末课件整理资料(3)

2019-01-26 16:42

第三章(记忆)

著录:在组织检索系统时,对具体信息的各种形式特征、内容特征及物质形态等进行分析、选择和记录的过程。

著录的基本要求:准确化和规范化 机读目录与元数据(P82)

机读目录:简称MARC,指任何形式的计算机可以阅读或识别的目录,其格式规定书目在数据机读介质上的表示和标识方法,包括机读记录的构成、各数据字段在机读介质上的总体安排与内容结构

机读目录——格式特点(考) 1)字段设置:在MARC记录中字段的设置包含了书目数据的实际内容。主要特征表现在三个方面:

① 字段数量多,并有空白(子)字段供用户扩充使用,共有001-999个字段,其中

第999字段为用户自己规定字段含义;

② 字段内容著录详尽,字段下设子字段以及重复字段; ③ 字段作用强化,可检索的字段多。

2)标记符号:

① 字段标识,用3位数字表示,从001-999。

② 子字段代码,用两个字符表示,第一个是定义符,表示为子字段(如$),第

二个字符用小写字母a,b,c…表示子字段顺序。

③ 指示符号: 用以描述或指示可变长字段代码。指示符号用两个数字表示。在

每个字段说明中都有指示符号的使用和表示的含义。如果某个字段指示符号不用,则用空白符号表示。 ④ 字段和记录分隔符。

CNMARC的样例分析

元数据

元数据(Metadata):关于数据的数据,是关于数据的结构化的数据。在互联网中,元数据是指描述任何互联网数据和资源,促进互联网信息资源的组织和发现的数据,以协助对网络资源的识别、描述、位置指示。(考)

起源:起源于计算机科学,原先主要指网络信息资源的描述,后逐步扩大到各种以电子形式

存在的信息资源的描述。

描述的对象:图书、期刊、磁带、录像带、缩微品、论文、科技报告及各种形式的网络信息资源。

描述的成分:通常从信息资源中抽取出来的用于说明其特征、内容的数据。如题名、版本、出版数据、相关说明等 元数据——作用 定位和检索 著录和描述

资源管理:权利管理、数字签名、存取管理 资源保护与长期保存

都柏林核心与数据库是一种跨领域的信息资源描述规范。这里的资源是“任何具有标识的东西”

DC元素修饰词(判断)归入三类(考) (1)内容描述部分

题名项Title:主题词项Subject描述项Description来源项Source语言项Language关联项Relation覆盖范围项Coverage (2)知识产权部分

著者项Creator:出版者项Publisher合作者项Contributor:权限项Rights (3)外形描述部分

日期项Date:类型项Type:格式项Format识别符Identifier DC与marc二者比较 (1)著录的对象不同 (2)数据的形式不同 (3)著录的主体不同 (4)著录的详简程度不同 (5)标识的方法不同 信息标引的含义(考)

通过对信息资源的分析,选用确切的检索标识,如分类号、主题词、关键词、人名、地名等,用以反映该信息资源内容的过程。是内容的内容分析和用词表达(转换标识)两个步骤的结合。

2.标引的方式(考)

(1)依内容单元选择方式分

整体标引、全面标引、对口标引、分析标引、互见标引 (2)依信息单元选择方式分 综合标引、分别标引

(3)依所用标识与主题概念的对应性分

专指标引、组配标引、上位标引、依附标引、暂定标引 (4)依组配标识是否是成串分 先组标引、后组标引

(5)依标引实施的方式分:

分散标引、集中标引、联合标引、在版标引 (6)依标引语言的原理分: 分类标引、主题标引

标引的质量控制:深度(查全率)、专指度(表达信息内容的精确程度)、一致性(表达文献主题内容所需标引词的一致程度)(考) 分类标引的基本原则:学科属性原则(首要原则)、专指性原则、实用性原则、系统性原则、一致性原则(考) 组配规则(简单题)

(1)必须是概念组配,而不是字面组配。

(2)当有几种组配形式可选择时,优先选择交叉组配。

(3)选用主题最直接相关的、最相邻的主题进行组配,不用泛指词和越级词。 (4)组配标引的结果必须概念清楚、明确,具有单义性。

(5)组配次序一般按照“主体-通用-空间-时间-文献类型”来。当有多个主体因素主题词时,按照对象-方法-材料-过程-条件等次序排列。 主题词组配标引的形式(标题考) (1)交叉组配 (2)限定组配

(3)联结关系组配 自动标引方法(主考) 1.词频统计法

将文献中词的出现频率按等级排列,以一定标准排除高频词和低频词,剩下能代表文献主题内容的词。

有绝对词频统计法和相对词频统计法两种。 2.加权标引法

(1)逆文献加权标引法 (2)词区分值加权标引法 (4).统计学习标引法 (3).n-Gram标引法

自动分类(区分自动归类和自动聚类考)

即聚类聚到多个类目,分类分到某一个类目中,且聚类没有确定的分类体系

第四、五章(注意第一,最)

1《四库全书总目》中国清代官修书目,是中国古代最大的解题书目。

2《国外人文社会科学核心期刊总览》是中国第一次大规模利用文献计量学原理对国外人文社会科学期刊进行筛选的核心期刊工具。

3《乌利希国际期刊指南》国际上收录外文期刊最多的订购目录。

4《美国全国联合目录:累计作者索引》世界上收录图书最多、质量上乘的馆藏联合目录。 5《美、加连续出版物联合目录》与《新连续出版物联合目录》世界上收录馆藏连续出版物最多的联合目录之一。

6《全国报刊索引》是中国有史以来连续出版时间最长、收录报刊最多、最全面的报刊论文索引。 7《科学引文索引》是目前世界上最权威的通过引文检索和评价论文及其期刊的参考工具书。 8《化学文摘》美国化学文摘服务社编辑,是世界上最著名的文摘刊物之一。 9《中国百科年鉴》

补充《中国大百科全书》的不足。

中国解放后第一次按年出版的综合性的百科年鉴。 10《世界知识年鉴》我国出版时间最长的年鉴之一。

11《中国大百科全书》

是中国现代第一部大型综合性百科全书。 是世界上最大的百科全书。

12.中国第一部类书——《皇览》。

中国历史上规模最大的类书——《永乐大典》。

中国现存的规模最大的综合性类书——《古今图书集成》。附有多种索引。

第六章

根据计算机检索服务形式分:定题检索(SDI)、回溯检索和日常检索

定题检索:根据用户检索课题的内容,定期的从新到资料数据中为特定用户提问进行进行的计算机情报检索。具有定期性、新颖性和批处理式的特点。(考)

计算机信息检索策略(重点考布尔逻辑练习) 布尔逻辑局限:

布尔检索式的非友善性,即构造一个好的检索式是不容易的 易造成零输出或输出过量

无差别的组配元,不能区分各组配元的重要程度 匹配标准存在某些不合理的地方

检索结果不能按照任何用户定义的重要性排序输出。

检索表达式(书上P)

是检索策略的逻辑表达式和具体体现,是指信息检索中用来表达用户检索提问的逻辑表达式;

由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。 是计算机可以识别和执行的命令形式。

1逻辑表达式2加权表达式3位置检索表达式4截词检索表达式(主要适用于英语环境)

检索策略的构造步骤:

分析信息需求——选择检索系统——选择检索途径和检索方法——处理检索结果——获取原始文献

提高查全率的方法

1降低检索词的专指度、2增加同义词近义词或相关词的逻辑或运算、3选用截词检索4增加和调整检索条件5调整检索词的网络度 提高查全率的方法

1提高检索词的专指度2用and连接进一步限定主题概念3用not排除一些无关的检索项5二次检索

逆波兰、准波兰(10分)

第八章

光盘检索系统的构成包括软件和硬件。

硬件有计算机、光盘驱动器和光盘,其中光盘是指存储有数据的光盘数据库。 软件指检索软件。

第九章

网络信息资源的类型:按照传输协议的不同,可以分为www信息资源,Telnet信息资源、FTP信息资源、网络论坛和gopher信息资源 网络信息检索的原理

通信结构:客户端/服务器结构。 通常用的客户端工具:网络浏览器。

采用的检索模型:布尔逻辑模型和向量空间模型。 具体过程参见P237 网络信息检索方法 1.直接浏览——Browse

2.利用网络资源目录(弥补第一种的不足) 3. 利用以关键词检索为主的SE(搜索引擎)

4.查询网络数据库(获取学术性信息的最有效方法) 5.查询网上图书馆

Z39.50协议(必考)

译为“信息检索:开放系统互联的应用服务定义与协议说明。

一种基于C/S体系结构下描述客户端检索服务器端上数据以及获得检索结果的数据结构与交互规则的协议。

是网络中的应用层协议。 内容及特点 内容:

(1)信息检索服务的定义,定义了信息检索服务的11种机制,包括了该协议支持的服务功能说明和服务参数说明。 (2)Z39.50协议的规范,包括协议控制信息定义、信息交换规则和实现协议的必备的条件。 特点:

(1)它与HTTP、Gopher不同等面向传输层的协议不同,它是基于会话层的协议,是有状态的。

(2)它是一种开放网络平台上的应用层协议,利用它可以使不同计算机系统之间实现协同工作。

(3)它支持分布式的客户端/服务器模式,但客户端向服务器提交一个检索请求时,服务器在一个或多个数据库中进行检索,并将记录返回给客户端。 (4)它既可以采用同步方式,也可以采用异步方式进行通信。 运行机制(参见数242)

新一代的Z39.50,即ZING

ZING的核心: SRW/U是ZING的核心所在。SRW/U集成了Web和URL技术,对Z39.50作了很大的改动。

第十章

网络信息检索工具的类型

1.照索引方式分类:目录型和索引型

2.按照检索时搜索的检索工具数量分:独立型和集合型。

3.按检索网络资源的类型分:Web资源检索工具和非Web资源检索工具。 网络信息资源的原理:

以分类理论为依据——以人工搜集和组织信息为主——将超文本技术融入了分类法


信息检索期末课件整理资料(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:统计学课后习题答案(2)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: