第二章 电子信息资源的检索方法与技术 - 图文(2)

2019-02-15 18:08

北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义

如:smok?

将对smoke,smoky,smoked,smoker,smokes等进行检索。 对于最多允许添加一个字符的情况,则用??的形式表示。 如:smok??

将只对smoke,smoky进行检索

后截断主要使用在以下4个方面:

(1)单复数:例如用book??检出book和books。

(2)年代:例如用199?检出所有20世纪90年代出版的文献。 (3)作者:如用CrickA?检出姓氏为Crick,第一名字首字母为A的作者。 (4)同根词:例如用biolog?检出biological、biologist、biology等同根词。

中间截断:中间截断是把截词符号放在一个检索词中间。一般中间截断只允许有限截断。 中间截词符:(embeddedcharactertruncation)也称通配符(wildcard),是在 一词中间用若干个?号,表示可插入若干个字符。 中间截断主要用于英式和美式单词的不同拼写方式,以及有些词在某个元音位置上出现单复数不同。

如:organi?ation将对organisation和organization进行检索。 如:defen?e将对defense和defence进行检索。 如:m?n将对man和men进行检索

四、限定检索

这是一种缩小检索结果的检索技术。通常在第一次检索得到的命中记录太多时,可用这种检索技术再进行筛选常用方式:字段检索;使用限制符的检索。

1、字段检索

就是限定检索词在数据库记录中出现的字段范围的一种检索方法。使用时,将字段代码按系统规定放在检索词的前方或后方,表示检索词的匹配只在这些字段中进行。

各检索系统段是不相同的,并且采用的字段代码也可能不同,其用法也不同。因此,使用字段检索一定要注意系统的具体规定。 例如DIALOG系统就分为字段前缀代码和字段后缀代码两种。后缀代码对应基本索引(basicindex),反映文献的主题内容;前缀代码对应辅助索引(additionalindex),反映文献的外部特征。

后缀代码(suffixcode),对应基本索引(basicindex),反映文献的主题内容,将字段代码放在检索词之后,并用/号连接。 如:/TI表示Title(篇名)

/AB表示Abstract(文摘)

/DE表示Descriptor(叙词,规范词)

如:electron/ti表示electron一词须出现在篇名字段;

electron/ti,ab表示electron一词须出现在篇名或文摘字段。

前缀代码(prefixcode),往往是用于表达文献外部特征的字段,即一些辅助性检索字段,将字段代码放在检索词之前,用=号连接。

如:AN=EIP98124488325(AN:AbstractNumber)

AU=LIU,LITIAN(AU:Author)

第 6 页 共 8 页

北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义

BN=0-8155-0963-4(BN:ISBN)

CD=19880520(CD:ConferenceDate)

AU=Salton?ANDPY=199?表示查找Salton所写

2、使用限制符的检索

在一些检索系统中,提供一类表示文献类型、文种、出版时间等的限制符号,放在检索式的右边,起到约束检索结果的效果。

限制符的使用和字段检索一样,也要遵循所选检索系统和数据库的规定。 如在DIALOG系统中: /ENG英语出版物

/NONENG非英语出版物 /19981998年的出版物

chess/PAT,表示检索结果只要chess这一主题的专利文献

五、全文检索

新颖之处:可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是文献线索。全文检索技术的“全文”,表现在: ? 数据源是全文的; ? 检索对象是全文的;

? 采用的检索技术是全文的; ? 提供的检索结果也是全文信息。

1、全文检索系统概念(内涵) ? 具有全文数据库; ? 系统除布尔逻辑检索外还具有文本检索功能,即位置检索、字符串检索、截词检索等; ? 允许用户以自然语言检索,直接获得原文的有关章、节、段、句等信息。

2、全文检索系统的条件与技术 (1)全文数据库

全文数据库是指将法律条文及案例、经典著作、重要科技期刊、新闻报道以及百科全书、手册、年鉴等文献的全部文字(或者虽非全部文字,但包含原著的主要内容)转换为机读形式。 全文数据库可以是单一文献,如字典、法律条文、经典著作;也可以是许多文献的集合,如新闻报道、期刊论文等。 全文数据库中的每一个具有实际意义的词都可以作为检索入口。 通过对全文数据库的检索得到的是源文献信息而不是文献线索。 (2)全文检索技术 全文检索是指对文献全文内容进行字符串的匹配检索,包括字符串检索、截词检索、位置检索、同义词控制以及后控词表等技术。

字符串检索指对检索词与库文献中词语的字符片段按一定规则进行对比,查找夹在一个长词中的某个字串。 同义词控制是以自然语言为基础的全文检索系统的重要任务。同义词典在系统中的配置及其自动转换,对全文检索系统改善查全率是十分必要的。 后控词表是一种辅助检索的词表,由系统自动获取检索式中用逻辑或相连的检索词,把它们之间的关系看作同义或近义的关系,形成一个个词表的片段。这种词表在后来的检索中自动把同义词或近义词增补到检索式中去,以提高查全率。

第 7 页 共 8 页

北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义

位置检索 位置检索

检索技术除了布尔检索、位置检索、截词检索、限定检索、全文检索以外,还有加权检索、超文本检索、智能化检索等等。 六、短语检索 短语用引号“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也将短语检索称为精确检索。 七、括号检索 用于改变运算的先后次序,括号内的运算优先。 八、自然语言检索 直接采用自然语言中的字、词、句进行提问式检索,与一般的口语相似。 如:WhoisGeorgeW.Bush? WhatisInternet? 这种基于自然语言的检索方法又称为“智能检索”。 九、多语种检索 提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果。 十、模糊检索 当用户输入一个检索词后,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容,供用户进一步确定自己要查询而且搜索引擎能提供的查询。 十一、区分大小写的检索 许多搜索引擎区分大小写的检索。 例如:输入的检索词为小写时,能反馈包括大写和小写的网址; 输入的检索词为大写时,只能反馈包括大写的网址; 第 8 页 共 8 页


第二章 电子信息资源的检索方法与技术 - 图文(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:西第三章 第一节 文艺复兴时期服饰

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: