北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义
信息检索概述
第一节、信息检索的步骤与策略
一、信息检索的定义
信息检索是指将信息按一定的方式组织并存储起来,再根据信息用户的需要找出有关信息的过程。信息检索的广义含义,应该包含信息存储和检索。狭义的信息检索仅指它的检索部分。
二、信息检索的步骤 计算机检索步骤如下图:
1、检索课题分析
检索课题的分析,即主题分析,明确课题所包含的概念成份及其相互关系。这是检索策略制定的根本出发点,也是检索效率高低或成败的关键。 要明确以下问题 ? 分析课题的主要内容及其所涉及的学科范围。 ? 所需文献的类型、语种、年代及文献量的范围。 ? 对查新、查准、查全的指标要求,及其侧重。
2、检索系统和数据库的选择 利用一些指引二次文献的工具即三次文献,如:《工具书指南》、《书目指南》《数据库目录》等。
数据库选择原则:4个C Content,指数据库的内容,涉及它的学科范围、科技含量、数据库类型,数据来源。 Coverage,指数据库的规模,涉及它的时间范围、地理范围、机构来源、文献量等。 Currency,指数据库的更新的及时性。 Cost,指数据库的费用。
3、检索点与检索词的选择
第 1 页 共 8 页
北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义
检索点对应数据库中字段标目,其基本构成单位是检索词,检索词的恰当选择对于整个检索的结果至关重要。检索词描述文献主题内容的词、描述文献外部特征的词。 在主题分析的基础上,把课题有关概念转换成为检索语言。 尽量从主题词表(thesaurus)选择规范的检索词(主题词、叙词),以提高检索结果的准确性。 自由词的使用也相当普遍,经常是规范词和非规范词配合来表达检索提问。 下面以英国科学文摘(INSPEC)为例说明检索词表的应用:
INSPECThesaurusRecord:
Thesaurusterm(主题词): artificialsatellites Usedfor(代替词): satellites,artificial Narrowerterm(下位词): solarpowersatellites Broaderterm(上位词): spacevehicles Relatedterm(相关词): Attitudemeasurement Ionosphericmeasuringapparatus Militaryequipment Satellitecommunication satellitelinks Topterm(族首词): vehicles Dateofintro(最早引入时间): January1969
4、检索式
检索式(query,searchformulation)是检索策略的具体体现,是机器可执行的检索方案,它将检索单元(检索词)组合起来,正确表达它们之间的关系。 检索式在检索中可一次完成,也可分多步完成。
对一个课题,检索式的表达可能有多种形式,有各种选择、组配和描述、限定等方式,这些关系通过算符来体现。检索式可以表达复杂的检索提问,将各个检索点、不同属性值、不同的关系统统组织在一个检索式中,完成检索任务。
5、检索方案的调整
计算机检索的实时性和互动性,给用户及时分析检索结果、调整检索方案带来可能。为了得到比较满意的最终结果,检索往往需要经过多次判断、多次修改,哪一步不恰当就返回到哪一步去重新执行
6、检索结果的输出 检索结果的输出有多种。 输出方式包括显示、复制、打印、下载、E-mail等。 输出形式包括目录、题录、文摘、全文或自定义形式。
输出范围可以是全部检索结果,或部分检索结果
三、检索策略
执行一个课题的检索是有过程、分步来完成的,检索步骤的科学安排称为检索策略(searchstrategy),它是为实现检索目标而制定的全盘计划或方案。 在实施一个课题的检索过程中,在各个环节上需注意以下一些问题:
1、广泛浏览数据库。
2、选择合适的数据库试查。 3、调整策略的考虑。
第 2 页 共 8 页
北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义
4、利用检出文献的信息,拓宽检索。 5、充分利用各种资源
第二节、网络信息检索的基本方法 基本检索方法 布尔检索 位置检索(邻近检索) 截词检索 限定检索 全文检索 短语检索 括号检索 自然语言检索 多语种检索 模糊检索 区分大小写的检索
一、布尔检索 即用布尔算符来表示两个检索词之间的逻辑关系。
布尔算符(Booleanoperator),也称逻辑算符(logicaloperator),常用的有三种:逻辑与(and)、逻辑或(or)和逻辑非(not)
三种逻辑关系 逻辑算符 AND(与) OR(或) NOT(非) 检索式 AandB AorB AnotB 或者写成 A*B A+B A-B 命中 A和B都出现的记A和B有一个或两只出现A而不出现录 个都出现的记录 B的记录
布尔检索的运算顺序 ? 从左到右。 ? 括号内的逻辑运算先执行。多重括号时,按先执行小括号后中括号大括号。 ? 在无括号的情况下,对于AND、OR、NOT的运算次序,不同的系统有不同的规定,通常执行优先顺序为:NOT、AND、OR。 ? 最可靠的办法是将需先执行的部分放在括号。
二、位置检索(邻近检索)
是指规定了检索词在原始文献中相对位置的限定性检索。 位置算符:表示其连接的两个检索词之间的位置关系。
第 3 页 共 8 页
北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义
不同的检索系统所规定的位置运算符可能不同,在DIALOG检索系统常用的有(W)、(nW)、(N)、(nN)、(L)、(S)、(F)等
1、(W)与(nW)算符
(W)或():W是with的缩写。用(W)或用()表示其连接的两个检索词必须按序出现,中间不允许插词,只能有一空格或标点、符号。
如:high(W)class,命中的记录中出现的配词可能有:highclass或high-class。 (nW):与(W)类似,只是它允许插词,插词量小于或等于n个。 如:silicon(1W)sensor
命中的记录中出现的匹配词除siliconsensor外,还可能有:siliconintegratedsensor,siliconimagesensor,silicon-basedsensor等。
如:silicon(2W)sensor命中的记录中出现的匹配词除上例的外,还可能会有:siliconangularratesensor,silicon-basedchemical
2、(N)与(nN)算符
(N):N是near的缩写。(N)表示其连接的两个检索词的词序可变,但两词间不允许插词。 (nN):(nN)中的n表示允许插词量少于或等于n个。 如:internet(N)accessing 命中记录中出现的匹配词可能有:internetaccessing,accessinginternet。
如:internet(1N)accessing命中记录中除上例的外,还会可能有:accessingtheinternet,internet/intranetaccessing等。
3、(L)算符
(L):L是limit的缩写。(L)表示其连接的两个检索词之间有主副关系,前者为主,后者为副,可用来连接主、副标题词。它们出现在记录的规范词字段。
如:television(L)highdefinition命中记录的规范词字段(de)中出现的匹配词是:TELEVISION-Highdefinition。
4、(S)算符
(S):S是Subfield的缩写。(S)表示其连接的两个检索词必须出现在同一子字段中。子字段是指字段中的一部分,如一个句子、一个词组、短语。词序不限。
如:silicon(S)sensor,命中记录出现的匹配情况如:Avacuummagneticsensor(VMS)usingasiliconfieldemittertipwasfabricatedanddemonstrated.
5、(F)算符 (F):F是Field的缩写。(F)表示其连接的两个检索词必须出现在同一字段中,字段不限,词序不限。 如:pollution(F)control,可检出: controlandmanagementofindustrialpollution
第 4 页 共 8 页
北京大学香港科技大学深圳研修院 深港产学研基地 培训中心 课程讲义
6、不同算符的比较:
两个词由不同的算符连接组成不同的检索式,其检索结果显然不同。比如同样两个词用关系较紧的算符其检索结果的记录一定比用关系较松的来得少。
以下用electron和device两词为例,在Dialog8号文档EiCompendex数据库检索,其结果如下表所示
除了“逻辑非”和“逻辑与”限制程度的大小不能确定外,这些算符按照限制程度的大小排序为:(W)、(nW)最强,(N)、(nN)次之,(S)再次之,(F)最弱
三、截词检索
截词(truncation),是指检索者将检索词在他认为合适的地方截断。用截断的词的一个局部进行检索就是截词检索。这种检索,满足该截词局部的所有字符串,都被认为是命中。 截词检索的作用是减少检索词的输入而保证相关检索概念的涵盖,同时也方便解决语言文字拼写方面的差异(如美式英语和英式英语),避免漏检。
截词符(truncationoperator):用来对检索词(干)进行扩展。
在不同的检索系统中,截词符有不同的表示方法,通常用“*”、“?”或者“$”。
在Dialog系统中用“?”表示。“?”加在不完整的词或词干之后,或是插在一个词的中间来表示词后或词中可添加的随机字符
1、后截断
后截断即前方一致检索,是最常用的检索技术。将截词符放在一个词干的后边,以表示其后可有无限或有限个字符。 后截断无限截词:不说明具体截去字符的数量。截词符是在一个词尾加一个?号,表示在其后可添加任意多个字符,这些字符都被作为检索词进行检索,如:smok?将对若干词进进行检索,包括:smoke,smoky,smoked,smoker,smokes,smokers,smoking,smokeless等等。 后截断有限截词:说明具体截去字符的数量,截词符是在一个词尾加有限个?号,n个?号表示其后可添加的字符数少于等于n个。
第 5 页 共 8 页