第一章、信息检索基础
文献的概念:为了把人类知识传播开来和继承下去,人们用文字、图形、符号、声频、视频
等手段将其记录下来,或写在纸上,或晒在蓝图上,或摄制在感光片上,或录到唱片上,或存储在磁盘上,这种附着在各种载体上的记录统称为文献。
文献由四要素构成:文献信息、文献载体、符号系统和记录方式 文献的属性:知识信息性、客观物质性、人工记录性、动态发展性
由信息、知识和文献三者的概念可知,三者之间是密切相关的。信息是物质存在的方式、形式和运动规律的表征。人脑对事物属性的感知形成信息;人们对信息集合加工、整理形成系统化,表现形成人类社实践的知识;知识被记录在载体上形成文献,文献被人类广泛传播、运用在理论和实践中以产生新人信息、知识和文献。如此循环,不断创新,形成各种各样的新知识,从而推动人类前进。由此可见,信息、知识、文献在社会系统中表现出一种不间断的延续性。
这种大量客观存在的由人们直接或间接开发利用的信息集合总称为信息资源 信息资源按信息的出版或加工形式划分: 图书(ISBN)国际书号 报刊(ISSN)标准刊号 会议文献 名称 专利文献(CN) 科技报告 学位论文 技术档案 产品资料 标准文献 政府出版物
按照信息加工层次划分:
一次文献、二次文献、三次文献
一次文献的特点:具有学术上的新观点、新发明、新技术、新成果、提供了新的知识信息,
是创造性劳动的结晶,有直接参考、借鉴和使用的价值,是人们检索和利用的主要目标。
二次文献的特点:仅是对一次文献进行系统化的压缩,无新知识产生,具有汇集性,检索性
的特点
三次文献的特点:具有综合性高、针对性强、系统性好、知识信息面广的特点。
区别:从文献的角度看,一次文献是人们检索与利用的主要对象,二次文献是文献信息的检
索工具,三次文献是人们考查数据、事实信息的主要信息源。
信息检索的概念:是将信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用
户的需要找出有关信息的过程。它的全过程又称为信息存储与检索。这是广义的信息检索的含义,主要是对信息工作者面言的。狭义的信息检索则仅指后半部分,即用户根据需要,借助检索工具,从信息集合中找出所需要信息的过程。
它最本质的部分概括为一句话:对信息集合与需求集合的匹配与选择。 按编著方式来划分检索工具的类型: 目录型检索工具:主要报道实有的文献或收藏文献的情况,以一个完整的出版单位作为著录
的基本单位
题录型检索工具:用来描述某一文献的外表特征并由一级著录项目构成的一条文献记录。题
录通常以一个内容上独立文献单元为基本著录单位。
文摘型检索工具:文摘是指对文献的内容简洁而又正确的摘录,供人们浏览和查用,使读者
能以较少的时间与精力掌握有关文献的基本内容而进行系统查找。
索引性检索工具 检索工具的结构:每种检索工具大体上都是由编辑说明与使用凡例部分、分类表和主题词表
部分、正文(著录)部分、索引部分、附录部分组成的。
所谓标识:即指表征文献外表或内容特征的词语或符号。词语标识有关键词、叙词、单元词等;符号标识有分类号、专利号、标准号、化学符号等。
检索语言的概念:又称标引语言、索引语言、信息检索语言等,是根据检索需要而编制的一
种人工语言。
检索语言的组成:词汇和语法
检索语言的分类:按其反映信息内外部特征的不同,可分为分类语言、主题语言、名称语言
和代码语言四大类。
分类语言和主题语言是表示文献实质意义的内容特征标识;名称语言和代码语言是表示文献
外表特征的标识。
中图法:
检索程序的6个步骤: 1、分析课题
2、选择检索系统和数据库 3、确定检索途径和检索词 4、构建检索表达式 5、检索并调整检索策略 6、输出检索结果
其实2、3、4是检索策略,影响检索效果。 查全率:是对所需信息被检出程序的量度
查准率:查准率是衡量检索系统拒绝非相关信息的能力。 数据库的概念:是结构化的数据集合。
数据库的结构:是以文档的形式组织起来的,文档的基本组成单位是记录 记录、字段、文档
有多少种字段就有多少种途径
数据库的种类:参考数据库、源数据库、混合数据库。
第二章、计算机检索技术
目前常用的检索技术:布尔逻辑检索、截词检索、位置检索。加权检索、全文检索、超文本
检索。
布尔逻辑检索:是采用布尔逻辑表达式来表达用用户的检索需求并通过一定的算过和实现手
段进行检索的过程。
布尔逻辑表达式:采用布尔逻辑算符来连接检索项以及由表示运算优先级的括号组成的种表
达检索要求的算式,即逻辑表达式。
布尔逻辑检索分类:or and not 截词检索的概念:主要是利用检索词的词干或不完整的词型进行检索,其方法是在词干后可
能变化的字符位处加上截词符号“?”。
截词检索使用的结果:既可减少检索词的输入量,又可简化检索步骤,扩大检索范围,提高
查全率,节省上机时间,降低检索费用。
分类:有限截词,无限截词。 位置检索: W——“With”表达两侧的检索词必须前后邻接,顺序不得颠倒,两词之间不能插入任何词,
但允许空格和连字符号。
nW——“n Word”表示两侧的检索词之间最多允许插入n个词,但两个检索词的词序不允
许颠倒。
N——“near”表壳两侧的检索词必须前后紧相邻,中间不能插其它字符。但两词次序可颠
倒。
nN——“n Near”表示两侧的检索词之间最多可拥有n个单词,且检索词的次序可颠倒。 S——“Subfiele”要求参加运算的检索词必须出现在同一自然句中,两词词序不受限制,词
之间可含任意数量的词。
国外主要联机检索系统介绍: DIALOG系统最重要
数据库的类型:书目数据库、全文数据库、指南数据库、数值数据库、复合数据库。 中国常的是中国知网:维普科技、万方。
外文常用:SPE、美国工程索引EI、德国施普林格。、SBSCO
第五章
中文检索工具(目录、题录、文摘)均属于二次文献
全国报刊索引—题录型,全国总数目、全国新书目—书目型,美国工程索引、中国石油文摘—文摘型
专利:受法律保护、技术专有的权利 类型:发明,实用新型,外观设计专利 条件:新颖性、创造性、实用性
专利说明书构成:扉页 正文 附图 标准的分类:产品、工作、术语
标准按适用范围:国际、区域性、国家、行业、企业 标准表示方法:代号+顺序号+制(修)订年代
专利分类号的格式:部号+大类号=小类号=主组号=小组号 美国四大报告:PB,AD,DOE,NASA
第七章
科研课题的完成过程可以划分为四个阶段:前期阶段、初始阶段、中间阶段和总结阶段 文献信息的收集途径:
定期浏览有关专业核心期刊和其他类型的专业期刊 参与各种学术报告会义 利用各种国内外检索工具 文献信息的收集方法: 常规和其它
文献信息的收集还要注意以下三点:
1、根据课题的时间范围和地域范围确定收集文献信息时间的上下限及地区范围 2、在文种选择上,一般先查阅中文文献检索工具和中文业期刊
3、对于已收集到的文献信息,不仅要阅读理解文献的内容,而且还要注意文章后的参考 文献。
文献信息的分析方法:
1、 文献信息的定性分析方法 2、 文献信息的定量分析方法