信息组织 名词解释
171. 后组标引 :是指标引时并不将组配表达主题概念的多个标识组合起来的标引方式。后组标引多用于计
算机检索系统。
172. 受控标引:是一种采用受控语言(检索语言)中的标识表达主题概念的标引方式。
173. 自由标引:是一种采用自然语言语词作标识表达主题概念的标引方式,又称非控标引。它是主题标引
的一种特殊形式。
174. 人工标引:是一种完全由标引人员亲自思考和操作而完成的标引方式,亦称手工标引。
175. 自动标引:是一种基本由计算机及其自动化、智能化系统完成判断和操作的标引方式,又称机器标引。
它又分为自动抽词标引和自动赋词标引,前者为自由标引,后者为受控标引。
176. 联合标引 :是各机构开展合作,各自只对一部分文献进行标引,相互共享标引成果的标引方式,亦称
合作标引。在网络环境中,以联机标引为主的联合标引将会有更大的发展。
177. 在版标引:是在文献出版或发表前就完成标引,并将标引成果记录在文献之中的标引方式。
178. 标引查重 :-主要是指查复本,即查看待标引文献(图书)是不是本单位收藏并标引过的文献复本。
如属复本或内容变化不多的不同版本,可以使用原先的检索标识;如系新的,则进行标引。查重的目的是避免重复标引,防止同一文献的标引不一致。查重的方法是在公务目录或机读目录中进行查对,以确定待标文献是否为已标引文献的复本或不同版本。
179. 主题分析:无论是分类标引还是主题标引,人工进行的主题分析可以细分为四个紧密联系甚至多次循
环的环节,即:了解文献内容及其表现形式;选择标引所针对的各个内容单元;概括单元内容,形成自然语言表述的主题概念;分析主题概念的结构、类型、学科属性。
(1) 自动标引的主题分析则表现为从文献中抽取表达主题概念的自然语词的方法运用,如词频统
计分析,语词位置加权等。
180. 分类法使用本:分类法的使用本,是指具体单位根据自己的文献情况和用户需要,在允许的范围内,
对通用分类法作些适当的调整、补充、说明后,确定下来作为分类标引最后依据的本子。
181. 图书改编:如果作为分类标引依据的分类法经过修订出了新的版本,甚至有的单位想放弃原来使用的
分类法,新采用一种分类法,就需要用新的分类法版本或新的分类法对已经分类标引过的图书重新进行分类标引,这就是图书改编问题。
182. 书次号:对同类书中特定图书的个别化编号,就是同类书的区分号,简称为书次号
183. 主题概念分解转换:主题概念的分解转换是要先将一个复杂主题概念分解成若干个简单概念或概念因
素,然后选用与各简单概念或概念因素对应的叙词,按照一定的规则组配起来表达这个复杂的主题概念。主题概念分解转换的关键是概念的分解,主题概念分解正是采用叙词进行主题标引(简称叙词标引)的难点,掌握主题概念分解的方法有助于提高叙词标引的效率和质量。
184. 交叉关系概念分解法:是指将复杂概念分解成两个或两个以上外延部分相交的属概念(作为概念因素
第16页
信息组织 名词解释
的简单概念)的方法。
185. 事物与方面关系概念分解法:是指将复杂概念分解成表达事物和方面的两个或两个以上的简单概念。
186. 事物与“种差”关系概念分解法:是指将一个复杂概念分解成表示事物的属概念和表示该属概念与被
分解的种概念之间相差属性的简单概念。
187. 概念概括分解法:是逐渐减少复杂概念内涵、不断扩大复杂概念外延,根据词表收词情况进行概念分
解的方法。
188. 概念限定分解法:是从被分解的复杂概念中找出最上位的属概念,然后从这个概念入手,利用词表中
的等级关系显示,逐一找出能表达被分解概念中最专指因素的叙词,进行概念分解。
189. 自然语言:“自然语言”,是人类在社会生活中发展起来的用来互相交际的声音符号系统。从信息检索
角度来理解,自然语言是指文献作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参考文献中的具有一定实质意义的词语。
190. 自然语言处理:自然语言处理是自然语言得以应用所要解决的首要的核心问题。自然语言处理是人工
智能领域的一个重要分支,它主要研究计算机对输入的自然语言文本的分析、理解和生成,旨在建立人与计算机之间友好的交流通道,实现更高层次的信息交互。自然语言处理(Natural Language Processing,简称NLP)是实现自然语言理解的核心基础,是语言信息处理的一个重要分支。一般认为,自然语言处理主要有以下4个应用领域:机器翻译、信息检索、人机接口、篇章理解。因此,这4个方面的技术构成了其研究内容的应用技术部分。
191. 汉语自动分词:汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”,其作用
怎么估计都不会过分。具体来说,自动分词是机器翻译、信息标引、智能检索、自然语言处理等必不可少的基础,也是制约中文信息处理飞跃的“瓶颈”之一。
192. 交集型歧义:如果AB和BC都是词典中的词,那么如果待切分字串中包含“ABC”这个子串,就必然会
造成两种可能的切分:“AB/C/” 和 “A/BC/”。这种类型的歧义就是交集型歧义。比如“网球场”就可能造成交集型歧义(网球/场/:网/球场/)。
193. 多义组合型歧义:如果AB和A、B都是词典中的词,那么如果待切分字串中包含“AB”这个子串,就
必然会造成两种可能的切分:“AB/” 和“A/ B/ ”。这种类型的歧义就是组合型歧义。比如“个人”就可能造成组合型歧义((我)个人/ :(三)个/人/)。
194. 未登录词:未登录词即未包括在分词词表中但必须切分出来的词,包括各类专名(人名、地名、企业
字号、商标号等)和某些术语、缩略词、新词等等。未登录词的识别对于各种汉语处理系统不仅有直接的实用意义,而且起到基础性的作用。
195. 词典分词法:又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词
典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
196. 基于理解的分词方法:其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息
第17页
信息组织 名词解释
来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
(1) 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将
各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
197. 基于统计的分词方法:对语料中相邻共现的各个字的组合的频度进行统计,计算它们的同现信息。同
现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
198. 这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词
方法。
199. 自然语言标引:是指采用原文中的信息作为标引源,从中选取能够有效表征信息内容的特征词的过程。
自然语言标引分为:人工标引方式(包括自由标引和自由词补充标引)和计算机自动标引。
200. 计算机自动标引:是指利用计算机从各种文献中自动提取相关标识引导的过程。“狭义”的自动标引包
括主题标引的自动抽词标引和自动赋词标引两种方式。“广义”的自动标引还指在主题自动标引基础上的自动赋分类号标引。
201. 自由标引 :即人工关键词标引。是指将那些出现在文献的标题(篇名、章节名)以及摘要、正文中,
对表征文献主题内容具有实质意义的语词,亦即将对揭示和描述文献主题内容来说是重要的、带关键性的(可以作为检索入口的)那些语词抽取,抽取时不加规范或只做少量规范化处理。自由标引主要适用于报纸文献、期刊文献的大型篇名数据库等的标引。
202. 西文自动标引:就西文而言,利用计算机抽取西文关键词,需要完成的是从文本(标题、文摘或全文)
中剔除虚词(又称非用词或停用词),获取关键词,最后分析关键词,确定标引词。
203. 自动抽词标引:是指直接从原文中抽取词或者短语作为标引词来描述文献的主题内容。这是最早出现
的一种自动标引方式,主要指从文献中自动抽取出能表征文献主题的关键性语词作为标引词,所以自动抽词标引也常常称为关键词标引。汉语信息的自动抽词也即汉语自动分词的过程。
204. 自动赋词标引:自动赋词标引是在自动抽词的基础上,引入预先编制的词表来规范自动抽取的词,利
用计算机的自动换词功能,将关键词转换成规范词,赋予文献主题概念,然后建立倒排索引文档。
205. 自动标赋分类号标引:自动赋分类号必须以自动抽词为基础。在自动抽词的基础上,根据自然语言词
与分类号的对应表和自动分类规则,利用计算机的自动换词功能,将关键词转换成分类号,建立倒排索引文档。按其实质来说,也是自然语言与受控语言的结合,一般将它归入自动分类的范畴。
206. 单汉字索引:是对每个单字的出现位置进行索引,并依据单字的位置信息进行检索的文本检索方法。
单汉字索引库的主要部分是每个字的位置信息
207. 自然语言检索系统:就是指对文献作者或文摘提要的编写者原来使用的语言进行一定的序化组织、处
理并提供自然语言检索接口供用户查询使用的检索系统。自然语言检索系统的两个关键性技术:文本信息的自动标引和索引技术和自然语言检索技术。
第18页
信息组织 名词解释
208. 自然语言检索:自然语言检索可以从以下三个层面来理解:从检索语言来讲,自然语言检索就是在为
文献检索标识时,使用文献作者、文摘编写者原来所用的语词或标引人员自拟的语词,而不是取自受控词表中的语词;从技术上讲,就是将自然语言处理技术应用于信息检索系统的信息组织、标引与输出;从用户方面讲,就是用自然语言作为提问输人的检索方式。
209. 关键词检索:是指用户提交的检索词是用户认为对表达其检索需求至关重要的关键性语词。关键词检
索可用在经自然语言标引组织的自然语言检索系统中,同时关键词检索也是基于全文索引的全文检索系统最主要的检索输入形式。
210. 全文检索 :所谓全文检索(Full-Text Retrieval),是指以全部文本信息作为检索对象的一种信息检
索技术。全文检索的核心技术就是维护一个高效的索引(主要是倒排文档)。
211. 位置检索:位置检索是全文检索系统中特有的检索技术,最能体现全文检索系统的优势。
212. 字表法:以单个汉字为基本索引单元的索引方法,即单汉字索引。字表法是以单字为基础进行检索的
方法,其缺点是生成的索引库庞大,检索速度低,误检率高;其优点是适应性强,应用范围广,索引的生成简单,比较适用于内容复杂、新词汇和特殊词汇多的文档的检索。
213. 词表法:以词或词组为索引单元的也称为词表法。词表法是以能表达一定意义的词为基本检索单位,
并根据词的出现位置进行索引和检索的文本检索方法。词表法索引的建立较字表法复杂,漏检率较高,且不能进行单字和任意字符串的检索;其优点是对于大规模应用,索引库规模小,检索的处理速度快,同义、反义等概念检索的实现较为简单,因而比较适用于特定领域中或内容相对固定的文档的全文检索。
214. N-Gram法:N-Gram法,即采用n元语法的切分统计方法来自动发现相关概念,对提取出来的词建立索
引。N-gram法无需任何词典支持;对输入文本所需的先验知识少;无需进行分词处理。但是,N-gram法在抽取信息时,会产生非常大的数据冗余,占用很大的内存空间,相比基于词典分词获取文本特征的方法,其实现效率比较低,要花费较长的时间来处理文本,查准率比较差。
215. 词索引+Bi-Gram法:词索引+BI-Gram实际上是一种字词混合的索引方式。基于词典分词与N-gram信
息相结合的特征获取方法,结合两种文本特征提取技术的优点以达到优化系统性能的目的。首先采用基于词典的分词技术将汉语中的常用词切分出来,在此基础上,对于那些没有出现在词典中的未登录词采用基于N-gram的技术进行提取,这样做,既可以大大减少N-gram信息提取所需处理的信息量,又可以弥补词典因为语言的领域相关性和时间相关性所带来的词汇不足的问题,保证达到相对较好的分词标引效果。
216. 简单提问式输入检索:指系统在“用户-检索接口”层面上支持用户以简单自然语言提问的方式输入
检索式。
217. 后控制模式:即“标引不控制+检索控制”模式。这种模式是在标引(输入)阶段使用自然语言,不对
标引进行严格控制,而在检索(输出)阶段才对检索词进行控制的自然语言检索优化技术。
218. 后控词表:后控制词表是利用受控语言的基本原理和方法编制的自然语言检索用词表,它主要是对自
然语言中大量存在的等同关系、等级关系和大部分相关关系进行控制和揭示,具有自学习功能,可根
第19页
信息组织 名词解释
据检索的需要将新概念和新术语及时地加入词表中,因此,后控词表是一个动态词表。
(1) 后控词表的性质类似于入口词表,它是一种转换工具,一种扩检工具,一种罗列自然语言检
索标识供选择的工具。
(2) 用户在检索时通过浏览词表选用检索词,或者由系统自动执行调整(扩缩减)检索式,这样
既减轻了用户负担,又提高了系统的易用性和检索效率。
(3) 后控词表兼有自然语言与人工语言的性质和优点,因此,后控制词表是“自然语言检索和人
工受控语言结合的最佳范例”。
219. 网络信息:广义而言,网络信息是指在网络中蕴藏着的各种形式的信息的集合。它包括信息内容本身、
记录信息的载体、信息的表达形式、信息组织的结构,信息传播的手段等要素。狭义而言,指包含特定内容的网上信息。从网络信息物理存放位置分,有本地资源、导航资源和泛在资源。
220. 本地信息资源:本地信息资源是指存放在本地服务器或计算机上的信息资源。
221. 导航信息资源:导航信息资源是通过目录的形式完成非本地资源的信息代理工作,主要有以标题的形
式组织代理信息资源的 P2P导航资源, 以站点到站点、通过超链接的方式代理的S2S导航资源。
222. 泛在信息资源:泛在信息资源是那些没有做过任何信息代理的非本地信息资源,包括大型网站的搜索
引擎,以及其他广泛存在的网络信息资源。
223. 网络信息分类法:网络信息分类法是处理信息面最广的分类法,不仅包括一般的文献信息,还包括商
品信息、贸易信息、金融信息、组织机构信息、新闻,以及软件、游戏、多媒体信息、各类动态信息等。网络信息分类法一般多以搜索引擎“分类导航”的形式出现,并且“分类法—检索系统和界面—信息数据库”是一个统一的整体。
224. 传统分类组织范式:就是以文献的学科主题内容为主要分类标准,同时结合其他的标准辅助使用,如
文献类型、人物、时间、空间等。
225. 自动分类:自动分类分为自动归类和自动聚类。
(1) 自动归类分析被分类对象的特征,使之与各种类别中对象所具有的共同特征进行比较,然后
将对象划归为特征最接近的一类并赋予相应的分类号。
(2) 自动聚类是从待分类对象中提出特征,然后将提出的全部特征进行比较,再据一定的原则将
具有相同或相近特征的对象定义为一类,并设法使各类中包含的对象大致相等。
226. MeSH《医学标题表》:《医学标题表》(Medical Subject Heading, MeSH)是由NLM于1960年编制出版
了。MeSH表由字顺表、树形结构表、副主题词表三个部分组成。字顺表是将MeSH表所收主题词、入口词全部按字顺关系排列,并通过词下的树状结构号码、注释及参照揭示表中词与词之间的关系,帮助用户选词。树状结构表是一种分类体系,它将字顺表中的主题词,按照每个词的词义范畴及学科属性,分门别类地归入15个大类,逐级划分,分类深度最多达9级。副主题词表共有82个副主题词,对同一主题词下不同研究方面的文献进行限定,每个副主题词根据其特定的含义和使用范围与不同的主题词组配使用。
227. UMLS 《统一医学语言系统》:UMLS是NLM主持研究开发的生物医学检索语言系统。系统包括四个部分:
超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(Information Sources Map)
第20页