信息组织 名词解释
和专家词典(SPECIALIST Lexicon)。超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成,这些概念和词汇来自MeSH等40多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等。超级叙词表是依据概念组织起来的,其目的是将相同概念的交替名称和不同形式联系在一起,并表达同不同概念之间的关系;语义网络是为建立概念、术语间错综复杂的关系而设计的,为超级叙词表中所有概念提供了语义类型、语义关系和语义结构;情报源图谱是一个关于生物医学机读情报资源的数据库,可以利用超级叙词表和语义网络测度情报源与特定提问的相关性,为用户提供特定情报源、自动连接相关情报源、提供自动检索并自动组织检索的结果;专家词典是一个包含众多生物医学词汇的英语词典。
(1) UMLS目前已广泛应用于词表的编制、概念表达、电子病案系统的创建、临床数据的获取、课
程分析、自然语言的处理、自动索引和生物医学信息检索等。
228. PDVT《垂直设计视觉叙词表》:PDVT是一种特殊的叙词表,提供了新颖的视觉模式,但这种模式可能不
太实用。PDVT中的主题词在屏幕上迅速地移动,用户只要点击一个特定主题词,该主题词词就会移动到屏幕中心,其相关词环绕在周围。此外,PDVT允许用户通过检索对话框查找感兴趣的主题词。
229. 主题网关 :科赫将主题网关定义为:基于因特网的支持系统化资源发现服务。其显著特征是,提供某
种知识结构如叙词表和分类系统,通过因特网对资源(文献、对象或服务)进行浏览和检索。
230. 万维网(Web):World Wide Web本质的特性便是其广泛性全球性。超文本链接的威力在于“任何事物之
间都可以相链接”。一个在Web中,资源通过极有限的语义相互链接(如:具有表达意义的文件名),一个资源所在系统无法自动判定其他系统中的资源含义。
231. 语义网(Semantic Web):语义网是一种能理解人类语言的智能网络,可以使人与计算机之间的交流变
得像人与人之间交流一样轻松。语义网并非独立的另一个Web,而是现在的Web的一个延伸。在其中,信息有定义完好的含义,更利于人机之间的合作。在语义网中,每个资源有清晰的定义;各个概念之间的关系有清晰的定义。
232. 网络本体语言(OWL):把以本体为核心的网络信息组织的语言工具称之网络本体语言(Web Ontology
Language, 简称OWL),有时可称为本体语言。网络本体语言(OWL)主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,同时规定类目的特性及其之间的关系。
233. 文件方式:文件是有序组织的数据的集合。引入文件概念后,计算机有一整套成熟的文件处理的理论
与技术,在组织网络信息资源时可以非常容易地利用这些现成的技术和方法,用户不再需要了解文件存放的物理位置和物理结构,实现了“按文件名进行存取”,而由文件管理程序根据用户给出的文件名自动完成数据传输操作。自从计算机出现以来,文件方式一直是重要的信息资源组织方式。
234. 数据库方式:数据库是对大量的规范化数据进行管理的技术。数据库是指大量的长期存储在计算机内、
有组织的、可共享的数据集合。数据库技术利用严谨的数据模型对信息进行规范化处理,利用成熟的关系代数理论进行信息查询的优化,从而大大提高了信息管理的效率。
235. 主题树方式:主题树方式组织信息资源的方法是将信息资源按照某种事先确定的概念体系分门别类地
逐层加以组织,用户先通过浏览的方式层层遍历,直到找到所需要的信息线索,再通过信息线索连接到相应的网络信息资源。网络信息资源通过树型主题目录层级组织体系,可以达到实现浏览――导航
第21页
信息组织 名词解释
的功能,用以通过引导网络用户的查询概念(而不是确切的词条)来找到所需的网络资源。主题目录式检索工具尤其适合那些“希望了解某一方面的信息,并不严格限于查询关键字”的用户群。
236. 网络主题目录:也称为主题目录树(subject trees),它是按照一定的主题分类体系,层层细分,就
像分类表的类目一样,是一个等级体系结构。目录结构一般按:总目—专题目录—链接—文本信息链(subject categories-topics-subtopics-records)的序列组织。
237. 搜索引擎方式
238. :搜索引擎是目前因特网对信息资源进行组织的主要方式。所谓搜索引擎(Search Engine),指采用自
动化技术对万维网站点资源和其他网络资源进行采集、标引和检索的一类检索系统机制;是提供给用户进行关键词、词组或自然语言检索的工具,是目前网络信息资源的组织和检索的主流方式和工具。
239. 网络蜘蛛;Robot(或Crawler或Spider或Wanders)实际上是一个在网络上检索文件且自动跟踪该文件
的超文本结构并循环检索被参照的所有文件的软件。
240. 信息资源可得性开发:是指包括建网与联网以及网上信息资源从无到有、从有到优化的开发。
241. 信息资源可用性开发:主要包括免费资源深度与广度的挖掘、镜像资源的开发、收费资源的代理服务、
局域网、区域网资源的组织和服务等。
242. 网络资源高水平利用状态的开发:这种基于提高网上资源利用的量与质,内容的开发主要包括对现有网
上信息资源再加工,如重组、浓缩、定量定性处理,新用途的开辟,产品促销以及各类咨询与服务,以挖掘其利用深度的开发可算为二次开发。
243. 信息重组:所谓信息重组是在根据对源信息所含知识内容对其进行分析解构的基础上,运用一定的科学
方法将源信息或解构所得信素进行重新组合,从而得到新的信息产品,实现信息增值的过程。信息重组是实现信息资源二次开发或深层开发的重要途径,这其中凝聚着信息工作者的增值劳动,是一种高层次的信息资源开发活动。
244. 指引库;也称为导航库,是指所建立的信息库,从物理上讲并不存储各种实际的信息资源,它存放的是
有关主题的数据库或服务器的地址等信息,可指引用户到特定的地址获取所需的信息。
245. 网络电子出版物:网络电子出版物,是指以电子全文形式在网上发行的出版物,包括电子图书、电子
期刊、电子报纸等。网上电子图书是专业学习、科学研究的较好、较新的辅助资料。
246. 虚拟图书馆;美国学者卡耶将虚拟图书馆定义为:“利用电子网络远程获取信息与知识的一种方式”,
其实质是在计算机网络上对分布于各地的各种信息资源进行动态搜寻联结。并将虚拟图书馆视为用户获取信息的一种方式而非一种形态。
247. Web挖掘:Web挖掘是指从大量的万维网文档集合中发现蕴涵的、未知的、有潜在应用价值的、非平凡
的模式。它所处理的对象包括:静态网页(文字、多媒体信息等)、Web数据库、Web页面的内部结构、Web结构、用户使用记录等信息。通过对这些信息的挖掘,可以得到仅通过文字检索所不能得到的信息。 Web数据挖掘大致分为3类:内容挖掘(Content Mining)、结构挖掘、用户使用记录挖掘。
第22页
信息组织 名词解释
248. Web内容挖掘:Web内容挖掘(Web Content Mining,Web CM)是指对Web上大量文档集合的“内容”进
行总结、分类、聚类、关联分析以及利用万维网文档进行趋势预测等,是从Web文档内容或其描述中抽取知识的过程。
249. Web结构挖掘:Web结构挖掘(Web Structure Mining,Web SM)主要是从Web组织结构和链接关系中推
导信息、知识。挖掘页面的结构和Web结构,可以用来指导对页面进行分类和聚类,找到权威页面、中心页面,从而提高检索的性能:同时还可以用来指导网页采集工作,提高采集效率。
250. Web用户使用记录挖掘:Web用户使用记录挖掘(Web Usage Mining,Web UM) 主要是想从用户的访问
日志中抽取感兴趣的模式。分析这些日志数据可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化的服务。这方面的研究主要有两个方向:一般的用户访问模式跟踪(General Access Pattern Tracking)和个性化的使用记录跟踪(Customized Usage Tracking)。
251. 信息推送技术:信息推送技术(Push技术),即个性化信息服务,是网络信息组织和检索一个非常重要
的发展模式。从技术上看,Push技术是一个基于Internet/Intranet网络环境的高度专业化、智能化的网络专题信息服务系统。基于Push技术的系统不仅能够了解、发现用户的兴趣(可能关心的某些主题的信息),还能够主动从网上搜寻信息,经过筛选、分类、排序后,按照每个用户的特定需求,主动推送给用户。
252. Web访问日志:Web上每一个提供信息资源的服务器上都有一个结构比较好的记录集,即万维网访问日
志(Web access log)。它记录了关于用户访问和交互的信息。
253. 数字图书馆:Digital Library,DL,含义有两层:数字图书馆和数字资源库。一般认为,数字图书馆
是采用现代高新技术的超大规模、分布的、可以跨库检索的数字信息资源系统。它的特征是,“有组织的信息馆藏及相关服务,信息以数字化形式保存,并通过网络进行访问。”“信息在计算机内得以组织并通过网络加以利用,并带有选择信息、组织信息、存储信息和发布信息的程序。”
254. 数字图书馆系统 :数字图书馆系统从逻辑结构来看主要由对象数据库、元数据库、数据加工子系统、
查询子系统、调度子系统等组成。
255. 元数据库和对象数据库:元数据库和对象数据库是数字图书馆的资源库,存储和管理数字对象的数据
体、元数据及其他信息。资源库常常分布于不同地点。
256. 数字加工子系统:数据加工子系统负责对数字信息(数字化的文本、图片、声音、影像等)进行加工
整理,并将描述数字信息的元数据(即数字对象的元数据)归入元数据库,将数字信息本身(即数字对象的数据体)归入对象数据库。
257. 查询子系统 :查询子系统负责为用户提供查询服务。用户通过网络连接到数字图书馆的查询子系统提
出查询要求,查询子系统通过元数据库和调度系统查得初步的相关信息并提供给用户,经用户确认后,再利用元数据中所包含的数据对象的句柄,通过调度子系统到对象数据库中取出用户所需的相关数字信息。
258. 调度子系统:调度系统是一个为数字图书馆资源提供分布式目录服务的计算机系统。通过调度系统可
第23页
信息组织 名词解释
以自由地存取分布在不同的资源库中的信息,实现无缝跨库检索。
259. 数字对象:一个数字对象由3个要素组成:数字对象的句柄(Handle);数字对象的元数据;数字对象
的数据体。
260. 数字对象句柄:这是数字对象的全球唯一的标志符,由能够标识数字对象的字符串组成,例如索书号、
国际标准书号(ISBN)、数字对象标识符(DOI)等都可以作为数字对象的句柄。句柄独立于信息的存储位置,是定位数字对象的依据。也就是说,无论数字对象的存储位置(如URL)如何变化,句柄是固定不变的,人们总能够通过句柄找到相应的数字对象。
261. 数字对象的元数据:元数据是关于数字对象的数据,是描述数字对象的属性的集合。为了定位数字对
象,数字对象的元数据中必须包含句柄。
262. 数字对象数据体:是数字对象内容的载体,例如一篇论文的PDF文件、一部电影的MPEG文件等。一个
数字对象可以有多个数据体副本,例如一篇论文可以有一个HTML格式的文件,同时也有一个PDF格式的文件,不同数据体的内容是相同的。
263. 数字图书馆信息的标引与整合:所谓数字图书馆信息的标引与整合,是在对其数字信息从知识的角度
予以揭示,将不同类型的数字信息重新整合、组织时所做的一系列工作的总称。数字信息的标引与整合的目的是建立起一个有序化的、可跨库、可互操作的、能够满足用户不同的信息需求的数字信息资源检索系统。
(1) 从具体的操作过程来看,标引与整合主要包括以下三个方面的内容:(1)分析内容特征;(2)
标引内容特征; (3)从知识的角度整合,建立起一个有序化的、可跨库、可互操作的、能够满足用户不同的信息需求的数字信息资源检索系统。
264. 从数字信息组织所使用的方法来看,数字信息资源标引与整合的主要可以分为两大类型:一种是分类
标引与整合;另一种是主题标引与整合。
265. 数字信息资源的分类标引与整合:就是根据分类的原理与方法对数字信息资源进行整合。分类标引与
整合的结果是信息资源根据其内容属性被归类、聚类,具有相同属性的信息资源被放在一起,并通过一定的分类体系与其他的信息资源联系起来,形成了一个结构化文档——分类导航系统。其作用主要有两个方面,一是通过归类和聚类,把原本分散在各个资源库中的多媒体信息资源按类组织,实现了信息资源的重组,并通过链接实现了不同资源库间的无缝跨库检索;二是为用户提供结构向导型浏览服务。
266. 数字信息资源的主题标引与整合:是从主题的角度对信息资源进行整合的方法。在数字图书馆中,主
题标引与整合的对象为分布在各个资源库中的所有数字信息资源,其结果是建立一个提供跨库主题检索的检索工具,从而满足用户从主题查找信息资源的需要。
267. 多维揭示原则:指对于数字信息要从多角度予以揭示,以满足用户从不同途径检索信息的需要,提高
检索效率。
268. 非线性组织原则:一般将信息组织成一个网状的结构,在这个信息网中,任何一个信息单元都有一组
与其相关联的信息点连接着。对任何一个信息单元的搜寻都可带动其他若干信息单元的搜寻。超媒体信息是这种信息组织方式的现实模式。
第24页
信息组织 名词解释
269. 知识组织原则:要以知识点作为信息的组织单元,将各种媒体的信息,如文本信息、图像、音频、视
频等信息整合成一个完整的有机整体。
270. 数字图书馆数据加工子系统:数据加工子系统负责对数字信息(数字化的文本、图片、声音、影像等)
进行加工整理,并将描述数字信息的元数据(数字对象的元数据)归入元数据库,将数字信息本身(数字对象的数据体)归入对象数据库。
271. 数字资源加工:资源加工,对所组织的素材,一般情况下,要改变原有载体的形式,用专门的设备处
理,例如:文字扫描、图片处理、音频处理、视频处理。加工成为数字型资源,使之在计算机上可以阅读与保存。
272. 元数据:元数据一般被定义为“关于数据的数据(data about data)”。在数字图书馆中,元数据被用
来描述一个信息对象的内容和位置,它的一个用途是信息检索;元数据的另一个用途是数据管理。
273. DC:DC(Dublin Core)一般翻译为“都柏林核心”,是“都柏林核心元数据元素集”(Dublin Core Metadata
Element Set,DCMES)的简称。它是由OCLC等组织于1995年联合发起、共同研究制定的一种网络资源描述规范。
(1) DC一共设立了15个元素(DCMES Element)用于描述数字信息资源。这15个元素依据其所描
述内容的类别和范围可以分为以下三种类型:
(2) 关于信息资源内容方面的元素有7个:题名(Title)、 主题 (Subject)、 描述(Description)、
来源(Source)、 语种 (Language)、 关联(Relation)、 覆盖范围(Coverage)。
(3) 关于信息资源知识产权方面的元素有4个:创建者(Creator)、 出版者(Publisher)、 其他
责任者(Contributor) 、版权管理(Rights)。
(4) 关于信息资源外形描述的元素也有4个:日期(Date)、 类型(Type)、 格式(Format) 、资源
标识(Identifier)。
274. MODS:MODS(Metadata Object Description Schema)一般翻译为“元数据对象描述模式”。这是美国
国会图书馆下属的网络发展与MARC标准机构(Library of Congress’ Network Development and MARC Standards Office)正在研制的一种采用XML模式的书目记录元素集。MODS采用XML描述书目数据,克服了现有的MARC21记录数据难以转换,无法直接汇入网络信息资源体系的缺点,并且MODS所设置的元素既能够兼容现有的MARC21记录数据,又能够创建原始的资源描述记录。
(1) MODS是一个主要为图书馆界的书目数据而制定的元素集,它是在对现行图书馆目录中最为普
遍的MARC21格式中的上百个字段、子字段进行了归类合并的基础上制定而成的。MODS元素集主要由元素(Top Level Element)、子元素(Subelements)及其相关的属性(attributes)三部分组成,其中元素是MODS的最高级别的描述项目,一共有19个;子元素是对元素的进一步描述,根据不同元素的需要设置;元素或子元素的某些特性通过属性来描述。
275. XML:XML是SGML的一个子集,是针对因特网这一应用领域而开发的标记语言。
276. RDF:RDF采用SGML(Standard Generalized Markup Language,通用标记语言标准)的子集——XML
(eXtensible Markup Language, 可扩展标记语言) 来表述,是一种人与机器都能理解的描述框架。RDF的核心定义比较简单,用文字来表述的话就是:任何一个可被标识的“资源”(resource)都可以被一些可选择的“属性”(properties)描述,每一个属性的描述都有一个值(value)。它提供了一种强有力的表述、交换与利用元数据的机制,使得各种不同元数据体系之间具有互操作性。
第25页