分布式数据库系统
姓名:张定国 学号:s20130415
第一章 分布式数据库系统概述
第一章包含五个部分内容,分别是引言及准备知识、分布库系统的基本概、分布库系统的作用和特点、分布式数据库系统介绍、关键技术。
引言及准备知识:
分布数据库管理系统兴起于70年代中期,推动其发展来自两方面:一方面是应用需求,另一方面是硬件环境的发展。这些应用都涉及地理上分布的团体、组织的局部业务管理和系统全局管理,采用成熟的集中式数据库管理系统已无法实现应用需求。在硬件环境上提供了功能强大的计算机和成熟的广域范围公用数据网及局域范围局域网的硬件环境支持。
分布式数据库系统是地理上分散而逻辑上集中的数据库系统。即通过计算机网络将地理上分散的各局域结点连接起来共同组成一个逻辑上统一的大数据库系统。因此可以说:分布式数据库系统是计算机网络技术和数据库技术的结合的产物。分布式数据库系统与集中数据库系统一样,包含两个重要部分:分布式数据库和分布式数据库管理系统。
分布库系统的基本概:
数据库----从用户使用数据库的角度出发,可定义如下:数据库是长期存储在计算机内、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述、存储,具有较小的冗余度、较高的数据独立性和易于扩展性,并可为各种用户共享。
数据库设计----对一个给定的应用环境(现实世界)设计最优的数据模型,然后,按模型建立数据库。
数据库管理系统----人们用于管理和操作数据库的软件产品。为有效地管理和操作数据库,研制出数据库管理系统(Database Management System),使用户不必涉及数据的结构描述及实际存储,方便、最优地操作数据库。数据库管理系统可描述为用户接口、查询处理、查询优化、存储管理四个基本模块和事务管理、并发控制、恢复管理三个辅助模块组成。
模式----现实世界的信息抽象到数据库存储的数据是一个逐步抽象的过程。美国国家标准协会(ANSI)和标准需求计划委员会(SPARC)根据数据的抽象级别定义了三层模式参考模型。
关系模型----数据库数据模型的三种模型(层次数据模型、网状数据模型和关系数据模型)之一。关系是二维表,关系也称表。表中的一行称关系的一个元组,表中的一列称关系的一个属性。
关系代数----关系是一个集合,关系的元组是集合的元素。关系代数包括5个集合运算和3个特殊关系运算。
SQL----是一种非过程性语言。提供了数据定义(建立数据库和表结构)、数据操纵(输入、修改、删除和更新、数据查询)、数据控制等数据库操作命令,较好地满足数据库语言的要求。由于国际标准化组织指定了SQL标准,具有可移植性, SQL又提供了灵活而强大的查询功能方便复杂的查询操作,使SQL为广大用户所采用。
节点/场地----分布式数据库系统是地理上分散而逻辑上集中的数据库系统。管理分布式数据库的软件称分布式数据库管理系统。分布式系统通常是由计算机网络将各地理上分散的逻辑单位连接起来。被连接的逻辑单位称为节点(node)或场地(site)。节点/场地可是单独一台计算机也可是局域网组成。
集中数据库系统----所有数据驻留在同一场地上。我们称传统的数据库系统为集中式数据库系统(DB)。
分布式数据库----分布在一个计算机网络上的多个逻辑相关的数据库的集合。也就是说,分布式数据库是一组结构化的数据集合,逻辑上属于同一系统,物理上分布在计算机网络的各个不同节点上。
分布式数据库系统介绍
20世纪80年代以来,这一时期商品化的产品如下: Sybase SQL Server。SYSBASE1987年推出的。
Informix-Online. INFORMIX 公司20世纪90年代推出。 C-POREL.1990年由中国科学院数学所等单位开发集成的。
分布库系统的作用和特点:
作用:分布式数据库系统是地理上(或物理上)分散而逻辑上集中的数据库系统。适合于分散型组织结构的任何信息系统。如:航空公司订票系统、陆、海、空军事指挥系统、CIMS制造业、银行通存通兑系统和连锁配送系统等等。
以上每一系统都涉及分散在不同地理位置上数据的一致性、完整性及有效性,是集中式数据库无法满足的。在此推动下,研制出分布式数据库系统,有效地适应了地理上分散的、网络环境下的、逻辑上统一的分布式系统的需求。
特点:分布式数据库系统是在集中式数据库和计算机网络技术基础上发展起来的,同时提出了许多新观点、新方法和实现的新技术,有效地提高了分布系统的性能。因此,分布式数据库系统具有许多集中库系统所不具备的优点。但由于分布库系统复杂,有些技术的实现还不完善,如:恢复开销庞大,导致系统效率严重下降;难于达到完全透明等。
优点: 提高系统性能,如:吞吐率和响应速度提高。可利用现有设备和系统,降低投资。系统允许存储副本,提高可靠性、可用性和并行执行度。根据实际需要,可增加或减少某一场地。系统具有可扩展性。系统资源和数据分布在物理上不同场地上,为系统所有用户共享。
缺点:经验不足,系统不很完善。 系统复杂。 维护开销大。 需分布控制。 安全问题。 系统难以改变。
关键技术:
分布式数据库设计中需要考虑下面几个问题:如何合理分布数据于各个场地上,如何设定复制型和非复制型数据,如何实现目录管理。
查询处理:事务到数据操作命令的转换问题,以最小代价(访问时间)执行查询策略的优化问题。
并发控制:对多个用户并发访问的同步问题;事务的一致性和隔离性问题;解决和预防死锁问题。
可靠性:系统故障恢复问题;事务的原子性和耐久性实现问题。 安全性与完整性方面,要解决:用户授权和认证问题;访问权限控制问题;数据完整性约束问题。
第二章 分布式数据库系统的结构
体系结构框架是用于规范系统体系结构设计的指南。要建立一个分布式数据库系统,首先要考虑系统的体系机构。系统的体系结构用于定义系统的结构,包括组成系统的组件,定义各组件的功能及组件之间的内部联系和彼此间的作用。本章包含的主要内容有:物理结构和逻辑结构、体系结构、系统结构、模式结构、功能结构、数据集成系统、MDBS体系结构、P2PDBS、分布式数据库系统分类、字典信息的组织。
物理结构和逻辑结构:
系统结构:
系统的体系结构( Architecture):按组件、组件功能以及它们的交互作用定义系统的结构(Structure)。
参考体系结构的目的:讨论的框架、标准。
DBMS 标准化:基于功能、基于组件、基于数据、 最早的是基于数据组织ANSI/SPARC Architecture(external view, conceptual view, internal view, )的三级模式结构。
组件结构:
应用处理器(AP)功能:
用户接口:检查用户身份,接受用户命令,如:SQL命令。