数据迁移

2019-04-23 12:39

第一章 项目合理化建议

1.1 项目数据迁移

1.1.1 数据迁移内容

根据现有业务系统基本情况,在进行数据迁移时根据各数据类型进行分类移植。

药品注册审评数据

该类信息包含现有的业务系统主要为《药品注册省局受理系统》,《药品注册审批系统》等系统。

该类数据迁移主要内容包括药品及药包材的注册、再注册、补充注册的申请、审评过程、审评结果果等数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

临床研究数据

该类信息包含现有的业务系统主要为临床申报数据。

该类数据迁移主要内容包括药品临床研究管理中的申请、审评过程、审评结果、研究过程等数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

药品生产企业认证检查数据

该类信息包含现有的业务系统主要为《安监司生产许可证管理系统》。 该类数据迁移主要内容包括药品生产企业开办、变更、换证的申请信息、审批过程信息、审批结果信息等数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

药品经营企业认证检查数据

该类信息包含现有的业务系统主要为《药品经营企业管理系统》。 该类数据迁移主要内容包括药品经营企业开办、变更、换证的申请信息、审批过程信息、审批结果信息数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

医疗机构制剂审评数据

该类信息包含现有的业务系统主要为《医疗器械审批系统》。

该类数据迁移主要内容包括境内第三类医疗器械首次注册、再次注册、变更及境外医疗器械重新注册及变更的申请信息、审批过程信息、审批结果信息数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

企业行政审批申请数据

该类信息包含现有的业务系统主要为《国家局统一受理系统》。

该类数据迁移主要内容包括国家局统一受理事项的中的各类申请数据与形式审查数据。迁移的过程中依据新建的管理信息系统中的数据标准与规范进行迁移。

1.1.2 数据迁移方案

(1)标准代码库的创建

现有的多套系统以及新系统由于开发的时间和开发商不一样,使得应用的一些代码可能存在不同。因此在数据整合过程中“转换”的重要一个步骤是代码的转换。所以需要在整合之前先汇总各个业务部门的代码信息,然后整理成一个本系统标准的代码库。

(2)数据的抽取转储

为了便于后继步骤的进行,需要先把数据从原系统的数据库和数据文件中抽取到Oracle数据库的转储空间中。

(3)数据的清洗

数据清洗的工作就是从抽取出来的业务数据中找出问题数据,并把这些问题数据标注问题原因,转移到问题数据库中。数据的清洗在两个步骤中进行:

1、在数据整合进入新系统数据库的过程中,将错误数据过滤并转移到问题库中。这一步工作主要是对错误判断比较简单,同时错误比较严重的数据进行。

2、数据转换整合完成后,对新系统数据库进行校验,并记录到问题数据库中。这一部分功能的实现可以在数据审查章节中详细描述。

(4)数据转换

对与新系统设计不一致的数据进行转换;具包括以下内容:

1、异构数据库的转换:即把SQL Server数据库数据转换到Oracle数据库中。 2、数据格式规范化转换:对源数据中的不同数据格式转换为统一的数据格式。包括数据类型、格式等转换、以及度量单位转换。

3、代码转换:把不符合新系统代码标准的替换为标准的代码。 4、值转换:包括特殊数据项的数据替换和数据项的拆分和合并转换。 (5)数据装载

根据存储设计,把整合完成的数据按照存储划分的设计方案装载到数据库不同的存储区域中。

(6)转换流程

根据以上数据整合的内容,数据整合转换的过程如下图所示:

数据整合转换的过程图

1、数据抽取和标准代码库创建:把旧系统数据抽取到转储数据库中,同时整理各个版本系统的代码数据形成代码数据库。这一步骤执行的操作为“数据抽取”和“创建代码库” ;产生的数据是转储数据和标准代码库。

2、数据清洗:对转储的业务数据,根据定义的数据清洗规则进行清洗。产生的数据是严重问题数据。

3、数据转换:定义好数据转换的规则,对经过第一步清洗的数据,进行转换。产生的数据是经过转换的数据。

4、数据装载:把完成前面步骤的数据装载到新系统数据库中。产生的数据是经过整合的。

5、数据校验:对完成整合的新系统数据定义校验规则进行数据校验,找出第二批的问题数据。使得数据的质量进一步提高。

1.1.1 数据流程分析

1.1.1.1 数据采集流程分析

业务上需要实现通过采集数据库从源数据库中获取数据目标,能完成不同数据库类型、不同数据结构的源数据库中的数据采集。采用XML技术作为数据映射,各个源数据都要遵循采集系统发布的数据标准、格式及校验规则,采集系统通过调用规则引擎中预先存储的业务规则,对所要采集的数据集的结构、格式进行约束和验证,从而保证所采集到的数据的完整性、一致性、可用性。数据采集系统支持Oracle、sqlserver、db2、sybase、odbc2.0等主流数据库,同时也支持XML、word、txt及Excel等非结构化数据。

系统既可以主动抽取数据又能被动获取数据。主动抽取数据的采集任务会在按用户设定的步骤主动抽取业务系统(数据库或文件系统)的数据。被动获取数据是指业务系统向采集系统发送数据并触发其执行数据采集任务。

从数据获取模式上看分为以下三类模式: 1、主动获取

主动获取方式是通过数据采集服务器,定时启动数据采集任务对药品生产企业的数据进行抽取

2、被动获取

被动获取方式是药品生产企业通过浏览器方式访问数据采集服务器进行数据的填报和通过C/S客户端进行数据的报送。

3、批量数据导入

将数据源或其他源数据端收集到的离线介质存储数据,并将数据在药监局端的数据采集服务器进行批量导入。

1.1.1.2 数据处理流程分析

ETL是数据抽取、转换、装载的过程,同时提供数据质量的管理、数据转换与清洗、调度监控,并且贯穿整个方案的全过程。ETL是构建数据中心的关键环节,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数

据中心转化的过程,是实施本项目的重要步骤。如下图所示:

数据源提取清理转换装载数据库处理:调度,异常处理,质量检查,重启,恢复,释放,支持 图 一-1数据处理过程

1. 数据抽取

数据抽取是从源系统中获取数据,以便加载到数据库中。数据的抽取必须能够充分满足数据中心系统分析及决策支持的需要,同时必须保证不能影响业务系统的性能,所以进行数据抽取时必须充分考虑这些因素,制定相应的策略,包括抽取方式、抽取时机、抽取周期等内容。

1) 抽取方式:增量抽取、完全抽取等。

2) 抽取时机:尽可能避开业务系统的高峰时段,比如在夜间业务系统比较闲时。

3) 抽取周期:综合考虑业务需求和系统代价,制定合理的抽取周期,如按照小时、天、周、月、季度等。

2. 数据清洗

数据清洗的目的是选出有缺陷的数据,把他们正确化和规范化来满足信息使用者需求的数据质量。

由于数据清洗是一件增加成本的过程,提高数据质量的最终目的是希望得到干净和标准的数据来降低数据清洗和转换上的工作。

数据清洗可以在以下场合发生:

1) 源数据的清洗-目的是源系统中已有的数据结构上提高数据质量。 2) 对数据转换的数据清洗-目的是清洗、转换和提高从现有系统到目标架构中的数据质量。

3) 数据中心的数据清洗-目的是确保用于数据分析的数据的质量。(参考数据质量检测)

以下是数据清洗的流程:

1) 定义数据源-记录下所有会包含需要实体的数据源,并且标识出权威的


数据迁移.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:事业单位考试面试备考:医学格言积累(11)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: