《商业数据挖掘》实验一
一、实验目的
在SQL Server2005/2008上构建数据仓库
二、实验内容及步骤
1. 每个学生按自己的学号创建一个空的数据库。
2. 将“浙江经济普查数据”目录下的11个城市的生产总值构成表导入该数据库。要求表
中列的名称为EXCEL表中抬头的名称,表的名称分别为对应的excel文件名。
3. 检查导入表的列名和对应的数据类型是否正确,如不符合,需手工修改。要求如下: 字段名称 指标 总产出 增加值 劳动者报酬 生产净税额 固定资产折旧 营业盈余 4. 创建一个城市表,表的结构如下: 字段名称 城市ID 城市名称 数据类型 整型,主键 字符 数据类型 字符 带两位小数的数值型 带两位小数的数值型 带两位小数的数值型 带两位小数的数值型 带两位小数的数值型 带两位小数的数值型 往城市表中输入前面导入的11个城市名称和城市ID(注意不能重复),
5. 仔细阅读excel表格,分析产业结构的层次,找出产业、行业大类、行业中类的关系。
有些行业的指标值为几个子行业的累加。比如:第一产业→农林牧渔业 第二产业→工业→采矿业、制造业、电力、燃气及水的生产和供应业 6. 创建一个行业门类表,表的结构如下: 字段名称 行业中类ID 行业中类 行业大类 产业名称 数据类型 整型,主键 字符 字符 字符 7. 将excel表中分析出的产业、行业大类和行业中类输入到“行业门类表中”,其中行业中类ID可按顺序编写。
8. 创建一个新表汇总11个城市的生产总值,表的名称为“按城市和行业分组的生产总值
表”。表中的列名和第二步导入表的列名相同,同时添加一个新列(放在第一列),列名为“城市ID”,数据类型为整型;再添加一个新列(放在第二列),列名为“行业中类ID”,数据类型为整型。
9. 将11个城市的生产总值构成表导入到第6步创建的新表中,注意不同的城市,要用不
同的城市ID代入,行业中类ID可暂时为空值。 10. 将行业门类表中的行业中类ID值输入至表“按城市和行业分组的生产总值表”中的“行
业中类ID”列上。 11. 检查3个表:“按城市和行业分组的生产总值表”、“城市表”、“行业门类表”中主键和
外键是否一致(可通过关联查询检查)。
12. 删除“按城市和行业分组的生产总值表”中除了行业中类纪录以外的其他高层次的记录,
如指标为“第一产业”的行等等(如果不删除,将在汇总中出错)。
13. 删除“按城市和行业分组的生产总值表”中原有的“指标”列(由于这列在行业门类表
中已存在,因此是冗余的)。
14. 建立以下查询,和原EXCEL文件中的数据对比
a) 查询杭州市第二产业工业大类下各行业中类的总产出、增加值、劳动者报酬、营业盈
余
b) 分别查询11个城市的第二产业总产出汇总值 c) 分别查询11个城市的工业劳动者报酬汇总值 d) 分别查询11个城市的第三产业增加值
15. (选作)使用SSIS创建一个包,来完成第9步和第10步的过程,执行包,检查数据是否一致。
三、实验报告
上交创建好的数据库文件(学号.mdf和学号_log.ldf)和实验报告,所有的结果以截图形式放在实验报告中,对每张截图都必须做简要说明。