数据挖掘 - 概念与技术(第三版)部分习题答案汇总 - 图文(2)

2019-08-03 12:32

第 3 章 数据仓库与 OLAP 技术概述

每个区间的宽度是:(215-5)/3=70

bin1 5,10,11,13,15,35,50,55,72 bin1 bin1 (c) 聚类。

我们可以使用一种简单的聚类技术:用 2 个最大的间隙将数据分成 3 个箱。

91 204,215

bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1

3.11 使用习题 2.4 给出的 age 数据, (a) 画出一个等宽为 10 的等宽直方图;

(b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽样。使用大小为 5 的样本和层“青年”“中年”和“老年”,。

解答:(a) 画出一个等宽为 10 的等宽直方图;

204,215

8 7 6 5 4

3 2 1 0

15 25 35 45 55 65 (b) 为如下每种抽样技术勾画例子:SRSWOR,SRSWR ,聚类抽样,分层 抽5 的样本和层“青年”样。使用大小为 “中年”和“老年”,。

元组:

T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 30 T 24 45 T 7 20 T 16 33 T 25 46 T 8 21 T 17 33 T 26 52

第 3 章 数据仓库与 OLAP 技术概述 T 9 22 T 18 35 T 27 70 SRSWOR 和 SRSWR:不是同次的随机抽样结果可以不同,但前者因无放回 所以不能有相同的元组。

SRSWOR (n=5) SRSWR (n=5) T 4 T 6 T 10 T11 T 26

16 20 22 25 52 T 7 T 7 T 20 T 21 T 25 20 20 35 35 46 聚类抽样:设起始聚类共有 6 类,可抽其中的 m 类。 Sample1 T 1 T 2 T 3 T 4 T 5 13 15 16 16 19 Sample2 T6 T7 T8 T9 T 10 20 20 21 22 22 Sample3 T 11 T 12 T 13 T 14 T 15 25 25 25 25 30 Sample4 T 16 T 17 T 18 T 19 T 20 33 33 35 35 35 Sample5 T 21 T 22 T 23 T 24 T 25 35 36 40 45 46 Sample6 T 26 T 27 52 70

Sample2

Sample5 T21 T22 T23 T24 T25 35 36 40 45 46 T 19 35 middle age T 20 35 middle age T 21 35 middle age T 22 36 middle age T 23 40 middle age T 6 T 7 T 8 T 9 T 10

20 20 21 22 22 T1 13 young T 10 22 T2 15 young T 11 25 T3 16 young T 12 25 T4 16 young T 13 25 T5 19 young T 14 25 young young young young young T6 20 young T 15 30 middle age T 24 45 middle age T7 20 young T 16 33 middle age T 25 46 middle age T8 21 young T 17 33 middle age T 26 52 middle age T9 22 young T 18 35 middle age T 27 70

senior

T4 16 T 12 25 young young

第 3 章 数据仓库与 OLAP 技术概述 T 17 33 middle age T 25 46 middle age T 27 70 Senio r

4.3 假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。

(a)列举三种流行的数据仓库建模模式

答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。 (b)使用(a)列举的模式之一,画出上面的数据仓库的模式图

数据仓库的星形模型

(C)由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作?沿课程(course)维从course_id“上卷”到department。 ? 沿时间(time)维从 day “上卷”到 year。 ? 取 time=2004,对维 time作“切片” 操作

? 沿病人(patient)维从 个别病人 “上卷”到 全部病人。

(d)为得到同样结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为

fee(day,month,year,doctor,hospital,patient,count,charge)。

答:SQL查询语句如下:

select doctor, SUM(charge) from fee

where year=2004 group by doctor

4.4 假定 BigUniversity 的数据仓库包含如下 4 个维:student(student_name,

area_id , major, status, university) , course(course_name, department) , semester(semester, year) 和 instructor(dept, rank);2 个度量:count 和 avg_grade。 在最低概念层, 度量 avg_grade 存放学生的实际 课程成绩。在较高概念层, avg_grade 存放给定组合的平均成绩。

(a) 为该数据仓库画出雪花形模式图。

(b) 由 基 本 方 体 [student, course, semester, instructor] 开 始 , 为 列

出 BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊 的 OLAP 操作。

第 3 章 数据仓库与 OLAP 技术概述

(c) 如果每维有 5 层(包括 all),如“studenta) 为该数据仓库画出雪花形模式图。雪花模式如图所示。

b) 由 基 本 方 体 [student, course, semester, instructor] 开 始 , 为 列 出 BigUniversity 每个学生的 CS 课程的平均成绩,应当使用哪些特殊的 OLAP 操作。

这些特殊的联机分析处理(OLAP )操作有:

i. ii. iii. iv.

沿课程(course)维从 course_id “上卷”到 department。 沿学生(student)维从 student_id “上卷”到 university 。 取 department= “CS ”和 university= “Big University ”,沿课程 (course)维和学生(student)维切片。

沿学生(student)维从 university 下钻到 student_name。

c) 如果每维有 5 层(包括 all),如“student这个立方体将包含 54=625 个方体。

4.5 假定数据仓库包含4维:date, spectator, location, 和game,和两个度量:count和charge;其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。

(a)画出该数据仓库的星形模式图。 答: 星形模式图如下:

b. 由基本方体[date,spectator,location,game]开始,为列出2004年学生观众在GM_Place的总付费,应执行的OLAP操作:

? 沿时间(date)维从date_id “上卷”到 year。 ? 沿时间(game)维从 game_id “上卷”到全部。

? 沿时间(location)维从location_id “上卷”到 location_name 。 ? 沿时间(spectator)维从spectator_id “上卷”到 status 。

? 以 status=\, location name=\ and year=2004 作转轴操作

4.6 数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。

答:星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这样,系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效,但它需要更多的空间。因此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的维表,然后相同数据的当前用户折叠为星形。


数据挖掘 - 概念与技术(第三版)部分习题答案汇总 - 图文(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:定西市安定区实习报告

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: