标准差=方差的平方根=开根号( 1/n[∑(Xi)-1/n(∑Xi)])=开根号 1/18[2970.44]=12.85. 脂肪百分比均值=28.78, 中位数=30.7, 标准差= 8.99. (b)绘制年龄和脂肪百分比的盒图
22
(c)根据这两个属性,绘制散布图,各q-q图
q-q图 散布图 (d)根据z-score 规范化来规范化这两个属性(P46)
(e)计算相关系数(皮尔逊积矩系数). 这两个变量是正相关还是负相关?
ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82
相关系数是0.82。变量呈正相关。
2.10 如下规范化方法的值域是什么?
答:
(a) min-max 规范化。
值域是[new_min, new_max]。 (b) z-score 规范化。
值域是[(old_min-mean)/σ,(old_max-mean)/σ],总的来说,对于所有可能的数据集的值域是(-∞,+∞)。 (c) 小数定标规范化。
值域是(-1.0,1.0)。
3.3 (P97)假定数据仓库包含三维:time,doctor和patient;和两个度量:count和charge;其中,charge是医生对病人一次诊治的收费。
(a)列举三种流行的数据仓库建模模式
答:三类模式一般用于建模数据仓库架构的星形模型,雪花模型和事实星座模型。 (b)使用(a)列举的模式之一,画出上面的数据仓库的模式图
数据仓库的星形模型
(C)由基本方体[day,doctor,patient]开始,为列出2004年每位医生的收费总数,应当执行哪些OLAP操作?沿课程(course)维从course_id“上卷”到department。 ? 沿时间(time)维从 day “上卷”到 year。 ? 取 time=2004,对维 time作“切片” 操作
? 沿病人(patient)维从 个别病人 “上卷”到 全部病人。
(d)为得到同样结果,写一个SQL查询。假定数据存放在关系数据库中,其模式为
fee(day,month,year,doctor,hospital,patient,count,charge)。
答:SQL查询语句如下: select doctor, SUM(charge) from fee
where year=2004 group by doctor
3.5(P98) 假定数据仓库包含4维:date, spectator, location, 和game,和两个度量:count和charge;其中,charge是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老年人,每类观众有不同的收费标准。
(a)画出该数据仓库的星形模式图。 答: 星形模式图如下:
b. 由基本方体[date,spectator,location,game]开始,为列出2004年学生观众在GM_Place的总付费,应执行的OLAP操作:
? 沿时间(date)维从date_id “上卷”到 year。 ? 沿时间(game)维从 game_id “上卷”到全部。
? 沿时间(location)维从location_id “上卷”到 location_name 。 ? 沿时间(spectator)维从spectator_id “上卷”到 status 。
? 以 status=\, location name=\ and year=2004 作转轴操作
3.6 数据仓库可以用星形模式或雪花模式建模。简略讨论这两种模式的相似点和不同点,然后分析它们的相对做优、缺点。哪种模式更实用,给出你观点并陈述你的理由。
答:星形模式或雪花模式的相似点是它们包含一个事实表和一些维表。它们主要的不同在于,雪花模式的维表可能是规范化形式,以便减少了冗余,这种表易于维护并节省存储空间。然而,与巨大的事实表相比,这种空间的节省可以忽略。此外,由于执行查询需要更多的连接操作,雪花形结构可能降低浏览的性能,这样,系统的性能可能相对的受到影响。星型模式的优点是简单、这使得它更有效,但它需要更多的空间。因此,只要空间的要求不是太大时,星形模式比雪花模式更好,因为通常效率比空间具有更高的优先级。在工业上,有时可能将数据从一个雪花模式非规范化为星型模式以加快处理速度,另一种选择是保持雪花模式的维表,然后相同数据的当前用户折叠为星形。
4.4 假定基本方体有三维A,B,C,其单元数如下:|A|=1000000,|B|=100,|C|=1000.假定每维均等地分块成10部分。
(a)假定每维只有一层,画出完整的立方体的格。 答:完整的立方体的格如下图
(b)如果每个立方体单元存放一个4字节的度量,若立方体是稠密的,所计算的立方体有多大?
答:所计算的立方体大小如下: all:1
A: 1,000,000; B: 100; C: 1, 000; 小计: 1,001,100
AB: 1,000,000*100=100,000,000; BC: 100*1,000=100,000; AC: 1,000,000*1,000=1,000,000,000;
小计: 1,100,100,000
ABC: 1,000,000*100*1,000=100,000,000,000
总和: 1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 * 4 = 404,404,404,404 字节
(C)指出空间需求量最小的立方体中的块计算次序,并计算2-D平面计算所需要的内存空间总量。 答:顺序计算,需要最少数量的空间B-C-A.如图所示:
计算二维平面需要的总主内存空间是:
总空间 = (100×1,000) + (1,000,000 × 10) + (100 × 10,000) = 20,100,000 单元* 4字节/单元= 80,400,000 字节 4.12考虑下面的多特征立方体查询:按{item, region, month}的所有子集分组,对每组找出2004年的最小货架寿命,并对价格低于100美元,最小货架寿命在1.25~1.5之间的元组找出总销售额部分。 (a)画出该查询的多特征立方体图。P126
R0 R1(>= 1.25 * min(shelf) and <= 1.5 * min(shelf)) (b)用扩充的SQL表示查询
select item, region, month, MIN(shelf), SUM(R1) from Purchases where year = 2004
cube by item, region, month: R1
such that (R1.Shelf >= 1.25*MIN(Shelf) and R1.Shelf <= 1.5*MIN(Shelf)) and R1.Price < 100 (c)这是一个分布式多特征立方体吗?为什么?
答:不,这不是一个分布式的多特征立方体。因为在such that子句中含有<=的条件。 5.1.Apriori算法使用子集支持性质的先验知识。 (a) 证明频繁项集的所有非空的子集也必须是频繁的。
答:设s是一个频繁项集,min_sup 是最小支持度阀值,任务相关的数据D是数据库事务的集合,|D|是D 有事务量,则有Support_count(s) = min_sup×|D|;
再设s’是s的非空子集,则任何包含项集s的事务将同样包含项集s’ , 即:
support_ count(s') support count(s) = min_sup ×|D|.
所以,s’也是一个频繁项集。
(b) 证明项集s的任意非空子集s’的支持至少和s的支持度一样大。
答:设任务相关的数据D是数据库事务的集合,|D|是D 的事务量,由定义得:
设s’是s的非空子集,由定义得: 由(a)可知:support(s’) support(s)
由此证明,项集s的任意非空子集s’的支持至少和s的支持度一样大。
(c)给定频繁项集 l 和 l 的子集 s ,证明规则
的置信度不可能大于
答:设 s 是 l 的子集, 则
设s’是s的非空子集,则
由(b)可知:support_count(s') support count(s),
此外,confidence(s’) 所以,规则
(l-s’)) confidence(s) (l- s)) 。
的置信度不可能大于
5.3设数据库有5个事务。设min_sup =60%, min_conf=80%
(a)分别使用Apriori和FP增长算法找出所有频繁项集。比较两种挖掘过程的效率。