类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类(元搜索)等.
二十七、常用的聚类算法有哪些(至少写出4 种)?
基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法 等。 二十八、常用的相似度(距离)计算公式有哪几个?
二十九、说明K-means 聚类的基本思想。
答:P137 第一段倒数第四行开始
三十、为了研究5 省1991 年城镇居民生活消费情况的分布规律,根据调查资料做类型分类,用最短距离做类间分类。数据如下:
补充思考和练习题
1、数据仓库是面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持经营管理中决策制定过程。
2、元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据仓库的核心。
3、数据立方体是在所有可能组合的维上进行分组聚集运算的总和。 4、数据质量是数据仓库的成败关键。
5、数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。
6、预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。
7、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。 8、数据仓库的概念模型通常采用信息包图法来进行设计。 9、分类器设计阶段包含划分数据集、分类器构造、分类器测试。
10、雪花模型是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 11、数据处理通常分成两大类:联机事务处理和联机分析处理(英文缩写)。 12、数据抽取的两个常见类型是静态抽取和增量抽取。 13、维度表一般由主键、分类层次和描述属性组成。
14、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
15、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储、数据管理和数据表现等到。 16、数据集市
数据集市是指具有特定应用的数据仓库主针对某个具有应用战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要竞争优势或者找到进入市场的具体解决方案。 17、切片
选定多维数组的一个二维子集的操作叫作切片。 18、数据仓库有哪些特点?
从数据仓库的定义可以看出数据仓库具有如下特点: (1) 数据仓库是面向主题的 主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。(2) 数据仓库是集成的 数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。(3) 数据仓库是稳定的 数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。 (4) 数据仓库是随时间变化的 数据仓库内的数据时限在5~10 年,故数据的键码包含时间项,标明数据的历史时期, 这适合决策分析时进行时间趋势分析。 (5) 数据仓库中的数据量很大 通常的数据仓库的数据量为10GB 级,相当于
一般数据库(约100MB)的100 倍,大型 数据仓库是1TB(1000GB)级数据量。 (6) 数据仓库软硬件要求较高 需要一个巨大的硬件平台和一个并行的数据库系统。
19、ETL 过程的主要步骤可以概括为哪几方面?
答:过程:决定数据仓库中需要的所有的目标数据;决定所有的数据源,报考内部和外部的数据源;准备从元数据到目标数据的数据映射关系;建立全面的数据抽取规则;决定数据转换和清洗规则;为综合表制定计划;组织数据缓冲区域和检测工具;为所有的数据装载编写规程;维度表的抽取、转换和装载;事实表的抽取、转换和装载。
20、数据挖掘和在线分析处理的联系和区别是什么?同OLTP和OLAP 21、什么是Apriori 算法?
Apriori 算法的中心思想是首先通过对事务数据库进行扫描,找出支持度不小于最小支持度的所有项目,即频繁1-项集。然后循环执行以下三步: (1) 对频繁K-项集中的项进行连接,前提条件是前K-1 项必须相同。 (2) 进行减枝,利用Apriori 物质对连接后项目集进行筛选,删除那些子集不是频繁集的项目集,得出候选(K+1)-项集。
(3) 对数据库进行扫描,计算候选项的支持度,从候选集中删除支持度小于最小扶持度的候选项,进而得出频度(K+1)-项集。依此类推,直到不能找到频繁项集为止,也即频繁K-项集为空。 22、流行的关系数据库系统。Oracle
23、谈谈你对数据挖掘的认识和理解?(什么是数据挖掘、如何进行数据挖掘、常用方法和手段、各种方法的优缺点)
24、多维分析是指以“维”形式组织起来的数据采取切片、切块、钻取和旋等到各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的信息。
25、连续型属性的数据样本之间的距离有欧氏距离、曼哈距离和明考斯基距离。 26、层次聚类方法
答:层次聚类就是通过对数据集按照某种方法进行层次分解,直到满足某种条件为止。按照分类原理不同,可以分为凝聚和分裂两种方法。 27、数据仓库的数据获取需要经过过程包括抽取、转换、装载 28、聚类方法包括统计分析方法、机器学习方法、神经网络方法。 30、常见的聚类算法可以分为哪几类?
答:基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法等。 32、ID3 算法主要存在的缺点?
答:1、存在偏向问题,各特征属性的取值个数会影响互信息量的大小。 2、特征属性间的相关性强调不够,是单变元算法。
3、对噪声较为敏感,训练数据的轻微错误会导致结果的不同。 4、结果随训练集记录个数的改变而不同,不便于进行渐进学习。 33、利用信息包图设计数据仓库概念模型需要确定哪几个方面的内容? 答:确定指标,确定维度,确定类别。 34、什么是技术元数据,主要包含的内容?
技术元数据是描述关于数据仓库技术细节的数据,应用于开发、管理和维护。DW 包含:
(1)、结构的描述,如DW 的模式、视图、维、层次结构和导出数据的定义,数据集市的位置和内容等;
(2)、业务系统、DW 和数据集市的体系结构和模式;
(3)、汇总算法。包括度量和定义算法、数据粒度、主题领域、聚合、汇总和预定义的查询和报告。
(4)、由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、数据分割、数据提取、清洗、转换规则和数据刷新及安全(用户授权和存取控制)。
39、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4 种类型:两层架构、独立型数据集合、依赖型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
40、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 42、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
43、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL 过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
44、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
46、使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
47、维度表一般又主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。
48、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。 49、数据仓库中存在不同综合级别的数据。一般把数据分成4 个级别:早期细节级、当前细节级、轻度综合级和高度综合级。
50、数据仓库的概念模型通常采用信息包图法来进行设计,要求将其5 个组成部分(包括名称、维度、类别、层次和度量)全面地描述出来。