51、数据仓库的逻辑模型通常采用星型图法来进行设计,要求将星型的各类逻辑实体完整地描述出来。
52、按照事实表中度量的可加性情况,可以把事实表对应的事实分为4 种类型:事务事实、快照事实、线性项目事实和事件事实。
53、数据仓库的数据量通常较大,且数据一般很少更新,可以通过设计和优化索引结构来提高数据存取性能。
54、关联规则的经典算法包括Apriori 算法和FP-growth 算法,其中FP-grownth 算法的效率更高。
55、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则 连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}} 再经过修剪,C3={{a,b,c},{a,b,d}} 56、设定supmin=50%,交易集如 则 L1={A},{B},{C} L2={A,C} T1 A B C T2 A C T3 A D T4 B E F
57、分类的过程包括获取数据、预处理、分类器设计和分类决策。
58、分类器设计阶段包含三个过程:划分数据集、分类器构造和分类器测试。 59、聚类分析包括连续型、二值离散型、多值离散型和混合类型4 种类型描述属性的相似度计算方法。
60、层次聚类方法包括凝聚型和分解型两中层次聚类方法。 61、数据挖掘技术对聚类分析的要求有哪几个方面?
可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性 62、数据仓库在存储和管理方面的特点与关键技术?
数据仓库面对的是大量数据的存储与管理并行处理针对决策支持查询的优化支持多维分析的查询模式
62、常见的聚类算法可以分为几类?
基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于模型的聚类算法 等。 63、数据仓库发展演变的5 个阶段? 以报表为主 以分析为主 以预测模型为主
以运行向导为主以实时数据仓库、自动决策应用为主 64、ID3 算法主要存在的缺点?
(1)ID3 算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。
(2)ID3 算法只能对描述属性为离散型属性的数据集构造决策树。 65、简述数据仓库ETL 软件的主要功能和对产生数据的目标要求。P30 ETL 软件的主要功能:
数据的抽取,数据的转换,数据的加载 对产生数据的目标要求:
详细的、历史的、规范化的、可理解的、即时的、质量可控制的 66、简述分类器设计阶段包含的3 个过程。 划分数据集,分类器构造,分类器测试 67、什么是数据清洗?
数据清洗是一种使用模式识别和其他技术,在将原始数据转换和移到数据仓库之前来升级原始数据质量的技术。
68、利用信息包图设计数据仓库概念模型需要确定的三方面内容。
确定指标,确定维度,确定类别
69、K-近邻分类方法的操作步骤(包括算法的输入和输出)。
71、业务元数据主要包含的内容?
业务元数据:从业务角度描述了DW 中的数据,提供了介于使用者和实际系统之间的语义层,主要包括:
", 使用者的业务属于所表达的数据模型、对象名和属性名 ", 访问数据的原则和数据的来源
", 系统提供的分析方法及公式和报表的信息。
72、K-means 算法的基本操作步骤(包括算法的输入和输出)。
73、数据从集结区加载到数据仓库中的主要方法? ", SQL 命令(如Insert 或Update)
", 由 DW 供应商或第三方提供专门的加载工具 由 DW 管理员编写自定义程序 74、多维数据模型中的基本概念:维,维类别,维属性,粒度
??:人们观察数据的特定角度,是考虑问题的一类属性,如时间维或产品维 ??类别:也称维分层。即同一维度还可以存在细节程度不同的各个类别属性 (如时间维包括年、季度、月等)
??属性:是维的一个取值,是数据线在某维中位置的描述。
??度:DW 中数据综合程度高低的一个衡量。粒度低,细节程度高,回答查 询的种类多