数据挖掘原理与实践 蒋盛益 答案(7)

2019-01-10 12:03

答: 离群点是指与大部分其它对象不同的对象,在数据的散布图中,它们远离其它数据点, 其属性值显著地偏离期望的或常见的属性值。(1) 因为离群点可能是度量或执行错误所 导致的,例如相对少的离群点可能扭曲一组值的均值和标准差,或者改变聚类算法产生 的簇的集合。(2) 因为离群点本身可能是非常重要的,隐藏着重要的信息,在欺诈检测, 入侵检测等方面有着广泛的应用。所以离群点挖掘是非常重要的。

6. 2 讨论基于如下方法的离群点检测方法潜在的时间复杂度:使用基于聚类的、基于距离 的和基于密度的方法。不需要专门技术知识,而是关注每种方法的基本计算需求,如 计算每个对象的密度的时间需求。

答:如果使用 K-means 算法,它的时间复杂度就是 ) ( n O ,一般基于邻近度和基于密度的算

法的时间复杂度都是 ) ( 2

n O ,但是对于低维数据,使用专门的数据结构,如树或者 k-d 第 26 页 共 27 页 树,可以把基于邻近度的算法的时间复杂度降低到 ) log ( n n O ,而对基于密度的算法来说, 如果使用基于网格的算法,则可以把时间复杂度降低到 ) (n O ,但这种方法不太精确而 且也是用于低维数据。

6. 3 许多用于离群点检测的统计检验方法是在这样一种环境下开发的:数百个观测就是一 个大数据集。我们考虑这种方法的局限性:

(a) 如果一个值与平均值的距离超过标准差的三倍,则检测称它为离群点。对于 1000000个值的集合,根据该检验,有离群点的可能性有多大?(假定正态分布); (b) 一种方法称离群点是具有不寻常低概率的对象。处理大型数据集时,该方法需要 调整吗?如果需要,如何调整? 答:(a)如果指的是单面的点的距离超过标准差的 3 倍,那么概率就是 0. 00135,则有 1350 个离群点;如果指的是两面的点的距离超过标准差的 3倍,那么概率就是 0. 0027, 则有 2700个离群点。

(b)具有百万个对象的数据集中,有成千上万个离群点,我们可以接受它们作为离群点 或者降低临界值用以减少离群点。

6. 4 假定正常对象被分类为离群点的概率是 0. 01,而离群点被分类为离群点概率为 0. 99, 如果 99%的对象都是正常的,那么假警告率或误报率和检测率各为多少?(使用下面的 定义)

离群点的总数

检测出的离群点个数 检测率 =

被分类为离群点的个数 假离群点的个数 假警告率 =

答: 假警告率=(99%*1%)/ (99%*1%+1%*99%)=50% 检测率=(1%*99%)/ (1%)=99%

6. 5 从包含大量不同文档的集合中选择一组文档,使得它们尽可能彼此相异。如果我们认为 相互之间不高度相关(相连接、相似)的文档是离群点,那么我们选择的所有文档可能 都被分类为离群点。一个数据集仅由离群对象组成可能吗?或者,这是误用术语吗?

答:离群点暗含的意思是稀有的、不常见的,有很多离群点的定义在一定的程度上融合了这 个概念。然而, 在一些情况下, 离群点通常不会普遍发生,举一个相关例子:网络故障,

但有一个具体的定义。这就使得它能够区分这两种情况:纯粹检测一个异常和所要处理 的对象大多数都是异常。同时,如果异常的概念是由数学或由算法定义的,这些定义可 能会导致这样的一种情况:所研究的数据集中大部分或所有的对象都被归类为异常。另 一种观点则可能认为如果不能够定义一种有意义的正常的情形,那么所有的对象都是异 常。(“独特“这一术语通常也是用于这种情况。)总的来说,这可以被看作是哲学问题 或语义问题。一个好的定义(尽管不可能是没有争议的)是能够分辨出当所收集的对象大 多数或全部都是异常这一种情况。

6. 6 考虑一个点集,其中大部分点在低密度区域,少量点在高密度区域。如果我们定义离群 点为低密度区域的点,则大部分点被划分为离群点。这是对基于密度的离群点定义的 适当使用吗?是否需要用某种方式修改该定义?

答:如果密度有一个绝对意义,比如被指定到某一定义域内,那么它可能会非常合理的考虑 第 27 页 共 27 页

把大部分的点作为异常。然而,在很多情况下,为了能够准确使用异常检测技术,通常 会考虑使用相对密度这一概念。

6. 7 一个数据分析者使用一种离群点检测算法发现了一个离群子集。出于好奇,该分析者对 这个离群子集使用离群点检测算法。

(a) 讨论本章介绍的每种离群点检测技术的行为。(如果可能,使用实际数据和算法来 做);

(b) 当用于离群点对象的集合时,你认为离群点检测算法将做何反应?

答:(a)在某些情况下,以统计学为基础的异常检测技术,在离群子集上使用这将是无效的 使用技术,因为这种检测方法的假设将不再成立。对于那些依赖于模型的方法也是 如此。以邻近点为基础或者以密度为基础的方法主要取决于特定的技术。如果保留 原来的参数,使用距离或密度的绝对阈值的方法会将异常归类为一个异常对象的集 合。其他相关方法会将大部分异常归类为普通点或者将一部分归类为异常。

(b)一个对象是否异常取决于整个对象的集合。因此,期望一种异常检测技术能够辨别 一个异常集合,就像原始集合中并不存在这样一个异常集合,这是不合理的。


数据挖掘原理与实践 蒋盛益 答案(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:计算机组成原理考试试题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: