% 对轿车的五个变量抽取两个因子进行因子分析 clc,clear;
load carbig % 将轿车数据调入内存
% 以下将内存中五个变量定义为数据数组X
X = [Acceleration Displacement Horsepower MPG Weight]; X = X(all(~isnan(X),2),:); % 将数组中所有非数元素样本去掉 % 下执行因子分析命令,提取两个因子。L为计算出的载荷矩阵。 [L,Psi,T,stats,F] = factoran(X,2,'rotate','none'); [L1,Psi1,T1,stats1,F1] = factoran(X,2);
[L2,Psi2,T2,stats2,F2] = factoran(X,2,'rotate', 'promax'); L L1 L3
十一、聚类分析
点点距离的计算命令pdist Y = pdist(X)
Y = pdist(X,'metric') Y = pdist(X,distfun)
Y = pdist(X,'minkowski',p) 这里:
X:为数据矩阵
metric:各种距离方法
‘euclidean’:欧几里得距离Euclidean distance (default) ‘seuclidean’:标准欧几里得距离. ‘mahalanobis’:马氏 distance ‘cityblock’:绝对值距离
‘minkowski’:明可夫斯基距离
‘cosine’:cosine角度距离(对变量聚类) ‘correlation’:相关系数距离.(对变量聚类)
‘hamming’:Hamming 距离(符号变量求距离) ‘jaccard’: Jaccard 系数距离(符号变量求距离) ‘chebychev’:切比雪夫距离
类类距离的计算命令linkage,基本语法为; Z = linkage(Y)
Z = linkage(Y,'method') 这里:
Y:为pdist输出的结果,即点点的距离矩阵。 ‘method’:为计算类类间距离的方法。它们有: ‘single': 最短距离法 (系统内定) ‘complete’:最长距离法。 ‘average’:平均距离法。
‘weighted’:加权平均距离法。 ‘centroid’:中心距离法。 ‘median’:加权重心法。 聚类命令cluster,语法为: T = cluster(Z,'cutoff',c) T = cluster(Z,'maxclust',n) 这里:
Z:为linkage输出的层次数据。
‘cutoff’:按某个值进行切割,值c取(0,1)之间的值。 ‘maxclust’:按最大聚类数聚类,n为指定的聚类数。 作聚类图命令dendrogram,其语法为: H = dendrogram(Z) H = dendrogram(Z,p) [H,T] = dendrogram(...)
[H,T,perm] = dendrogram(...)
[...] = dendrogram(...,'colorthreshold',t) [...] = dendrogram(...,'orientation','orient') [...] = dendrogram(...,'labels', S) 这里:
Z:为linkage输出的层次数据。
p:原始结点个数的设置,p=0显示全部点。系统内定显示30个点。 ‘colorthreshold’:颜色设置,其值t>0。
‘orientation’:聚类图的位置,内定是从上到下。可选值为: ‘top‘ : 从上到下 (default) ‘bottom’:从下到上 ‘left’:从左到右 ‘right’:从右到左 ‘labels’:标号
举例: clc,clear
X=[1 2 5 7 9 10];
Y = pdist(X‘,’cityblock‘); % 计算每点的距离
Z = linkage(Y); % 计算类与类之间的距离 Z1=linkage(Y,'complete')
T = cluster(Z,‘maxclust’,4); % 聚类
subplot(1,2,1),dendrogram(Z,'orientation','right'); subplot(1,2,2),dendrogram(Z1,'orientation','right'); group1=find(T==1)' % 将第一类的指标放入group1 group2=find(T==2)' % 将第二类的指标放入group2 group3=find(T==3)' % 将第三类的指标放入group3 group4=find(T==4)' % 将第四类的指标放入group4
什么是统计?
统计是指对某一现象有关的数据进行搜集、整理、计算和分析等一系列活动。 在实际应用中,常有以下三种涵义: 统计工作、统计资料和统计学
统计工作(statistical work): 对统计资料的 搜集、整理、分析和提供数量资料的工作总称。
统计资料或数据(statistical data):是统计工作的成果,用来反映总体现象的数据资料的总称。
统计学(statistics): 搜集、整理和分析统计数据资料的理论与方法的科学
什么是统计学?
搜集、整理和分析统计数据资料的理论与方法的科学 1. 数据收集:取得数据
2. 数据分析:分析数据 3. 数据表述:图表展示数据 4. 数据解释:结果的说明 目的:探索数据内在的数量规律性
统计工作、统计资料和统计学三者的关系
第一,统计工作与统计资料是统计活动过程与活动成果的关系。 第二,统计工作与统计学是统计实践与统计理论的关系。 第三,统计工作是先于统计学而发展起来的。
什么是数理统计学?
研究怎样有效地收集、整理和分析带有随机性的数据,以对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议
如何研究? 总体
(研究对象的全体集合,在统计中,往往是用随机变量来刻画)
从变量的个数看: 一维,多维,无穷维
从数据的类型看:分类数据(名义数据,顺序数据),连续数据(区间数据,比率数据)。连续数据的离散化可得顺序数据 样本:
相当于做试验,获得证据。
数据(或样本)的获取:抽样调查,试验设计,记录观测数据
从数据中提取信息:统计量
常用统计量:中心位置(均值,众数,中位数,分数数等)
离散程度(方差,标准差,极差,四分位极差,变异系数) 分布形状(偏度系数,峰度系数)
充分统计量:不损失有效信息的统计量(考虑方差达到最小的完备充分统计量)
衡量统计量的标准:无偏性,渐近无偏性,相合性,均方误差(包含了方差及偏差) 利用均方差进行比较:大样本下的相对效 与C-R 下界比较的有效估计
统计推断:
找到描述总体的真实分布或对某些问题的解答,包括统计量的分布,参数估计(点估计,区间估计),假设检验,统计决策等。
统计量的分布:相当于随机变量函数的分布情况(和,差,积,商或任意函数变换),大样本下的中心极限定理。
参数估计:点估计与区间估计
点估计:用样本值的某个函数值(即统计量的值)作为参数值的估计。
点估计的方法有:矩估计法,极大似然估计法,最小二乘估计法,贝叶斯估计法 区间估计:以一定的置信水平保证参数落入某随机区间的一种估计,此法考虑到统计量的随机性。因而较为常用。
区间估计的方法有:枢轴量法,大样本法,假设检验法,自助法(bootstrap法)
假设检验:用统计方法检验某种想法(或问题)是否正确的一种统计手段。 原假设与备择假设:地位是不对等的
检验:在样本空间里考虑,如何切割样本空间,一部分支持原假设,一部分支持备择假设(接受域,拒绝域)
两类错误 显著性水平
检验统计量(在原假设成立的 小概率事件原理
统计决策:通过引入损失函数对统计推断结果的优劣进行评价的一种方法,从而确定采用哪种行动。
统计决策的三要素:可控参数统计结构(参数统计模型),行动空间(有哪些行动可采用),损失函数(参数空间与行动空间上二元函数,一个原则,平方损失,线性损失,0-1损失等)
统计建模过程:
step1:理论建模(问题的形成及建模)
这部分事实上与数据无关,主要是用统计、概率、数学语言去描述问题,然后形成统计模型去表达该问题(主要考虑到随机性)。
注意事项:
一定要弄清楚问题的背景,避免遗漏重要因素或包含不重要因子; 理解解决问题的目标; 确信客户要达到的目标; 用统计语言描述问题。
step2:收集数据(抽样调查,试验设计,观测数据) 注意事项:
数据是观测到的,还是实验得到的? 如何收集有代表性的数据?
有没有没回答的问题(抽样调查中常出现不愿回答的情况) 有没有缺失值
分类数据还是连续数据 数据是如何编码的?
数据测量的单位(量纲) 注意有没有异常数据
step3:统计建模(确定总体的概率分布,常常包括:非参数成分,参数成分,随机成分。重点是考虑确定性部分与协变量的关系,即系统误差部分)
step4:数据分析(图形法(直观但不精确):统计图形;数值法(精确但不直观):回归分析,贝叶斯分析,变量的选择…,等等;常常结合使用) step5:推断或统计决策
对整个统计建模过程的注记:
1. 若可能,可用多种统计方法进行计算 2. 不同模型的假设与结果可以轻稍的差别 3. 数据分析本质上是交互的
4. 结论应是多种模型下的一致结果(多种模型支持相同的结果)
5. 重要的因子应出现在不同的模型中(重要的因子一定在模型中出现) 6. 定性结论与定量结论
统计建模过程的例子:
问题: 一家物流公司,在全国各地均有很多站点,如何得知这些站点间的距离?(站点很多,一个一个去测很费时,有没有办法知道各站点间的距离?)
考虑站点间的距离与直线距离间的关系,设y表示站点间的实际距离,x表示站点间的直线距离。如何获得二者间的关系?
x,y间有什么潜在要满足的关系吗?
i)x?0?y?0
ii)若两站点间本身就是直线关系,则有x?y,否则y?x
iii)一般来说,y应随x的增加而增加,但由于路况的不同,即使有相同的x,也有可能y值是不同的。
iv)期望x,y成比例增加,即x扩大一倍,y也应该扩大一倍
理论建模:考虑如下模型:
1.y?x (满足i,iv,但不满足ii,iii)
2.y?x??,?为随机项。(不满足ii) 3.y???x??(ii满足了,但i不满足)
4.y??x??,??1为常数,可满足所以要求。 注意:以上建模过程并不需要任何数据---即理论建模 数据的收集:
1) 已有的数据:考虑数据是观测的,还是通过实验设计获得的? 2) 若是要设计获取数据:a)若有很多站点,如何选择一个小范围的站点(抽样问
题)。 B)若连接两站点的路线有多条,重复是需要的。C)测量y值的人如何分配?(随机化,区组化)
x y 9.5 10.7 5 6.5 23 29.4 15.2 17.2 11.4 18.4 11.8 19.7 12.1 16.6 22 29 28.2 40.5 12.1 14.2 9.8 11.7 19 25.6 14.6 16.3 8.3 9.5 21.6 28.8 26.5 31.2 4.8 6.5 21.7 25.7 18 26.5 28 33.1
统计模型:用数据得出的模型(经验模型)
1) 根据数据,可建立什么统计模型?(图形法,数值法) 2) 统计模型与概念模型一致吗?
作业:
已知数据为 x y 9.5 10.7 5 6.5 23 29.4 15.2 17.2 11.4 18.4 11.8 19.7 12.1 16.6 22 29 28.2 40.5 12.1 14.2 9.8 11.7 19 25.6 14.6 16.3 8.3 9.5 21.6 28.8 26.5 31.2 4.8 6.5 21.7 25.7 18 26.5 28 33.1 利用MATLAB中的函数,对上述数据分别用以下几种方式建立模型:(线性,纯二次,交叉,完全二次)
由下列4个模型中选择1个(用字符串输入,缺省时为线性模型): linear(线性):y??0??1x1????mxm nj?1purequadratic(纯二次):y??0??1x1????mxm???jjxj interaction(交叉):y??0??1x1????mxm??1?j?k?m2?jkxjxk quadratic(完全二次):y??0??1x1????mxm? ?1?j,k?m?jkxjxk