数学建模培训2012-MATLAB统计(6)

2019-01-12 12:43

% 对轿车的五个变量抽取两个因子进行因子分析 clc,clear;

load carbig % 将轿车数据调入内存

% 以下将内存中五个变量定义为数据数组X

X = [Acceleration Displacement Horsepower MPG Weight]; X = X(all(~isnan(X),2),:); % 将数组中所有非数元素样本去掉 % 下执行因子分析命令，提取两个因子。L为计算出的载荷矩阵。 [L,Psi,T,stats,F] = factoran(X,2,'rotate','none'); [L1,Psi1,T1,stats1,F1] = factoran(X,2);

[L2,Psi2,T2,stats2,F2] = factoran(X,2,'rotate', 'promax'); L L1 L3

十一、聚类分析

点点距离的计算命令pdist Y = pdist(X)

Y = pdist(X,'metric') Y = pdist(X,distfun)

Y = pdist(X,'minkowski',p) 这里：

X：为数据矩阵

metric：各种距离方法

‘euclidean’：欧几里得距离Euclidean distance (default) ‘seuclidean’：标准欧几里得距离. ‘mahalanobis’：马氏 distance ‘cityblock’：绝对值距离

‘minkowski’：明可夫斯基距离

‘cosine’：cosine角度距离（对变量聚类） ‘correlation’：相关系数距离.（对变量聚类）

‘hamming’：Hamming 距离（符号变量求距离） ‘jaccard’： Jaccard 系数距离（符号变量求距离） ‘chebychev’：切比雪夫距离

类类距离的计算命令linkage，基本语法为； Z = linkage(Y)

Z = linkage(Y,'method') 这里：

Y：为pdist输出的结果，即点点的距离矩阵。 ‘method’：为计算类类间距离的方法。它们有： ‘single': 最短距离法 (系统内定) ‘complete’：最长距离法。 ‘average’：平均距离法。

‘weighted’：加权平均距离法。 ‘centroid’：中心距离法。 ‘median’：加权重心法。聚类命令cluster，语法为： T = cluster(Z,'cutoff',c) T = cluster(Z,'maxclust',n) 这里：

Z：为linkage输出的层次数据。

‘cutoff’：按某个值进行切割，值c取（0，1）之间的值。 ‘maxclust’：按最大聚类数聚类，n为指定的聚类数。作聚类图命令dendrogram，其语法为： H = dendrogram(Z) H = dendrogram(Z,p) [H,T] = dendrogram(...)

[H,T,perm] = dendrogram(...)

[...] = dendrogram(...,'colorthreshold',t) [...] = dendrogram(...,'orientation','orient') [...] = dendrogram(...,'labels', S) 这里：

Z：为linkage输出的层次数据。

p：原始结点个数的设置，p=0显示全部点。系统内定显示30个点。 ‘colorthreshold’：颜色设置，其值t>0。

‘orientation’：聚类图的位置，内定是从上到下。可选值为： ‘top‘ ：从上到下 (default) ‘bottom’：从下到上 ‘left’：从左到右 ‘right’：从右到左 ‘labels’：标号

举例： clc,clear

X=[1 2 5 7 9 10];

Y = pdist(X‘,’cityblock‘); % 计算每点的距离

Z = linkage(Y); % 计算类与类之间的距离 Z1=linkage(Y,'complete')

T = cluster(Z,‘maxclust’,4); % 聚类

subplot(1,2,1)，dendrogram(Z,'orientation','right'); subplot(1,2,2)，dendrogram(Z1,'orientation','right'); group1=find(T==1)' % 将第一类的指标放入group1 group2=find(T==2)' % 将第二类的指标放入group2 group3=find(T==3)' % 将第三类的指标放入group3 group4=find(T==4)' % 将第四类的指标放入group4

什么是统计？

统计是指对某一现象有关的数据进行搜集、整理、计算和分析等一系列活动。在实际应用中，常有以下三种涵义：统计工作、统计资料和统计学

统计工作(statistical work): 对统计资料的搜集、整理、分析和提供数量资料的工作总称。

统计资料或数据(statistical data)：是统计工作的成果，用来反映总体现象的数据资料的总称。

统计学(statistics): 搜集、整理和分析统计数据资料的理论与方法的科学

什么是统计学？

搜集、整理和分析统计数据资料的理论与方法的科学 1. 数据收集：取得数据

2. 数据分析：分析数据 3. 数据表述：图表展示数据 4. 数据解释：结果的说明目的：探索数据内在的数量规律性

统计工作、统计资料和统计学三者的关系

第一，统计工作与统计资料是统计活动过程与活动成果的关系。第二，统计工作与统计学是统计实践与统计理论的关系。第三，统计工作是先于统计学而发展起来的。

什么是数理统计学？

研究怎样有效地收集、整理和分析带有随机性的数据，以对所考察的问题作出推断或预测，直至为采取一定的决策和行动提供依据和建议

如何研究？总体

（研究对象的全体集合，在统计中，往往是用随机变量来刻画）

从变量的个数看：一维，多维，无穷维

从数据的类型看：分类数据（名义数据，顺序数据），连续数据（区间数据，比率数据）。连续数据的离散化可得顺序数据样本：

相当于做试验，获得证据。

数据（或样本）的获取：抽样调查，试验设计，记录观测数据

从数据中提取信息：统计量

常用统计量：中心位置（均值，众数，中位数，分数数等）

离散程度（方差，标准差，极差，四分位极差，变异系数）分布形状（偏度系数，峰度系数）

充分统计量：不损失有效信息的统计量（考虑方差达到最小的完备充分统计量）

衡量统计量的标准：无偏性，渐近无偏性，相合性，均方误差（包含了方差及偏差）利用均方差进行比较：大样本下的相对效与C-R 下界比较的有效估计

统计推断：

找到描述总体的真实分布或对某些问题的解答，包括统计量的分布，参数估计（点估计，区间估计），假设检验，统计决策等。

统计量的分布：相当于随机变量函数的分布情况（和，差，积，商或任意函数变换），大样本下的中心极限定理。

参数估计：点估计与区间估计

点估计：用样本值的某个函数值（即统计量的值）作为参数值的估计。

点估计的方法有：矩估计法，极大似然估计法，最小二乘估计法，贝叶斯估计法区间估计：以一定的置信水平保证参数落入某随机区间的一种估计，此法考虑到统计量的随机性。因而较为常用。

区间估计的方法有：枢轴量法，大样本法，假设检验法，自助法（bootstrap法）

假设检验：用统计方法检验某种想法（或问题）是否正确的一种统计手段。原假设与备择假设：地位是不对等的

检验：在样本空间里考虑，如何切割样本空间，一部分支持原假设，一部分支持备择假设（接受域，拒绝域）

两类错误显著性水平

检验统计量（在原假设成立的小概率事件原理

统计决策：通过引入损失函数对统计推断结果的优劣进行评价的一种方法，从而确定采用哪种行动。

统计决策的三要素：可控参数统计结构（参数统计模型），行动空间（有哪些行动可采用），损失函数（参数空间与行动空间上二元函数，一个原则，平方损失，线性损失，0-1损失等）

统计建模过程：

step1:理论建模（问题的形成及建模）

这部分事实上与数据无关，主要是用统计、概率、数学语言去描述问题，然后形成统计模型去表达该问题（主要考虑到随机性）。

注意事项：

一定要弄清楚问题的背景，避免遗漏重要因素或包含不重要因子；理解解决问题的目标；确信客户要达到的目标；用统计语言描述问题。

step2:收集数据（抽样调查，试验设计，观测数据）注意事项：

数据是观测到的，还是实验得到的？如何收集有代表性的数据？

有没有没回答的问题（抽样调查中常出现不愿回答的情况）有没有缺失值

分类数据还是连续数据数据是如何编码的？

数据测量的单位（量纲）注意有没有异常数据

step3:统计建模（确定总体的概率分布，常常包括：非参数成分，参数成分，随机成分。重点是考虑确定性部分与协变量的关系，即系统误差部分）

step4:数据分析（图形法（直观但不精确）：统计图形；数值法（精确但不直观）：回归分析，贝叶斯分析，变量的选择…,等等；常常结合使用） step5:推断或统计决策

对整个统计建模过程的注记：

1. 若可能，可用多种统计方法进行计算 2. 不同模型的假设与结果可以轻稍的差别 3. 数据分析本质上是交互的

4. 结论应是多种模型下的一致结果（多种模型支持相同的结果）

5. 重要的因子应出现在不同的模型中（重要的因子一定在模型中出现） 6. 定性结论与定量结论

统计建模过程的例子：

问题：一家物流公司，在全国各地均有很多站点，如何得知这些站点间的距离?(站点很多，一个一个去测很费时，有没有办法知道各站点间的距离？)

考虑站点间的距离与直线距离间的关系，设y表示站点间的实际距离，x表示站点间的直线距离。如何获得二者间的关系？

x,y间有什么潜在要满足的关系吗?

i)x?0?y?0

ii)若两站点间本身就是直线关系，则有x?y，否则y?x

iii)一般来说，y应随x的增加而增加，但由于路况的不同，即使有相同的x，也有可能y值是不同的。

iv)期望x,y成比例增加，即x扩大一倍，y也应该扩大一倍

理论建模：考虑如下模型：

1.y?x （满足i,iv,但不满足ii,iii)

2.y?x??,?为随机项。（不满足ii） 3.y???x??(ii满足了，但i不满足)

4.y??x??，??1为常数，可满足所以要求。注意：以上建模过程并不需要任何数据---即理论建模数据的收集：

1）已有的数据：考虑数据是观测的，还是通过实验设计获得的？ 2）若是要设计获取数据：a)若有很多站点，如何选择一个小范围的站点（抽样问

题）。 B)若连接两站点的路线有多条，重复是需要的。C)测量y值的人如何分配？（随机化，区组化）

x y 9.5 10.7 5 6.5 23 29.4 15.2 17.2 11.4 18.4 11.8 19.7 12.1 16.6 22 29 28.2 40.5 12.1 14.2 9.8 11.7 19 25.6 14.6 16.3 8.3 9.5 21.6 28.8 26.5 31.2 4.8 6.5 21.7 25.7 18 26.5 28 33.1

统计模型：用数据得出的模型（经验模型）

1）根据数据，可建立什么统计模型？（图形法，数值法） 2）统计模型与概念模型一致吗？

作业：

已知数据为 x y 9.5 10.7 5 6.5 23 29.4 15.2 17.2 11.4 18.4 11.8 19.7 12.1 16.6 22 29 28.2 40.5 12.1 14.2 9.8 11.7 19 25.6 14.6 16.3 8.3 9.5 21.6 28.8 26.5 31.2 4.8 6.5 21.7 25.7 18 26.5 28 33.1 利用MATLAB中的函数，对上述数据分别用以下几种方式建立模型：（线性，纯二次，交叉，完全二次）

由下列4个模型中选择1个（用字符串输入，缺省时为线性模型）： linear（线性）：y??0??1x1????mxm nj?1purequadratic（纯二次）：y??0??1x1????mxm???jjxj interaction（交叉）：y??0??1x1????mxm??1?j?k?m2?jkxjxk quadratic（完全二次）：y??0??1x1????mxm? ?1?j,k?m?jkxjxk

共7页:

数学建模培训2012-MATLAB统计(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档