*******大学 暑期数学建模培训
作业*
小组队员: ***********
大鲵体重与体型关系模型
摘 要:大鲵是3亿年前与恐龙同一时代生存并延续下来的珍稀物种,由于生态破坏,致使大鲵的数量急剧下降,许多地方的资源枯竭,甚至濒临灭绝,为了保护这一资源,大鲵成为农业产业化和特色农业重点开发品种。
针对问题一:我们利用Excel软件利用所给数据作出散点图,根据散点图我们得到体重与各体型的指标回归模型为乘幂回归模型。结果表明体重与全长、体长、头长和体宽存在极显著的相关关系,其幂函数关系式依次为:
y?0.0140x12.9667;y?0.0306x22.8688;y?0.7008x32.7951;y?2.5031x52。4146。其中体重
与体宽的相关性最大,其决定系数为0.9236。
针对问题二:由于大鲵体重受多个主要体型指标的影响,所以大鲵体重与主要体型有关的相应指标为多元线性回归模型,利用Matlab根据多元线性回归方程的求解,我们可以得出体重与各项主要体型指标的关系模型为:
y?-24.9411?3.3128x1-4.9048x2?3.2407x3?19.6676x5 ,通过残差分析我们发现有五个异常数据,将其剔除后,再对其进行优化后的模型为:
y??26.0578?3.2977x1?4.5569x2?2.9475x3?19.2512x5。
针对于问题三:问题三的模型为多元最优模型。我们利用Matlab最优回归方程的stepwisefit函数解决此问题。首先得到各体型指标对体重影响的相关系数,其次取相关系数绝对值最大的体型指标进行一元线性回归分析并进行回归检验;最后进行变量的追加以及回归方程的更新,从而得到最优回归方程:
y??34.4365?11.2359x4?15.7890x6?0.6982x7。
关键字:Excel,乘幂回归分析,Matlab,多元线性回归分析 stepwisefit
大鲵体重与体型关系模型
一、问题重述
大鲵是3亿年前与恐龙同一时代生存并延续下来的珍稀物种,被称为“活化石”,是世界上现存最大、最珍贵的两栖动物。它的叫声很像幼儿哭声,因此又称“娃娃鱼”。中国是大鲵的原产国,上世纪七十年代大量出口换汇,加之生态环境破坏,致使娃娃鱼的数量急剧下降,许多地方的资源枯竭,甚至濒临灭绝。为了保护这一资源,中国已于1988年将娃娃鱼列入国家二级重点保护野生动物。大鲵是农业产业化和特色农业重点开发品种,是野生动物基因保护品种。
大鲵的生长除受外界环境及其生长条件影响外,与其体型各指标也密切相关,查找相关资料,根据题目附件给定的数据,通过数学建模,我们需要解决如下问题:
(1)直接影响大鲵体重的主要指标;
(2)建立体重与主要体型指标之间的关系模型; (3)寻找体重与其它指标之间的最优关系。
二、模型假设与符号说明
2.1 模型假设
1. 假设在统计过程中大鲵没有死亡或者生病情况;
2. 假设在统计过程中外界环境没有发生改变,即大鲵的生长在此问题中与外界环境无关;
3. 假设大鲵的体重只与所列体型指标有关。 2.2 符号说明 y:大鲵体重;
xi:(i?1,2,3,4,5,6,7)分别表示全长、体长、头长、体高、体宽、 尾柄长、肠长;
r:残差;
R2:相关系数; b:回归系数;
bint:回归系数区间估计; rint:置信区间; alpha:显著水平;
P:回归系数的显著性;
inmodel:回归方程中地位的显著性; ALLp:显著性程度
三、问题分析
3.1问题(1)
首先根据Excel表格作出体重与各项体型指标的散点图,利用散点图进行回归分析,找出最优回归方法,求出决定系数;其次根据决定系数关系找出直接影响大
1
鲵体重的主要指标。
3.2问题(2)的分析
由于大鲵体重受多个主要体型指标的影响,因此我们可以对大鲵体重与主要体型指标进行多元线性回归求解,首先确定回归系数的点估计值,其次求回归系数的点估计和区间估计、并检验回归模型,最后根据模型的检验对模型进行优化。
3.3问题(3)的分析
根据问题(3)可知,我们需要解决大鲵体重与除主要体型指标的最优关系,我们利用Matlab最优回归方程的stepwisefit函数解决此问题,首先计算出各体型指标对体重影响的相关系数;其次取相关系数绝对值最大的体型指标进行一元线性回归分析并进行回归检验;最后进行变量的追加以及回归方程的更新,从而得到最优回归方程。
四、模型建立与求解
4.1问题(1)的模型建立与求解
1.利用Excel求得体重与体型各项指标的散点图,根据散点图趋势利用“右击散点图——添加趋势线——设置”步骤得到体重与各项体型指标的方程与R2,根据决定系数选择直接影响大鲵体重的指标。
2.体型各项指标对体重的决定系数表: 表一: 各项指全长 体长 头长 体高 标 0.9039 0.8845 0.8854 0.6429 R2 体宽 0.9236 尾柄长 0.6720 肠长 0.3876 根据0?R2?0.4为弱相关,0.4?R2?0.7为显著相关,0.7?R2?1为极显著相关,利用上表得出直接影响大鲵体重的主要指标为全长,体长,头长与体宽。
4.2问题(2)的模型建立与求解
建立体重与体型指标之间的关系模型,考虑到这是在研究一个因变量与多个自变量之间的关系,可以通过建立多元线性回归分析模型来求解。
4.2.1 多元线性回归分析模型准备:
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。
在实际经济问题中,一个变量往往受到多个变量的影响。例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响,表现在线性回归模型中的解释变量有多个。这样的模型被称为多元线性回归模型。(multivariable linear regression model ) 多元线性回归模型的一般形式为:
Yi??0??1X1i??2X2i??????kXki??i ,i?1,2,3,???,n (1)其中k为解释变量的数目,?j(j?1,2,?k)称为回归系数(regression coefficient)。上式也被称为总体回归函数的随机表达式。它的非随机表达式为:
Yi??0??1X1i??2X2i??????kXki,i?1,2,3,???,n (2)
2
?j也被称为偏回归系数(partial regression coefficient)。
4.2.2 多元线性回归计算模型
Y??0??1X1??2X2??????kXk??,?~(0,?2) (3)多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方
和(?e)为最小的前提下,用最小二乘法或最大似然估计法求解参数。
设 (x11,x12,?,x1p,y1),?,(xn1,xn2,?,xnp,yn) 是一个样本,用最大似然估计法估计参数:
取b?0,b?1,...,b?p,当b0?b?0,b1?b?1,...,bp?b?p时, n2Q??(yi?b0?b1Xi1?b2Xi2?????bpXip)达到最小
i?1?Qn?b??2?(yi?b0?b1xi1?????bpxip)?0; 0i?1?Qn?b??2?(yi?b0?b1xi1?????bpxip)xij?0 ji?1(4)化简可得:
nnnnb0n?b1?xi1?b2?xi2?????bp?xip??1i?1i?1?yi
ii?1nn2nnnb0?xi1?b1?xi1?b2?xi1xi2?????bp?xi1xip??xi1yi
i?1i?1i?1i?1i?1 . . .
nnnb0?xip?b1?xipxi1?b2?xipxi2?????bp?nnx2ip??1i?1i?1?xipyi
i?1ii?1
引入矩阵:
??1x11x12...x1p??1x...x???y1??b0?21x222p??y??2??b?1?X???........??.??.???........?,Y???,B???
??.??.??1xn1xn2...x??.??.?np???yn????bp??
3
4) ( 5)
(