,,,令随机噪声e服
。输出矩阵
从[0,1]上均匀随机分布,噪声强度系数m=10,Y=X*b+m*e。将随机矩阵
样本数为50;另一部分为预测集
进行建模,用预测集
当K分别取1,100,10000,1000000时散点分布图如下:
岭回归K 1 100 10000 1000000 XxxxX?X?b?,Y分成两部分,一部分为训练集
,
,样本数为50。对训练集对模型进行预测。
(校正标准 R2(复相关 系数) (留一法交叉R2(复相关 系数) 误差)SEC 检验误差 )SECV 0.5611 -37.8523 0.7634 0.9980 0.9987 0.0547 0.0208 0.0063 0.0042 0.7913 0.8246 0.9856 0.9945 0.0532 0.0051 0.0049 讨论:上述岭回归图形和表格可以看出,当K取越大时,岭回归的回归精度越高。实验过程中发现K取越大越好。
3.1 对岭回归模型进行预测
用
点分布图如下:
岭回归因子K 1 100 10000 1000000
讨论:由上述岭回归预测图形和表格可以看出,当K越大时,岭回归预测模型精度越好。
发现的问题:岭回归得出的回归系数矩阵B与模型给定的系数b之间的误差较大。
3.2 随机噪声对岭回归回归模型的影响
对岭回归进行回归噪声影响分析时,先设定岭回归因子K=10000,调节噪声强度系数m的值,观察m分别取5,10,20,50时回归分布图:
X? (预测标准误差)SEP 0.7388 (复相关系数)R2 -53.5189 0.0965 0.9970 0.9982 0.1081 0.0058 0.0051 数据对模型进行预测,当K分别取1,100,10000,1000000时散
讨论:由上图可以看出,噪声强度系数m取较小时,模型回归精确度比较好。当噪声强度系数m越大时,岭回归的回归精度越差。
3.3 随机噪声对岭回归模型预测的影响
对岭回归模型进行预测分析,令岭回归因子K=10000,调节噪声强度系数m的值,观察m分别取5,10,20,50时回归分布图:
噪声强度系数(m) (预测标准误差)SEP 5 10 20 50 0.0067 0.0115 0.0283 0.0706 (复相关系数)R2 0.9951 0.9907 0.9479 0.5745
讨论:由分布散点图和误差分析表格,可以看出,当噪声强度系数m取值较小时,岭回归预测精度较高,但当m取值越来越大时,岭回归预测精度变差。
四.模型估计以及误差分析
4.1 线性模型进行PCA分析
同样运用岭回归的数据,得到样本集训练集对训练集
,并将样本集分为两部分,一部分为
,样本数为50。
对模型进行预测。根据Xtrain,样本数为50;另一部分为预测集进行建模,用预测集
和最初设定的主元数,以及NIPALS算法,可求得得分矩阵T和载荷矩阵P。
4.1.1 在不同主元下回归误差以及交叉检验误差
计算该模型的回归误差和留一法交叉检验误差,并绘制对应散点图。 主元数(m) (校正标准 误差)SEC R2(复相关 系数) (留一法交叉检验误差 )SECV 1 3 5 8 0.0985 0.0767 0.0501 0.009 0.8467 0.9235 0.9952 0.9966 0.0876 0.0755 0.0449 0.0083 0.8049 0.9150 0.9908 0.9942 R2(复相关 系数) 当主元数分别为1、3、5和8时,模型回归对应的散点图如下:
4.1.2 对PCR模型进行预测