将输入数据矩阵X分为两堆行列维数相同数据,分别为,,用
来对模型进行预测,由NIPALS算法算出的得分向量和载荷向量,再根据式
(2-6),即可求出预测集的值分布图如下:
XXY。主元数m分别为1,3,5,8时,对应的散点
主元数(m) 1 3 5 8 15 (预测标准误差)SEP 0.0237 0.0162 0.0090 0.0076 0.0064 (复相关系数)R2 0.9525 0.9768 0.9897 0.9952 0.9970 讨论:由模型预测分布散点图和预测误差表格可知,利用建模的主成分越多,模型预测精度越高。但当主成分数和建模样本的组分数相近时,模型预测能力变差,基至不能利用其进行预测。且实验发现对样本矩阵进行均值化处理的模型预测效果没有未进行均值化处理的效果好。
4.1.3 分析不同噪声水平对预测的影响
根据Xtrain和最初设定的主元数8,以及NIPALS算法,可求得得分矩阵T和载荷矩阵P。观察不同噪声强度m下的散点分布图:
噪声强度系数m 5 10 20 50 预测标准误差(SEP) 0.0082 0.0112 0.0231 0.0577
讨论:当噪声水平较小时,PCR预测模型较精确。当噪声水平逐渐增大时,模型预测能力减弱,基至不能进行预测。
复相关系数(R2) 0.9947 0.9874 0.9605 0.6570
4.2 用线性模型进行PLS估计
依旧运用上面的数学模型,获得X,Y。将样本集分,一部分为训练集样本数为50。对训练集
预测。由2.2的PLS1算法可知,对Xtrain训练集矩阵和训练集Y值矩阵Ytrain进行计
算即可得到Xtrain对应载荷矩阵P和X与Y的相关矩阵W,再根据式(2-5)求得B1,由此可求得预测集的预测Y值,具体公式如下:
Ypredict?XpredictRB1?XpredictW(PTW)?1B1
4.2.1 在不同的主元数下分析回归误差和交叉检验误差
主元数(m) (校正标准 R2(复相关 系数) (留一法交误差)SEC 1 3 5 10 0.1038 0.0856 0.0243 0.0098 主元数分别为1,3,5,10时对应的分布散点图如下:
X???,分为维数相同的两部
,样本数为50,另一部分为预测集进行建模,用预测集
,
对模型进行
R2(复相关 系数) 叉检验误差 )SECV 0.8716 0.9428 0.9673 0.9857 0.0956 0.0714 0.0208 0.0057 0.8426 0.9025 0.9472 0.9896
4.2.2在不同主元数下对模型进行预测
将输入数据矩阵X分为两堆行列维数相同数据,分别为
,
,用
来对模型进行预测,由2.2的PLS1算法可知,对Xtrain训练集矩阵和训练集
Y值矩阵Ytrain进行计算即可得到Xtrain对应载荷矩阵P和X与Y的相关矩阵W,再根据式(2-5)求得B1,由此可求得预测集的预测Y值,具体公式如下:
Ypredict?XpredictRB1?XpredictW(PTW)?1B1
主元数分别为1,3,5,10,18,20时对应的预测散点分布图如下:
X