量a,使得aTxn?bn?0。最小平方误差准则通过使
Js?a????axTn?1Nn?bn?2
最小而求出向量a。上式一般用最小二乘法求解。
5.近邻法原理
近邻法是一种经典的模式识别方法。正如其名所示,近邻法在分类时运用如下“最近邻分类规则”对测试样本x进行分类:在x的周围找出离其最近的k个近邻样本,该k个样本中最频繁出现的那一类样本所对应的类别就是x所属的类别。以图1-1为例,图中存在两类样本,第一类记为c1并用黑点表示,第二类记为c2并用方框表示。现欲用NN判决x是属于c1类还是c2类。假设取k?5,则可找出x的5个近邻样本并用圆圈围住,圆圈中有3个样本属于c1类(目标值tn?1,n?1,2,3),2个样本属于c2类(目标值tn??1,n?4,5),那么x根据规则应属于c1类。
?x1,t1?1??x2,t2?1??x5,t5??1??x,t????x4,t4??1??x3,t3?1? 图1-1 近邻法的分类原理示意图
6.特征提取
特征提取是模式识别中的关键一环。因为原始的特征数量可能很大,或者说样本处于一个高维空间中,因此可以通过映射或变换的办法在低维空间中来表示样本,这个过程就是特征提取。常见的特征提取方法有主成分分析(PCA)与主曲线等。更详细的内容可参见教材第8章。
五、实验步骤
1.安装模式识别工具箱。首先将工具箱文件拷贝至指定文件夹里,然后在
6
MATLAB环境下将该文件夹设置成“current directory”(即当前文件夹);最后在MATLAB命令行状态下,键入Classifier并按回车键;则可得到如图1-2所示主界面。在该主界面上,可以装入样本文件(见界面“Filename”处),可以选择特征提取方式(见界面“preprocessing”处),可以选择不同的模式识别方法(见界面“algorithms”处),识别结果(识别错误率)显示在界面“classification errors”处。
图1-2 模式识别工具箱主界面
2.用最小错误率贝叶斯决策器对呈正态分布的两类样本分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择双螺旋样本文件XOR.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“None”,最后点击界面上的“Start”按钮,得到如图1-3所示的分类结果。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并如实记录界面“classification errors”处显示的分类错误率。
7
图1-3 最小错误率贝叶斯决策器的分类结果
3.用感知准则对两类可分样本进行分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择可分样本文件Seperable.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“Perceptron”,在界面“Num of iteration”处填入数字“300”,最后点击界面上的“Start”按钮,得到如图1-4所示的分类结果。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并如实记录界面“classification errors”处显示的分类错误率。
图1-4用感知准则对两类可分样本分类后的结果
8
现在界面“Num of iteration”处重新填入数字“10000”,然后点击界面上的“Start”按钮,可得到新的分类结果。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并如实记录界面“classification errors”处显示的分类错误率。最后比较不同迭代次数情形下分类效果的异同。
4.用最小平方误差准则对两类样本进行分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择可分样本文件Clouds.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“LS”,最后点击界面上的“Start”按钮,得到如图1-5所示的分类结果,其中黑线为最小平方误差准则的分类结果,红线为贝叶斯决策器的分类结果。将这两种分类结果的比较(分类效果好坏,能否将样本完全分开等)记录下来,并使用屏幕拷贝方式将分类结果保存于WORD文档里,最后如实记录界面“classification errors”处显示的分类错误率。
图1-5用最小平方误差准则对两类可分样本分类后的结果
5.用近邻法对双螺旋样本进行分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择双螺旋样本文件Spiral.mat;然后在界面“preprocessing”处下拉式菜单中选择“None”,在界面“Algorithm”处下拉式菜单中选择“Nearest Neighbor”,在界面“Num of nearest neighbor”处填入数字“3”,最后点击界面上的“Start”按钮,得到如图1-6所示的分类结果。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并记录界面“classification errors”处显示的分类错误率。
9
图1-6 近邻法对双螺旋样本分类后的结果
在界面“Num of nearest neighbor”处重新填入数字“12”,然后点击界面上的“Start”按钮,可得到新的分类结果。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并如实记录界面“classification errors”处显示的分类错误率。最后比较“k=3”与“k=12”两种情形下分类效果的异同。
6.特征提取方法对分类效果的影响。用感知准则对两类可分样本进行分类。首先点击界面“Filename”处的下拉式菜单,在文件列表中选择可分样本文件XOR.mat;然后在界面“preprocessing”处下拉式菜单中选择“PCA”,在界面“New data dimension”处填入数字2,在界面“Algorithm”处下拉式菜单中选择“Nearest Neighbor”,在界面“Num of nearest neighbor”处填入数字“3”,最后点击界面上的“Start”按钮,得到如图1-7(a)所示的分类结果。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并如实记录界面“classification errors”处显示的分类错误率。
现在界面“New data dimension”处重新填入数字1,其它条件不变,然后点击界面上的“Start”按钮,可得到新的分类结果如图1-7(b)所示。使用屏幕拷贝方式将该分类结果保存于WORD文档里,并如实记录界面“classification errors”处显示的分类错误率。最后比较提取的特征数目不同的情形下分类效果(即图1-7(a)(b)两个图)的异同。
10