现代机器学习基于深度学习的图像特征提取(4)

2018-12-25 22:29

些小图片patch进行学习（比如说sparse autoencoder），此时的隐含节点为k个。因此最终学习到的特征数为：

虽然按照convolution的方法可以减小不少需要训练的网络参数，比如说96*96，,100个隐含层的，采用8*8patch，也100个隐含层，则其需要训练的参数个数减小到了10^3，大大的减小特征提取过程的困难。但是此时同样出现了一个问题，即它的输出向量的维数变得很大，本来完全连接的网络输出只有100维的，现在的网络输出为89*89*100=792100维，大大的变大了，这对后面的分类器的设计同样带来了困难，所以pooling方法就出现了。

为什么pooling的方法可以工作呢？首先在前面的使用convolution时是利用了图像的平稳性特征，即不同部位的图像的统计特征是相同的，那么在使用convolution对图片中的某个局部部位计算时，得到的一个向量应该是对这个图像局部的一个特征，既然图像有平稳性特征，那么对这个得到的特征向量进行统计计算的话，所有的图像局部块应该也都能得到相似的结果。对convolution得到的结果进行统计计算过程就叫做pooling，由此可见pooling也是有效的。常见的pooling方法有max pooling和average pooling等。并且学习到的特征具有旋转不变性。

从上面的介绍可以简单的知道，convolution是为了解决前面无监督特征提取学习计算复杂度的问题，而pooling方法是为了后面有监督特征分类器学习的，也是为了减小需要训练的系统参数（当然这是在普遍例子中的理解，也就是说我们采用无监督的方法提取目标的特征，而采用有监督的方法来训练分类器）。

本次实验是练习convolution和pooling的使用，更深一层的理解怎样对大的图片采用convolution得到每个特征的输出结果，然后采用pooling方法对这些结果进行计算，使之具有平移不变等特性。

首先来看看整个训练和测试过程的大概流程：在训练阶段，是对小的patches进行whitening的。由于输入的数据是大的图片，所以每次进行convolution时都需要进行whitening和网络的权值计算，这样每一个学习到的隐含层节点的特征对每一张图片都可以得到一张稍小的特征图片，接着对这张特征图片进行均值pooling。有了这些特征值以及标注值，就可以用softmax来训练多分类器了。

在测试阶段是对大图片采取convolution的，每次convolution的图像块也同样需要用训练时的whitening参数进行预处理，分别经过convolution和pooling提取特征，这和前面的训练过程一样。然后用训练好的softmax分类器就可进行预测了。

训练特征提取的网络参数用的时间比较多，而训练比如说softmax分类器则用的时间比较短。

在matlab中当有n维数组时，一般是从右向左进行剥皮计算，因为matlab输出都是按照这种方法进行的。当然了，如果要理解的话，从左向右和从右向左都是可以的，只要是方便理解就行。

程序中进行convolution测试的理由是：先用cnnConvolve函数计算出所给样本的convolution值，然后随机选取多个patch，用直接代数运算的方法得出网络的输出值，如果对于所有(比如说这里选的1000个)的patch，这两者之间的差都非常小的话，说明convution计算是正确的。

程序中进行pooling测试的理由是：采用函数cnnPool来计算，而该函数的参数为polling的维数以及需要pooling的数据。因此程序中先随便给一组数据，然后用手动的方法计算出均值pooling的结果，最后用cnnPool函数也计算出一个结果，如果两者的结果相同，则说明pooling函数是正确的。

程序中颜色特征的学习体现在：每次只对RGB中的一个通道进行convolution，分别计算3次，然后把三个通道得到的convolution结果矩阵对应元素相加即可。这样的话，后面的Pooling操作只需在一个图像上进行即可。

由于只需训练4个类别的softmax分类器，所以其速度非常快，1分钟都不到。训练出来的特征图像为：

最终的预测准确度为：Accuracy: 80.406% 3.4构建deep network网络

练习2个隐含层的网络的训练方法，每个网络层都是用的sparse autoencoder思想，利用两个隐含层的网络来提取出输入数据的特征。本次实验验要完成的任务是对MINST进行手写数字识别，当提取出手写数字图片的特征后，就用softmax进行对其进行分类。

进行deep network的训练方法大致如下：

1. 用原始输入数据作为输入，训练出（利用sparse autoencoder方法）第一个隐含层结构的网络参数，并将用训练好的参数算出第1个隐含层的输出。

2. 把步骤1的输出作为第2个网络的输入，用同样的方法训练第2个隐含层网络的参数。

3. 用步骤2 的输出作为多分类器softmax的输入，然后利用原始数据的标签来训练出softmax分类器的网络参数。

4. 计算2个隐含层加softmax分类器整个网络一起的损失函数，以及整个网络对每个参数的偏导函数值。

5. 用步骤1，2和3的网络参数作为整个深度网络（2个隐含层,1个softmax输出层）参数初始化的值，然后用lbfs算法迭代求出上面损失函数最小值附近处的参数值，并作为整个网络最后的最优参数值。

上面的训练过程是针对使用softmax分类器进行的，而softmax分类器的损失函数等是有公式进行计算的。所以在进行参数校正时，可以对把所有网络看做是一个整体，然后计算整个网络的损失函数和其偏导，这样的话当我们有了标注好了的数据后，就可以用前面训练好了的参数作为初始参数，然后用优化算法求得整个网络的参数了。

关于深度网络的学习几个需要注意的小点（假设隐含层为2层）：

利用sparse autoencoder进行预训练时，需要依次计算出每个隐含层的输出，如果后面是采用softmax分类器的话，则同样也需要用最后一个隐含层的输出作为softmax的输入来训练softmax的网络参数。

由步骤1可知，在进行参数校正之前是需要对分类器的参数进行预训练的。且在进行参数校正(Finetuning )时是将所有的隐含层看做是一个单一的网络层，因此每一次迭代就可以更新所有网络层的参数。

另外在实际的训练过程中可以看到，训练第一个隐含层所用的时间较长，应该需要训练的参数矩阵为200*784(没包括b参数),训练第二个隐含层的时间较第一个隐含层要短些，主要原因是此时只需学习到200*200的参数矩阵，其参数个数大大减小。而训练softmax的时间更短，那是因为它的参数个数更少，且损失函数和偏导的计算公式也没有前面两层的复杂。最后对整个网络的微调所用的时间和第二个隐含层的训练时间长短差不多。实验结果：

第一个隐含层的特征值如下所示：

第二个隐含层的特征值显示不知道该怎么弄，因为第二个隐含层每个节点都是对应的200维，用display_network这个函数去显示的话是不行的，它只能显示维数能够开平方的那些特征，所以不知道是该将200弄成20*10，还是弄成16*25好，很好奇关于deep learning那么多文章中第二层网络是怎么显示的，将200分解后的显示哪个具有代表性呢？待定。所以这里暂且不显示，因为截取200前面的196位用display_network来显示的话，什么都看不出来：

共6页:

现代机器学习基于深度学习的图像特征提取(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

现代机器学习 基于深度学习的图像特征提取(4)

现代机器学习基于深度学习的图像特征提取(4)