搜索的规模,计算效率高,通用性好,可用作特征的预筛选器。
缺点:它并不能保证选择出一个优化特征子集,尤其是当特征和分类器息息相关时。因而,即使能找到一个满足条件的优化子集,它的规模也会比较庞大,会包含一些明显的噪声特征。
2)Wrapper法:评价函数是一个分类器,采用特定特征子集对样本集进行分类,根据分类的结果来衡量该特征子集的好坏。Wrapper实质上是一种有导师学习算法。 训练集 测试集 优点:准确率高
缺点:1)为选择出性能最好的特征子集,Wrapper算法需要的计算量巨大; 2)该方法所选择的特征子集依赖于具体学习机; 3)容易产生“过适应”问题,推广性能较差
(3)Embedded方法。将特征选择集成在学习机训练过程中,通过优化一个目标函数在训练分类器的过程中实现特征选择。
优点:相对于Wrapper方法,不用将训练数据集分成训练集和测试集两部分,避免了为评估每一个特征子集对学习机所进行的从头开始的训练,可以快速地得到最佳特征子集,是一种高效的特征选择方法。
缺点:构造一个合适的函数优化模型是该方法的难点。
通常,将Filter方法的高效与Wrapper方法的高准确率进行结合,可得到更优的特征子集。混合特征选择过程一般由两个阶段组成:
1)使用Filter方法初步剔除大部分无关或噪声特征,只保留少量特征,从而有效地减小后续搜索过程的规模。
2)将剩余的特征连同样本数据作为输入参数传递给Wrapper选择方法,以进一步优化选择重要的特征。
(二)依据特征之间的联合作用对分类的贡献,分为:CFS(Correltion based Feature Selector)、CFSPabs(CFS based on the absolute of Perons’s correlation coefficient)、DFS(Discernibility of Feature Subsets)。
(1)CFS:基于关联特征的特征选择。CFS计算整个特征子集的类间区分能力实现特征选择,使得被选特征子集中的特征之间尽可能不相关,而与类标高度相关。
Ms:度量了包含k个特征的特征子集S的类别辨识能力。
:特征f(f?)与类别C的相关系数的均值
:特征之间相关系数的均值
分子:特征子集S的类预测能力 分母:特征子集S中特征的冗余程度
适合于二分类
(2)CFSPabs:基于皮尔森相关系数的绝对值的相关特征选择。
(3)DFS:特征子集区分度量。
:当前i个特征的特征子集在整个数据集上的均值向量 :当前i个特征的特征子集在第j类数据集上的均值向量 :第j类中第k个样本对应当前i 个特征的特征值向量
分子:l个类别中各类别对应包含当前i个特征的特征子集的样本中心向
量与整个样本集对应当前i个特征的中心向量的距离平方和,其值越大,类间越疏。 分母:各个类别对应包含当前i个特征的特征子集的类内方差。方差越小,类内越聚
五、结论
现有特征选择研究主要着眼于选择最优特征子集所需要的两个主要步骤:特征子集搜索 策略和特征子集性能评价准则。将Filter方法和Wrapper方法两者结合,根据特定的环境选择所需要的度量准则和分类器是一个值得研究的方向。