【分类器】

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

在实际应用中,为了挖取数据中隐藏的有用数据,一般会对搜集到的原始数
据集进行分析分类处理,流程图如图1.1 所示,具体的基本步骤包括以下四步:
(1)采取数据采集手段获取用户数据(数据获取);(2)对所获取的用户数据
进行分析处理(数据预处理);(3)采用特征选择方法从预处理后的数据中选
择出最优特征子集(特征选择);(4)分类器的设计和分类决策的确立。其中
分类器设计和分类决策的确立是研究的热点与重点。经过多年来众多学者的不懈
努力,模式识别的研究取得了长足的进步。

一、数据分析分类流程图?

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、高复杂性数据

在挖掘隐藏在原始数据中的有用信息的过程中,模式识别系统存在的最大挑
战不外乎就是分类速度的加快、分类精度的提高和分类代价的减少。包含高维异
构、大样本集的数据集常被人们称为“高复杂性数据”,也就是说,高复杂性数
据是指训练数据集规模庞大、样本特征维数较多的数据。这些数据在医学、经济
学等领域较为常见,一定程度上阻碍着社会的快速发展。
一般而言,大数据处理的重点和难点在于特征选择和分类器的设计。

三、特征选择

(1)特征选择的一般过程
假设一个对象由N 个特征组成,那么这个对象将存在2N 个特征子集。特征
选择的基本过程就是从这2N 个特征子集中选择出数目最少最有利于给定任务的
特征子集。特征选择的基本过程如图1.2 所示。
在这里插入图片描述
在这里插入图片描述
由图1.2 可知,特征选择算法通常分为以下四个基本步骤:
①子集的生成:指使用适合的搜索方法在给定的特征空间中搜索出一个用于
训练分类器的最优数据特征子集。搜索算法主要有三种,即全局搜索、启发式搜
索及随机搜索。
②子集评估:使用评价函数对选择出的特征进行评估,即判断特征子集的好
坏,评估准则可以分为独立准则和关联准则两种。其中独立准则与具体的学习算
法无关,常用的独立性准则有信息度量、距离度量及一致性度量等多种。关联准
则则与具体的学习算法是相互关联的关系。
③终止条件:它与算法评估的目标功能密切相关,指完成一个算法的搜索过
程需要同时满足的一些具体要求。一般采用最大迭代次数及阈值作为终止条件。
④结果验证:对所选取的特征子集的有效性进行验证。

四、特征选择分类

特征选择最先由Kira 等人给出定义,即在理想状态下寻找使得模型具有最
好性能的数目最少的特征子集[1]。随后,Koller 等人在前人的基础上再次对特征
选择进行定义[2]。根据子集的评估准则及是否与具体算法相结合,可以将特征选
择方法粗略归纳为三种类型,即过滤式、包装式及嵌入式。
①过滤式(Filter)特征选择
在特征选择研究的初期,过滤式特征选择方法的使用最为广泛。过滤式特征
选择方法的第一步需要从数据集中选择出对训练模型具有较大效益的数据子集,
然后再用选择出的最佳数据子集去对模型进行训练,特征选择过程与模型训练过
程是相互独立的。现有的科研工作很多,例如Almualliam 等人在文献[3]中提出
了一种被称为FOCUS 的特征选择算法,但是该算法具有较高的计算复杂度且对
搜索过程过分依赖。Guo Y 等人为了快速去除冗余特征,他们定义了一系列同时
考虑特征与决策之间一致性以及特征与特征之间冗余的特征评估函数,然后提出
了一种基于最小冗余和最大一致性的特征选择方法[4]。Kwak N 等人在论文[5]中
提出了一种应用于分类问题的特征选择算法,该方法把基于Parzen 窗口计算输
入变量与类变量之间互信息相互关联起来。Zhang L 等人提出了一种新的基于前
向搜索的非线性特征选择算法,该算法利用互信息和互信息理论找到与多任务标
签相关的最优子集,降低了计算复杂度[6]。Thejas G S 等人提出了一种新的特征
选择机制,他们结合了过滤器和包装器技术,同时考虑了这两种方法的优点,对
特征进行排名,然后根据排名选择最佳特征子集,并使用多种评估指标,使用各
种数据集验证了他们的混合模型[7]。Brunato M 等人[8]提出了一种基于精确互信
息的过滤式特征选择方法。Liu G 等人为了消除冗余特征,提高分类精度,提出
了一种基于互信息和支持向量机(SVM)的特征选择方法[9]。Zhang X 等人提出
了一种基于模糊邻域相对决策熵的启发式特征选择算法,为数据挖掘工作的开展
带来很好的借鉴意义[10]。
②包装式(Wrapper)特征选择
该方法与过滤式方法的不同之处在于过滤式方法独立于后续的学习器,而包
装式总是与所选取的学习算法捆绑在一起。自包装式方法由Kohavi 等人[11]提出
之后,该方法的研究成了特征选择领域的热点。Yang 等人在文献[12]中使用特征
排名标准来评价特征的好坏,提出了一种基于包装器的多层感知器(MLP)神经
网络随机扰动的特征选择方法,在稀疏数据集及冗余数据较多的数据集上具有较
好的性能。Tarkhaneh O 等人在文献[13]中提出了一种改进的差分进化(DE)方
法来进行特征选择(MDEFS),通过利用两种新的变异策略在搜索与利用之间
建立可行的平衡,并将分类性能保持在特征数量和准确性的可接受范围内。Tran
C T 等人在文献[14]中从数据集中的缺失值入手提出了一种针对缺失数据进行分
类的包装式特征选择方法,该方法能有效提高分类器的分类性能。由于包装式方
法需要多次训练学习器,所以计算开销相对较大。
③嵌入式(Embedded)特征选择
嵌入式特征选择方法把特征选择与学习器训练相互联系在一起,可以将其看
作过滤式方法与包装式方法的融合形式。该方法需要先采用过滤式方法对用于模
型训练的特征子集进行预选,然后再利用包装式方法从所预选出的特征子集中进
行精选操作,从而得到用于模型训练的最优特征子集。其中常用的ID3 算法[15]
及CART 算法[16]都是嵌入式特征选择方法的较好例子。另外,Setiono 等人在文献[17]中提出了一种基于前馈神经网络剪枝思想的特征选择算法,他们在论文中
使用三层前馈神经网络来选择那些对于区分给定输入模式集中对类最有用的输
入属性。Shen 等人在文献[18]中提出了一种基于SVM 概率输出灵敏度分析的嵌
入式特征选择算法。周红标等人在文献[19]中将数据驱动型KNN 用于高维变量
之间互信息的估计,提出一种基于高维KNN 互信息的特征选择算法,并采用多
层感知器神经网络进行仿真实验来对所提出方法的有效性进行验证。

④三种基于评价策略的特征选择方法的比较
前面章节对基于不同评价策略的特征选择方法进行一一介绍,下面从多个角
度对这三种方法作一个比较,见表1.1 所示。
在这里插入图片描述

总结

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

资源存储库

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值