7种2024年新算法实现特征选择,5种UCI数据测试,3种分类器聚合,贴心整理!MATLAB代码获取...

7af2aa523909cfd74c6a7e196600f751.gif

加关注这种话银家怎么好意思说出口嘛--


本期采用 7 种 2024 年最新的智能优化算法实现特征选择,采用 5 种论文中常提到的 UCI 数据集进行验证,以及分别采用 3 种基础分类器进行构建适应度函数。

其中 7 种 2024 新算法分别是:鹅优化算法(GOOSE);角蜥蜴优化算法(HLOA), 河马优化算法(HO),鹦鹉优化算法(PO),鳑鲏鱼优化算法(BFO),冠豪猪优化算法(CPO),爱情进化算法(LEA)。以及 3 种经典的算法:粒子群,遗传算法,灰狼算法。

5 种 UCI 数据集分别为:wine,sonar,dermatology,Heartstatlog,BreastEW。

这 5 种 UCI 数据集经常在一些特征选择的文献会看到,都是很经典常用的数据集!如下表格:

UCI 数据集数据集名称特征个数样本个数
D1Wine13178
D2Sonar60208
D3Dermatology33366
D4Heatstatlog13270
D5BreastEW30569

3 种常用分类器:KNN,SVM,随机森林 RF。

参考文献

[1]叶雨彬,韦文山.基于多策略融合鹈鹕优化算法的特征选择方法[J/OL].微电子学与计算机,2023,(12):19-25[2024-03-05].

[2]徐明,龙文.基于多策略融合灰狼优化算法的特征选择方法[J].科学技术与工程,2021,21(20):8544-8551.


特征选择也称为特征子集选择或属性选择,它是机器学习中分类、回归和数据挖掘中至关重要的预处理步骤,特征选择的目的是利用一种选择方法删除数据集中冗余和不相关的特征,以找到最优特征子集。它不仅能降低数据维度、提高机器学习算法的效率,还能从原始数据集中选出对分类器分类性能最有用的特征,提高其分类精度。

网上关于特征选择的论文有很多!但是像本文整理这么齐全的,那就是屈指可数了!

4e75ea7ccd86a82bb2547268f22be029.gif

代码目录展示

c8da67671405e3de19f421a324cbae43.png

可以看到有三个脚本文件,每个脚本文件对应一个分类器。运行这三个脚本文件即可,代码中可以自由修改算法!

代码功能介绍

da826d0290731fbfb8fce76382daf574.png

当执行代码后,会在命令行窗口提示输入对应的数字,即可更改不同的数据集,十分方便!

除此之外,为了方便修改智能优化算法,代码也做了相应集成,示例:

%% 修改number这里即可切换算法!!来自公众号《淘个代码》
%2024年最新算法
number = 5;   %修改数字,分别对应下面的算法,实现一键切换算法。1是GOOSE,2是HLOA,3是HO,以此类推
str={'GOOSE','HLOA','HO','PO','BFO','CPO','LEA','GA','PSO','GWO'};

%% 7种2024最新算法 + 三种经典算法 来自公众号《淘个代码》
% GOOSE,鹅优化算法
% HLOA,角蜥蜴优化算法
% HO , 河马优化算法
% 鹦鹉优化算法 PO
% 鳑鲏鱼优化算法 BFO
% 冠豪猪优化算法 CPO
% 爱情进化算法 LEA
% GA:遗传算法
% pso:粒子群算法
% GWO灰狼算法

只需要修改这里的number,即可选择不同的智能优化算法,直呼不要太贴心!

而且,最关键的是,如果你想要再添加任何算法,只要在str这里加一个算法名字,然后把相应算法复制到目录下即可。

最后来一起看看代码效果吧!

这一张是采用KNN分类器,采用dermatology数据集,BFO鳑鲏鱼优化算法实现的特征选择。

bb7b4141db945d839ec1d4176c4b9779.png

这一张是采用RF分类器,采用Heartstatlog数据集,GOOSE鹅算法实现的特征选择。3c1d7028fed3e654e381ada5772e20d8.png

这一张是采用SVM分类器,采用break cancer数据集,LEA爱情进化算法实现的特征选择。

3d88b3b01f81fb8a9c28989ed393b8c8.png

剩下的就不再一一展示了,总之每个分类器都集成了3大UCI数据集,7+3种智能算法,大家可以自行随意搭配!

 本文代码获取链接:

https://mbd.pub/o/bread/ZZyTk5hr

也可跳转二维码获取:

fa2f0d503c0f42b9ff7bf5e7087822cd.png

或点击下方阅读原文获取。


已将此代码添加至故障诊断全家桶中,

已购买全家桶的小伙伴,可以直接跳转以下链接下载哦!

故障诊断全家桶获取链接:

https://mbd.pub/o/bread/ZJ2Ym5ts

0100fcfad8ffa78c5eacffb5a96efa52.png

43bffadbfcc1fe43d827722dfc055593.gif

Easily Search Code

n many data analysis tasks, one is often confronted with very high dimensional data. Feature selection techniques are designed to find the relevant feature subset of the original features which can facilitate clustering, classification and retrieval. The feature selection problem is essentially a combinatorial optimization problem which is computationally expensive. Traditional feature selection methods address this issue by selecting the top ranked features based on certain scores computed independently for each feature. These approaches neglect the possible correlation between different features and thus can not produce an optimal feature subset. Inspired from the recent developments on manifold learning and L1-regularized models for subset selection, we propose here a new approach, called {\em Multi-Cluster/Class Feature Selection} (MCFS), for feature selection. Specifically, we select those features such that the multi-cluster/class structure of the data can be best preserved. The corresponding optimization problem can be efficiently solved since it only involves a sparse eigen-problem and a L1-regularized least squares problem. It is important to note that MCFS can be applied in superised, unsupervised and semi-supervised cases. If you find these algoirthms useful, we appreciate it very much if you can cite our following works: Papers Deng Cai, Chiyuan Zhang, Xiaofei He, "Unsupervised Feature Selection for Multi-cluster Data", 16th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD'10), July 2010. Bibtex source Xiaofei He, Deng Cai, and Partha Niyogi, "Laplacian Score for Feature Selection", Advances in Neural Information Processing Systems 18 (NIPS'05), Vancouver, Canada, 2005 Bibtex source
我选择了UCI网站上的Iris数据集来实现一个机器学习分类算法,该数据集是由统计学家、植物学家和机器学习研究者广泛使用的经典数据集之一。 首先,我会进行数据统计分析,了解该数据集的属性和特征。Iris数据集包含了150个样本,每个样本都有四个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。这些特征用于对三个鸢尾花的品进行分类:Setosa、Versicolor和Virginica。 接下来,进行数据清洗。在进行数据清洗之前,我会先观察数据是否存在缺失值或异常值。如果存在缺失值,我会使用适当的方法进行处理,如删除缺失值或使用插值法进行填充。对于异常值,我会检测并决定是否将其删除或替换。 完成数据清洗后,我将开始使用机器学习分类算法对数据集进行训练和预测。这里我选择使用支持向量机(Support Vector Machine, SVM)算法作为分类模型。SVM算法可以通过构建超平面来将数据分为不同的类别。 我会将数据集划分为训练集和测试集,使用训练集来训练SVM算法模型,并使用测试集进行预测。通过对测试集的预测结果与真实标签进行比较,评估模型的性能指标,如准确率、精确率和召回率等。 最后,我会根据评估结果对分类模型进行进一步优化,如调整超参数或使用其他机器学习算法进行比较。这样可以不断改进模型的性能,并提高对样本的预测准确度。 总之,通过从UCI网站上选择一个数据集,并实现一个机器学习分类算法,体现了数据统计分析和数据清洗的过程,以及如何使用合适的算法对数据进行分类。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

淘个代码_

不想刀我的可以选择爱我

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值