引言
人工智能作为当前最具革命性、颠覆性的技术之一。智能模型的强大性能源自于对高质量数据集的充足学习。然而,实际工程应用中,由于经济成本和人力成本的限制,获取大量典型的有标签的数据变得极具挑战,造成了训练样本数量非常有限。数据增强方法为解决此类问题提供了简单但有效的思路。基于核密度估计Kernel Density Estimation, KDE的数据增强方法,在学习复杂高维数据分布方面表现出了极其优越的性能,为解决数据问题提供了一个新视角。
核密度估计Kernel Density Estimation, KDE在概率论中用来估计未知的密度函数,属于非参数检验方法之一。KDE基于核函数,以一定的带宽参数,通过对每个数据点附近的核函数进行加权平均来估计数据点的概率密度,即根据有限的数据样本对总体进行推断。具体理论请参阅相关文献。
本期分享了核密度估计Kernel Density Estimation, KDE的数据生成方法的matlab代码,通过基于条件概率迭代更新状态从目标分布生成样本,有效地解决数据不充足的问题。
02. 实操
本期利用机器学习中的经典数据集iris数据集:该数据集有3类,每类50个样本,每个样本4个特征,共150个样本*4个特征【按”样本数*特征数“的数据格式替换数据即可】。利用KDE生成一些数据, 用K-means聚类方法(也可以使用其他的聚类方法)获取合成生成数据的标签,并选择用SVM作为分类器(也可以使用其他的分类器)进行分类,用以简单地验证KDE数据的生成质量。生成数据作为训练集用以训练分类器SVM,原始数据作为测试集用以测试。最后结果展示包括了原始数据,和生成数据的分布,概率密度函数分布,每个特征的分布boxplot等。
最后svm的分类精度:训练精度99.46%,测试精度98.667%。
结果可视化展示:
生成效果可以,类外特征分离明显,类间特征较为聚集,适合分类任务。以上SVM结果是只运行了5次后的均值。
Matlab代码下载
微信搜索并关注-优化算法侠,或扫描下方二维码关注,以算法名字搜索历史文章即可下载。
基于核密度估计Kernel Density Estimation, KDE的数据生成方法(附Matlab代码)
点击链接跳转:
cec2022测试函使用教程及matlab代码免费下载
绘制cec2017/018/2019/2020/2021/2022函数的三维图像教程,SO EASY!
175种群智能优化算法python库
求解cec测试函数-matlab
解决12工程设计优化问题-matlab
求解11种cec测试函数-python
解决12种工程设计优化问题-python
用于改进所有优化算法:21种混沌映射方法-混沌初始化(附matlab代码)
沙场大点兵:24种信号分解方法(附matlab代码)
沙场大点兵:27种一维数据转换成二维图像的方法-matlab代码沙场大点兵:27种一维数据转换成二维图像的方法-matlab代码https://mp.weixin.qq.com/s?__biz=MzkxMDQ5MDk4Ng==&mid=2247486260&idx=1&sn=81b1970cb89364c0289ccdfb403e5388&chksm=c12be731f65c6e273a85456326b503b7f35d9f035405050932ff1926e0b1bfa8076b1bc2d1f2&token=25423484&lang=zh_CN#rd