样本集划分与预处理的必要性

最新推荐文章于 2025-02-12 13:04:02 发布

nwsuaf_huasir

最新推荐文章于 2025-02-12 13:04:02 发布

阅读量4.2k

点赞数

分类专栏：数据结构与算法分析

本文链接：https://blog.csdn.net/wzz110011/article/details/82183517

版权

数据结构与算法分析专栏收录该内容

22 篇文章

订阅专栏

本文分享人工智能应用的心得体会。介绍人工智能包含的内容，指出部分理论并不高深，但深度学习需一定数学基础。还提到论文中应用建模方法多为照搬。此外，阐述划分样本集和校正集是为检测模型精度，做预处理可消除噪声、降低计算复杂度和提高模型精度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

人工智能在工业和科研方面应用很广泛了，尤其在今天的高校，本科生的毕业论文都在使用PLS、SVM等模型了，然而对于一些初学者还是有一些困惑，我把一些心得体会和自己的理解分享给大家。

1、什么是人工智能？

其实人工智能并没有大家想象的那么高深，因为它包含了很多内容，有些理论并不是今天才诞生的。像贝叶斯分类器、偏最小二乘法、K邻近聚类分析，毫不夸张的讲，这些理论中学生都可以理解，至少我可以给一个中学生讲清楚。贝叶斯分类器不就是条件概率的推导吗。然而一但给它们包装上华丽的外表-“人工智能、机器学习”之后，便会使大家感到高深叵测、晦涩难懂。这只不过是那些搞科研的在故弄玄虚罢了。当然，像深度学习，多层神经网络，还是需要一定的数学基础才可以掌握的，像涉及到的一些概率论和高等数学的知识还是有必要了解一下的。

下面谈一下在论文中应用的情况。像上面提到的一些建模方法，在论文中用起来是否很难？换句话说，写论文的人都很牛吗？答案是否定的，我敢说多数论文中尽管用到了这些模型，但是真正理解它的人却寥寥无几，能够在Matlab中调用几个函数，调一下参数谈不上精通和理解，充其量只是会照搬别人的东西。很多论文只是使用模型建模，分析结果，比较模型性能，是的，就是这样，仅此而已。真正原创性的研究不是这样子的，如果机理方面不做阐释，模型方面不会开发新的算法，那么这样的研究只能像旧报纸一样随时间推进被扔进废纸堆，继而消失湮灭，这样的研究永远是低层次的研究。

2、为什么要划分样本集和校正集？

首先要明白一个问题，建模是为了帮我们预测（也可以说是划分）未知的样本。比如用机器视觉识别不同的植物，那么，我们需要先采集各种标本，例如木兰科、禾本科、十字花科、大戟科、芸香科等等，对它们分类，采集它们的照片。如果一共有100幅照片，那么可以全部用来训练模型吗？肯定是不可以的，因为我们需要留出来一部分用于检测模型精度，留出来的称之为“验证集”或者是“校正集”。一般情况下可以按照3:1划分，预测集要占多数。关于样本的划分，也是有规则的，这里不再展开叙述了。总之，可以把预测集比作高考模拟试卷，高考那天的试题就是校正集，而我们自己，就是一个模型，做模拟试卷就是一个模型不断学习的过程。

3、为什么要做预处理？

预处理有很多方法，比如平滑滤波，一阶微分滤波，它们的主要目的就是消除噪声影响，试想一下，我们上高中做的模拟试卷是不是经常写着“精选试卷”，这个精选就是为了让我们做一些“有价值”的题，好与高考对接。当然还有一些别的预处理方法,比如主成分分析，这样是为了减少数据的维度，说白了就是压缩数据，因为模型的在学习的过程中就是程序的运行，降低数据维度可以减小算法的计算复杂度，降低计算的开销，同时也可以剔除“无贡献”的数据（常常是一些无效的属性值），这样反而提高了模型的精度。