样本集划分与预处理的必要性

人工智能在工业和科研方面应用很广泛了,尤其在今天的高校,本科生的毕业论文都在使用PLS、SVM等模型了,然而对于一些初学者还是有一些困惑,我把一些心得体会和自己的理解分享给大家。

1、什么是人工智能?

其实人工智能并没有大家想象的那么高深,因为它包含了很多内容,有些理论并不是今天才诞生的。像贝叶斯分类器、偏最小二乘法、K邻近聚类分析,毫不夸张的讲,这些理论中学生都可以理解,至少我可以给一个中学生讲清楚。贝叶斯分类器不就是条件概率的推导吗。然而一但给它们包装上华丽的外表-“人工智能、机器学习”之后,便会使大家感到高深叵测、晦涩难懂。这只不过是那些搞科研的在故弄玄虚罢了。当然,像深度学习,多层神经网络,还是需要一定的数学基础才可以掌握的,像涉及到的一些概率论和高等数学的知识还是有必要了解一下的。

下面谈一下在论文中应用的情况。像上面提到的一些建模方法,在论文中用起来是否很难?换句话说,写论文的人都很牛吗?答案是否定的,我敢说多数论文中尽管用到了这些模型,但是真正理解它的人却寥寥无几,能够在Matlab中调用几个函数,调一下参数谈不上精通和理解,充其量只是会照搬别人的东西。很多论文只是使用模型建模,分析结果,比较模型性能,是的,就是这样,仅此而已。真正原创性的研究不是这样子的,如果机理方面不做阐释,模型方面不会开发新的算法,那么这样的研究只能像旧报纸一样随时间推进被扔进废纸堆,继而消失湮灭,这样的研究永远是低层次的研究。

2、为什么要划分样本集和校正集?

首先要明白一个问题,建模是为了帮我们预测(也可以说是划分)未知的样本。比如用机器视觉识别不同的植物,那么,我们需要先采集各种标本,例如木兰科、禾本科、十字花科、大戟科、芸香科等等,对它们分类,采集它们的照片。如果一共有100幅照片,那么可以全部用来训练模型吗?肯定是不可以的,因为我们需要留出来一部分用于检测模型精度,留出来的称之为“验证集”或者是“校正集”。一般情况下可以按照3:1划分,预测集要占多数。关于样本的划分,也是有规则的,这里不再展开叙述了。总之,可以把预测集比作高考模拟试卷,高考那天的试题就是校正集,而我们自己,就是一个模型,做模拟试卷就是一个模型不断学习的过程。

3、为什么要做预处理?

预处理有很多方法,比如平滑滤波,一阶微分滤波,它们的主要目的就是消除噪声影响,试想一下,我们上高中做的模拟试卷是不是经常写着“精选试卷”,这个精选就是为了让我们做一些“有价值”的题,好与高考对接。当然还有一些别的预处理方法,比如主成分分析,这样是为了减少数据的维度,说白了就是压缩数据,因为模型的在学习的过程中就是程序的运行,降低数据维度可以减小算法的计算复杂度,降低计算的开销,同时也可以剔除“无贡献”的数据(常常是一些无效的属性值),这样反而提高了模型的精度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

nwsuaf_huasir

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值