机器学习的评估和模型选择#1 评估方法

womystery

于 2019-09-30 23:02:14 发布

阅读量164

点赞数

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/womystery/article/details/101796932

版权

对于学习器的评估是基于大量的数据的基础上。

我们从一个数据群中取出一部分作为测试集A，另一部分作为训练集B，

对于测试集A和训练集B，他们属于同一类数据集合，比如水果集合C包含苹果A和橘子B

虽然A与B互斥，即苹果肯定不等于橘子，但是都属于水果类。

一般把A与B分别占C的30%和70%，但可以根据实际情况调整，在2/3和4/5数值内波动。

把稳定的比例称为“分层采样”，一旦确定不要改变，除非有确定要求改动。

但是上种方法一旦跟实际结合，会显得如此无力。我们需要更多的方法来求得我们的准确性

但是要明白的是我们只有一个数据集，这种数据集有时会有很多，但这些数据中必有一种联系或相同之处

所以也称为同一类的数据集，即是唯一性。

光把一个数据集分为两类是仅仅不够的，所以我们要寻找更多的方法，

举个栗子（栗子永远是最好懂的手动滑稽）

有一群水果，有苹果，香蕉，橘子，火龙果，葡萄等，然后请分为两类？

这怕是不太现实的，在数据分类时强行的联系只会导致结果的错误请谨记。

然后我们要把它分为至少7类，如红色水果，紫色水果等。

把它分为红橙黄绿青蓝紫后，几乎所有的水果都找到自己的类别（不要提一些奇葩的水果

如果有，可以再添几种颜色），当你分好类后，我们的目的是让机器能像我们一样记住（甚至思考）

然后能去对新来的水果进行自我的分类。

现在水果分为了7类，对于这7类，我们这7个类即互相独立也互相关联。然后在这7类里我们对于数据集

和测试集的选择比例发生了一些变化。因为你的数据样本分的类别多了，所以你分好的数据集必定数据减少了，

所以一般就选一个数据作为测试集，然后其他数据作为训练集，这是比较完美地（当然具体的情况永远需要具体分析）

把这种方法称为K折交叉验证法。然后你可以将这个数据得到了7个测试结果，在水果中结果必定是好或坏，

然后求一个平均值返回，我们达到了我们的目的。然后可以多来几次，保证结果的稳定与可重复性。

这里多来几次时间太麻烦，只来一次准确性又不好。一般解决这种方法就是二者合一。

就像时间换空间，空间换时间一般，或者找到一个完美地辨别条件。但前者比后者简单多了哈哈。。

下次再写

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习的评估和模型选择#1 评估方法

对于学习器的评估是基于大量的数据的基础上。我们从一个数据群中取出一部分作为测试集A，另一部分作为训练集B，对于测试集A和训练集B，他们属于同一类数据集合，比如水果集合C包含苹果A和橘子B虽然A与B互斥，即苹果肯定不等于橘子，但是都属于水果类。一般把A与B分别占C的30%和70%，但可以根据实际情况调整，在2/3和4/5数值内波动。把稳定的比例称为“分层采样”，...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。