机器学习的评估和模型选择#1 评估方法

对于学习器的评估是基于大量的数据的基础上。

 

我们从一个数据群中取出一部分作为测试集A,另一部分作为训练集B,

 

对于测试集A和训练集B,他们属于同一类数据集合,比如水果集合C包含苹果A和橘子B

虽然A与B互斥,即苹果肯定不等于橘子,但是都属于水果类。

 

一般把A与B分别占C的30%和70%,但可以根据实际情况调整,在2/3和4/5数值内波动。

把稳定的比例称为“分层采样”,一旦确定不要改变,除非有确定要求改动。

 

但是上种方法一旦跟实际结合,会显得如此无力。我们需要更多的方法来求得我们的准确性

但是要明白的是我们只有一个数据集,这种数据集有时会有很多,但这些数据中必有一种联系或相同之处

所以也称为同一类的数据集,即是唯一性。

 

光把一个数据集分为两类是仅仅不够的,所以我们要寻找更多的方法,

举个栗子(栗子永远是最好懂的 手动滑稽)

有一群水果,有苹果,香蕉,橘子,火龙果,葡萄等,然后请分为两类?

这怕是不太现实的,在数据分类时强行的联系只会导致结果的错误请谨记。

 

然后我们要把它分为至少7类,如红色水果,紫色水果等。

把它分为红橙黄绿青蓝紫后,几乎所有的水果都找到自己的类别(不要提一些奇葩的水果

如果有,可以再添几种颜色),当你分好类后,我们的目的是让机器能像我们一样记住(甚至思考)

然后能去对新来的水果进行自我的分类。

 

现在水果分为了7类,对于这7类,我们这7个类即互相独立也互相关联。然后在这7类里我们对于数据集

和测试集的选择比例发生了一些变化。因为你的数据样本分的类别多了,所以你分好的数据集必定数据减少了,

所以一般就选一个数据作为测试集,然后其他数据作为训练集,这是比较完美地(当然具体的情况永远需要具体分析)

把这种方法称为K折交叉验证法。然后你可以将这个数据得到了7个测试结果,在水果中结果必定是好或坏,

然后求一个平均值返回,我们达到了我们的目的。然后可以多来几次,保证结果的稳定与可重复性。

 

这里多来几次时间太麻烦,只来一次准确性又不好。一般解决这种方法就是二者合一。

就像时间换空间,空间换时间一般,或者找到一个完美地辨别条件。但前者比后者简单多了哈哈。。

 

下次再写

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值