机器学习数据划分

基于目前的经验,机器学习中的数据划分主要为两种:

1. 当数据量较大时,可直接划分为train data、valid data、test data。其中,train data用于训练模型,valid data用于从训练得到的多个模型中选择一个最合适的模型,test data用于确定模型的最终效果。

2. 当数据量较小时,可采用交叉验证,交叉验证的方法有很多,主要用的有5折交叉验证、10折交叉验证和留一法。需要注意的是,交叉验证的方法将数据划分为train data和test data,没有valid data。那么最合适的模型怎么选择呢?交叉验证法是将n次交叉验证的平均结果作为选择最合适的模型的依据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值