Python机器学习——Sklearn——划分数据集——交叉检验

突破黎明前的黑暗

于 2017-09-30 21:25:08 发布

阅读量1.6k

点赞数 1

分类专栏： python机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zgf_zgf_zgf/article/details/78145390

版权

python机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

sklearn.cross_validation——train_test_split随机划分训练集和测试集

X_train,X_test,y_train,y_test=train_test_split(train_data,train_target,test_size=0.2,random_state=14)

train_date：所有划分的样本特征集

train_target：所有划分的样本结果

test_size：样本占比，如果是整数的话就是样本的数量

random_state：是随机数的种子。随机数种子：其实就是该组随机数的编号，在需要重复验证的时候，保证得到一组一样的随机数。

随机数的产生取决于种子，随机数和种子之间的关系遵从以下两个规则：

种子不同，产生不同的随机数；种子相同，即使实例不同也产生相同的随机数。

交叉检验能解决一次性测试所带来的问题。既然只切一次有问题，那就多切几次，多进行几次实验。每次切分时，都要保证这次得到的训练集合测试集与上次不一样，还要确保每条数据都只能用来测试一次。算法描述如下：

1、将这个大数据集分成几个部分

2、对于每一部执行以下操作：

a)将其中一部分作为当前测试集

b)用剩下的部分训练算法

c)在当前测试集上测试算法

3、记录每次得分及平均得分

4、在上述过程中，每条数据只能在测试集中出现一次，以减少(但不能避免)运气成分。

scikit-learn提供了几种交叉检验方法。有个辅助函数实现了上述交叉检验步骤

from sklearn.cross_validation import cross_val_score

scores=cross_val_score(estimator,X,y,scoring='accuracy')

average_accuracy=np.mean(scores)*100

突破黎明前的黑暗

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python机器学习——Sklearn——划分数据集——交叉检验

sklearn.cross_validation——train_test_split随机划分训练集和测试集X_train,X_test,y_train,y_test=train_test_split(train_data,train_target,test_size=0.2,random_state=14)train_date：所有划分的样本特征集train_target：所有划分的样
复制链接

扫一扫

专栏目录

突破黎明前的黑暗 CSDN认证博客专家 CSDN认证企业博客

码龄8年

7: 原创

62万+: 周排名

33万+: 总排名

1万+: 访问

: 等级

208: 积分

1: 粉丝

1: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

分类专栏

最新评论

TensorFlow学习一
weixin_46641034: 为什么都打上代码以后说step未定义
Python数据挖掘入门与实践(四)——亲和性分析
老Q量化投研: 1. 在frequency的计算中，我感觉有些问题：比如(1，2，3)这个项集，他在k=3的时候可以通过frozenset({1,2})[表情]frozenset({3})、frozenset({1,3})[表情]frozenset({2})、frozenset({2,3})[表情]frozenset({1})三种方式生成，也就是说按照文中的算法，frozenset({1,2,3})这个项集针对一个同时看过1、2、3三部电影的用户会计数三次，这样会导致大量不满足支持度的项集变成了频繁项集。针对这个问题，在第k个循环里，我认为frequency应该除以k。 2. 这个问题实际上是由于set的属性造成的，{1, 2}-->3、{1, 3}-->2、{2, 3}-->1这三种规则带来的计数在使用set的时候全被归结于{1,2,3}上了。使用tuple或者其他将同一项集、不同规则的情况拆分开即可避免这一问题。 3. 实际上文中的处理方式挺好，因为同一项集的不同规则的计数是一样的，所以在文章的基础上，k级的项集的frequency除以k比较好。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。