使用sklearn进行增量学习

最新推荐文章于 2025-03-21 10:15:26 发布

白熊花田

最新推荐文章于 2025-03-21 10:15:26 发布

阅读量3.6w

点赞数 24

分类专栏：机器学习文章标签：机器学习在线学习 sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/whiterbear/article/details/53120004

版权

本文介绍了如何使用sklearn处理大规模数据，重点讲解了流式数据、特征提取和增量学习算法。通过SGDClassifier为例，展示了如何在内存限制下进行在线分类，并给出了实际操作的步骤，包括生成文件流迭代器、增量训练等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题

实际处理和解决机器学习问题过程中，我们会遇到一些“大数据”问题，比如有上百万条数据，上千上万维特征，此时数据存储已经达到10G这种级别。这种情况下，如果还是直接使用传统的方式肯定行不通，比如当你想把数据load到内存中转成numpy数组，你会发现要么创建不了那么大的numpy矩阵，要么直接加载时报MemeryError。
在这种情况下我了解了几种选择办法，1. 对数据进行降维，2. 使用流式或类似流式处理，3. 上大机器，高内存的，或者用spark集群。

文档

Sklearn里面提供一些流式处理方法。具体可以参考官方文档：
讲解了怎么处理 big data 文件：http://scikit-learn.org/stable/modules/scaling_strategies.html
通过一个例子讲解了怎么用：http://scikit-learn.org/stable/auto_examples/applications/plot_out_of_core_classification.html

简单介绍

我看了上面两个文档，并使用介绍的SGDClassifier进行分类，效果挺好的，这里记录下用法。
要实现big data的处理，需要满足三个条件ÿ

最低0.47元/天解锁文章

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。