【干货】数据挖掘比赛大数据处理和建模经验

腾讯广告算法大赛

于 2020-01-14 12:05:25 发布

阅读量777

点赞数

分类专栏：腾讯算法大赛腾讯广告

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45676602/article/details/103970843

版权

本文分享了在处理大规模数据时的经验，包括数据采样、特征处理、在线学习和外存学习等策略。针对内存限制，提出使用pandas的chunksize参数、流式处理、排序加速以及Vowpal Wabbit、Libffm、XGBoost等工具进行外存和在线学习。文章强调了在实际比赛和业务场景中，面对大数据问题的挑战及解决方案的重要性。

摘要由CSDN通过智能技术生成

有同学反馈，我们决赛的数据比较大，由于机器资源的限制，在处理数据和构建模型的时候，会遇到一些瓶颈。以下来抛一下我们了解的一些处理思路：

1 采样

可以对数据进行下采样，然后使用不同的子集进行特征抽取和建模，最后再进行集成。

2 特征处理

在处理大规模原始数据时，需要充分借助外存（硬盘）空间，只把真正需要处理的数据放进内存。一般而言，采用流式、分块的方式处理数据可以解决大部分问题。以下是一些具体的技巧。

a）只加载需要的数据到内存。有些特征可以通过单条数据直接得到，如星期特征。这种情况下，可以使用 streaming 的方式进行处理，每次读入若干数据（chunk），处理，生成特征，然后再写到硬盘。使用 pandas 的 read_csv，可以设置 chunksize 参数，譬如 for chunk in read_csv ( infile, chunksize=10000 )；

b）只保留需要的数据在内存。决赛的数据可以直接装到 16G 内存中，每次生成一条样本的特征，就把特征直接写入硬盘，不在内存保留。如果生成的特征较多，可以分多次生成，写到分散的特征文件，最后进行一个 merge 操作。在 merge 的时候，可以对多个特征文件按照统一的 key 进行排序，然后同时扫描多个特征文件，进行merge，再写到硬盘；

c）充

最低0.47元/天解锁文章

腾讯广告算法大赛

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【干货】数据挖掘比赛大数据处理和建模经验

有同学反馈，我们决赛的数据比较大，由于机器资源的限制，在处理数据和构建模型的时候，会遇到一些瓶颈。以下来抛一下我们了解的一些处理思路：1 采样可以对数据进行下采样，然后使用不同的子集进行特征抽取和建模，最后再进行集成。2 特征处理在处理大规模原始数据时，需要充分借助外存（硬盘）空间，只把真正需要处理的数据放进内存。一般而言，采用流式、分块的方式处理数据可以解决大部分问题。以下是一些...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。