python的大数据处理应用与实现

最新推荐文章于 2023-07-15 12:25:44 发布

置顶

VIP文章池塘的蜗牛

最新推荐文章于 2023-07-15 12:25:44 发布

阅读量1.6k

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zh533749/article/details/19675051

版权

最近看到一篇关于海量数据处理的python实现，具体参（http://blog.csdn.net/quicktest/article/details/7453189#comments）。文章中主要出现的问题是对于海量数据的处理分治这块实现思想不对，改进后采用了直接对文件进行处理会导致内存溢出，在此我将运用hash对原文件进行分割再进行处理（对于海量数据的处理大家可考：http://blog.csdn.net/hackbuteer1/article/details/7622869

http://blog.csdn.net/v_july_v/article/details/7382693）。对于大数据的处理一般思想是：分治，字典,tire树等等。在此本文的实现将运用分治，字典（C++中hash_map）这两种通用方法，因为其具有通用性所以很具有参考价值。

题目：海量日志数据，提取出某日访问百度次数最多的那个IP。

现将源代码示下欢迎指正：

#!/usr/bin/python
##

最低0.47元/天解锁文章

池塘的蜗牛

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python的大数据处理应用与实现

最近看到一篇关于海量数据处理的python实现，具体参（http://blog.csdn.net/quicktest/article/details/7453189#comments）。文章中主要出现的问题是对于海量数据的处理分治这块实现思想不对，改进后采用了直接对文件进行处理会导致内存溢出，在此我将运用hash对原文件进行分割再进行处理（对于海量数据的处理大家可考：http://blog.csd
复制链接

扫一扫

专栏目录

池塘的蜗牛 CSDN认证博客专家 CSDN认证企业博客

码龄13年

122: 原创

19万+: 周排名

155万+: 总排名

12万+: 访问

: 等级

2415: 积分

20: 粉丝

15: 获赞

9: 评论

30: 收藏

私信

关注

热门文章

分类专栏

最新评论

什么是copy-and-swap技术
Winters__: 想问下楼主，在 dumb_array& operator=(const dumb_array& other) { dumb_array temp(other); swap(*this, temp); return *this; } 按我的理解，在这个函数中申请了一个临时对象temp，通过swap函数交换的是this和temp指针，this指向了临时空间，但operator=执行完后，临时空间将会被释放，那就导致最后this指向的内存为空，这能达到一个赋值的效果吗？还是说我理解错了，最后释放的是swap之前this的内存，而临时空间没有被释放？
STL系列之七快速计算x的n次幂 power()的实现
hai61697: { if (n % 2 == 1) return power2(x, n / 2) * power2(x, n / 2) * x; else return power2(x, n / 2) * power2(x, n / 2); } 这个不对吧，上边应该是n-1
leveldb 值memtable
善见致知: memtable存在内存中，请问怎么查看？怎么证明它在内存中呢？
找工作经历
fhxd: 师弟好牛啊
三种不同的错误处理方式
Gental: 简单明了，给个赞

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。