最近看到一篇关于海量数据处理的python实现,具体参(http://blog.csdn.net/quicktest/article/details/7453189#comments)。文章中主要出现的问题是对于海量数据的处理分治这块实现思想不对,改进后采用了直接对文件进行处理会导致内存溢出,在此我将运用hash对原文件进行分割再进行处理(对于海量数据的处理大家可考:http://blog.csdn.net/hackbuteer1/article/details/7622869
http://blog.csdn.net/v_july_v/article/details/7382693)。对于大数据的处理一般思想是:分治,字典,tire树等等。在此本文的实现将运用分治,字典(C++中hash_map)这两种通用方法,因为其具有通用性所以很具有参考价值。
题目:海量日志数据,提取出某日访问百度次数最多的那个IP。
现将源代码示下欢迎指正:
#!/usr/bin/python
##