大数据
UMaker
算法工程师,从事数据挖掘、自然语言处理方面的工作。
展开
-
给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?
思路:可以估计每个文件的大小为5G*64=300G,远大于4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 遍历文件a,对每个url求取hash(url)%1000,然后根据所得值将url分别存储到1000个小文件(设为a0,a1,...a999)当中。这样每个小文件的大小约为300M。遍历文件b,采取和a相同的方法将url分别存储到1000个小文件(b0,b1....b999)原创 2017-08-30 15:26:05 · 1931 阅读 · 1 评论 -
vim保存和退出
退出vim的快捷键,不需要进入命令编辑模式 按住shift zz 保存退出 zq 不保存退出,q表示放弃 之所以按住shift,其实是切换大小写在命令编辑模式下: :q 不保存退出 :q! 不保存强制退出 :wq 保存退出,w表示写入,不论是否修改,都会更改时间戳 :x 保存退出,如果内容未改,不会更改时间戳“:x” 和 “:wq” 的区别如下: (1...原创 2018-04-17 14:48:32 · 12006 阅读 · 0 评论