分布式存储、计算相关
xwjbs
在锅碗瓢盆中体味生活得乐趣!
展开
-
关于缩减库
不管是gfs论文里边写的也好,hadoop里边的实现也好,貌似都没有提到重复数据删除的事情。 爬虫从网上抓下来数据,写入文件系统,很多网页是重复抓取的(更新网页)。 1. 都写在一块的,无疑会浪费很多的空间。而我看论文上的讲述,文件块尽量分布在不同的机器上。重复的数据不会存储在一个机器上。没有充分利用机器内部的I/O。为了缩减库,把整个文件读一遍,写一遍,机器间的带宽无疑是会成为原创 2009-11-28 10:36:00 · 759 阅读 · 0 评论 -
又是一道循环!
在济南的时候,做的最多的是企业信息化。那时候对这个事情的认识很肤浅,总觉得从技术来讲没啥挑战性。就是对一堆表的增删查改。没有注意到业务复杂性。 n多年后,终于发现,我所追求的,津津乐道的数据海量小文件的存储的问题原来也是对数据库的操作,还是那增删查改的操作。只不过是更大的量更多的机器的合作。 又是一道循环啊!原创 2010-02-25 14:56:00 · 847 阅读 · 0 评论