关于缩减库

     不管是gfs论文里边写的也好,hadoop里边的实现也好,貌似都没有提到重复数据删除的事情。 爬虫从网上抓下来数据,写入文件系统,很多网页是重复抓取的(更新网页)。
     1. 都写在一块的,无疑会浪费很多的空间。而我看论文上的讲述,文件块尽量分布在不同的机器上。重复的数据不会存储在一个机器上。没有充分利用机器内部的I/O。为了缩减库,把整个文件读一遍,写一遍,机器间的带宽无疑是会成为瓶颈的。


     2. 更新数据和大下载数据(不是更新的那一块,找不到合适的描述词)分开存储。更新数据可以认为有分钟库,小时库,天库,月库等等。各个文件内部都是不重复的。最后读的时候用更新数据过滤大下载数据。这样的方式的话,无疑会让架构和下载的耦合度高。而且更新数据只能增长,不能减少。不然就丢数据了;或者下载的任何的错误都会传递到后边。
  
    我想了很多也没有想到如何有效的利用分布式文件系统有效的解决此类重复数据存储的问题。

 

    可能人家的设计就没有为缩减库做任何的处理。而只是存储日志型数据。写一次以后,只读,以后基本不再改动。

   

    可怜bigtable里边讲的用gfs存储数据,不知道他们在做compaction的时候,数据是否是locality的。

   

    可能我还没有领悟到其中的精华。再看看!再看看!如果你知道,不妨一块教教我!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值