关于缩减库

最新推荐文章于 2024-08-10 03:01:54 发布

xwjbs

最新推荐文章于 2024-08-10 03:01:54 发布

阅读量759

点赞数

分类专栏：分布式存储、计算相关文章标签：存储 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xwjbs/article/details/4893701

版权

分布式存储、计算相关专栏收录该内容

2 篇文章 0 订阅

订阅专栏

不管是gfs论文里边写的也好，hadoop里边的实现也好，貌似都没有提到重复数据删除的事情。爬虫从网上抓下来数据，写入文件系统，很多网页是重复抓取的（更新网页）。
1. 都写在一块的，无疑会浪费很多的空间。而我看论文上的讲述，文件块尽量分布在不同的机器上。重复的数据不会存储在一个机器上。没有充分利用机器内部的I/O。为了缩减库，把整个文件读一遍，写一遍，机器间的带宽无疑是会成为瓶颈的。

     2. 更新数据和大下载数据（不是更新的那一块，找不到合适的描述词）分开存储。更新数据可以认为有分钟库，小时库，天库，月库等等。各个文件内部都是不重复的。最后读的时候用更新数据过滤大下载数据。这样的方式的话，无疑会让架构和下载的耦合度高。而且更新数据只能增长，不能减少。不然就丢数据了;或者下载的任何的错误都会传递到后边。

    我想了很多也没有想到如何有效的利用分布式文件系统有效的解决此类重复数据存储的问题。

可能人家的设计就没有为缩减库做任何的处理。而只是存储日志型数据。写一次以后，只读，以后基本不再改动。

可怜bigtable里边讲的用gfs存储数据，不知道他们在做compaction的时候，数据是否是locality的。

可能我还没有领悟到其中的精华。再看看！再看看！如果你知道，不妨一块教教我！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于缩减库

不管是gfs论文里边写的也好，hadoop里边的实现也好，貌似都没有提到重复数据删除的事情。爬虫从网上抓下来数据，写入文件系统，很多网页是重复抓取的（更新网页）。 1. 都写在一块的，无疑会浪费很多的空间。而我看论文上的讲述，文件块尽量分布在不同的机器上。重复的数据不会存储在一个机器上。没有充分利用机器内部的I/O。为了缩减库，把整个文件读一遍，写一遍，机器间的带宽无疑是会成为
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。