hadoop cdh s3

最新推荐文章于 2024-07-22 17:24:49 发布

JenneyAes

最新推荐文章于 2024-07-22 17:24:49 发布

阅读量450

点赞数

分类专栏：存算分离文章标签： hadoop big data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhu_19930414/article/details/120162782

版权

存算分离专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一.背景

对于目前用户产生的数据量激增，尤其是最近几年，这些数据产生后一般都是存储在hdfs分布式文件系统中，随着数据量越来越大，使用hdfs的磁盘空间也也会越来越多，机器规模一旦上去了之后，就会面临这机器使用费用问题，由于hdfs配置3三副本才能保证数据高可靠性，所有冗余数据量还是蛮大的是原来的三倍，花费不必要的机器磁盘计费开销，面对花费这么高的存储也只是在内网才能访问hdfs的数据，假设我们只要链接互联网就是能分析或者得到视频、音频和其他类型的数据那岂不是更友好？，如果hadoop 为数仓计算存储必须，把静态原始数据放在其他的池子中也是更加完美？

二.目的

这么做的目的暂时只有两个，第一点节约资源使用率，合理利用数据热点和数据本身使用频率

第二点就是存算分离，目前datanode和nodemanger都是混在一台机器上，在计算过程中会产生不必要的数据落盘
三.实现

基于CDH开源hadoop系统配置实现链接s3

1.添加服务

2.选择s3 connector，创建实例把用户名和密钥填写进去

3.进入到s3 connector，点击配置，配置好自定义的Default S3 Endpoint

4.这样hadoop 环境配置完成

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。