hadoop cdh s3

一.背景

      对于目前用户产生的数据量激增,尤其是最近几年,这些数据产生后一般都是存储在hdfs分布式文件系统中,随着数据量越来越大,使用hdfs的磁盘空间也也会越来越多,机器规模一旦上去了之后,就会面临这机器使用费用问题,由于hdfs配置3三副本才能保证数据高可靠性,所有冗余数据量还是蛮大的是原来的三倍,花费不必要的机器磁盘计费开销,面对花费这么高的存储也只是在内网才能访问hdfs的数据,假设我们只要链接互联网就是能分析或者得到视频 、音频和其他类型的数据那岂不是更友好?,如果hadoop 为数仓计算存储必须,把静态原始数据放在其他的池子中也是更加完美?

二.目的

       这么做的目的暂时只有两个,第一点节约资源使用率,合理利用数据热点和数据本身使用频率

第二点就是存算分离,目前datanode和nodemanger都是混在一台机器上,在计算过程中会产生不必要的数据落盘
三.实现

       基于CDH开源hadoop系统配置实现链接s3

        1.添加服务

        2.选择s3 connector,创建实例把用户名和密钥填写进去

        3.进入到s3 connector,点击配置,配置好自定义的Default S3 Endpoint

        4.这样hadoop 环境配置完成

    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值