自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 docker 安装 cdh5

1下载cdh镜像两种方式1)直接拉取官网最新镜像文件 当前官网最新版本是5.13docker pull cloudera/quickstart:latest 设置镜像版本信息docker tag cloudera/quickstart:latest cdh:5.13.0 2)官网下载镜像文件https://www.cloudera.com/down...

2019-05-21 18:15:09 4225

原创 Ambari2.6.2集成Kerberos

名词解释Kerberos: Network Authentication protocol(网络认证协议)KDC: Key Distribution center(密钥分配中心)Kadmin: Kerberos Administrator(Kerberos管理)我这边环境是docker 安装的单节点 Ambari1配置/etc/hosts在ip 后面加上kerberos-au...

2019-05-15 18:37:30 555 2

原创 hive select count为 0

查询的表中的数据是由impala插入的,所以可能是统计信息没更新导致的即重新计算统计信息,在hive命令行数输入一下语句ANALYZE TABLE $table_name COMPUTE STATISTICS;ANALYZE TABLE $table_name partition(p=$1) COMPUTE STATISTICS;...

2019-05-15 18:12:29 649

原创 Spark Streamng实战

Spark Streamng 是一个可拓展,大规模,高吞吐量,高容错性的实时流处理数据程序    将不同数据源的数据经过SparkStreaming处理之后结果输出到外部文件系统特点    低延时    能从错误中高效的恢复: fault-tolerant    能够运行在成百上千的节点    能够将批处理、机器学习,图计算的子框架和SparkStreaming综合起来使用流程:...

2018-07-23 22:07:46 299

原创 Kafka认识实战

Kafka ,是一个分布式、支持分区的(partition)、多副本的(replica),高吞吐量的基于zookeeper协调的分布式消息系统应用场景:    1)构建实时的流数据管道,可靠地获取系统和应用程序之间的数据。    2)构建实时流的应用程序,对数据流进行转换或反应。kafka四个核心    1)producer:生产者。    2)consumer:消费者。    3...

2018-07-23 22:07:05 298

原创 Flume基础配置

Flume 是一个分布式,高可用,高可靠,高效率的日志收集框架 Flume 由agent文件配置数据的采集与输出agent 配置文件 由三个组件:Source    数据源     负责输入Channel  渠道         负责传输Sink        收集         负责输出Logger Sink 控制台输出事件:Logs event at INFO level...

2018-07-23 22:06:11 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除