- 博客(6)
- 收藏
- 关注
原创 docker 安装 cdh5
1下载cdh镜像两种方式1)直接拉取官网最新镜像文件 当前官网最新版本是5.13docker pull cloudera/quickstart:latest 设置镜像版本信息docker tag cloudera/quickstart:latest cdh:5.13.0 2)官网下载镜像文件https://www.cloudera.com/down...
2019-05-21 18:15:09 4225
原创 Ambari2.6.2集成Kerberos
名词解释Kerberos: Network Authentication protocol(网络认证协议)KDC: Key Distribution center(密钥分配中心)Kadmin: Kerberos Administrator(Kerberos管理)我这边环境是docker 安装的单节点 Ambari1配置/etc/hosts在ip 后面加上kerberos-au...
2019-05-15 18:37:30 555 2
原创 hive select count为 0
查询的表中的数据是由impala插入的,所以可能是统计信息没更新导致的即重新计算统计信息,在hive命令行数输入一下语句ANALYZE TABLE $table_name COMPUTE STATISTICS;ANALYZE TABLE $table_name partition(p=$1) COMPUTE STATISTICS;...
2019-05-15 18:12:29 649
原创 Spark Streamng实战
Spark Streamng 是一个可拓展,大规模,高吞吐量,高容错性的实时流处理数据程序 将不同数据源的数据经过SparkStreaming处理之后结果输出到外部文件系统特点 低延时 能从错误中高效的恢复: fault-tolerant 能够运行在成百上千的节点 能够将批处理、机器学习,图计算的子框架和SparkStreaming综合起来使用流程:...
2018-07-23 22:07:46 299
原创 Kafka认识实战
Kafka ,是一个分布式、支持分区的(partition)、多副本的(replica),高吞吐量的基于zookeeper协调的分布式消息系统应用场景: 1)构建实时的流数据管道,可靠地获取系统和应用程序之间的数据。 2)构建实时流的应用程序,对数据流进行转换或反应。kafka四个核心 1)producer:生产者。 2)consumer:消费者。 3...
2018-07-23 22:07:05 298
原创 Flume基础配置
Flume 是一个分布式,高可用,高可靠,高效率的日志收集框架 Flume 由agent文件配置数据的采集与输出agent 配置文件 由三个组件:Source 数据源 负责输入Channel 渠道 负责传输Sink 收集 负责输出Logger Sink 控制台输出事件:Logs event at INFO level...
2018-07-23 22:06:11 177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人