大数据
文章平均质量分 83
Hadoop 大数据生态圈
com.少年
这个作者很懒,什么都没留下…
展开
-
Hbase
文章目录概述基本概念基本架构数据模型数据读写流程写流程读流程文件合并概述Hbase官网相关代码基于hdfs的开源、分布式、非关系K-V 数据库数十亿行 X 数百万列,进行随机、实时读/写访问通过时间戳控制版本,返回最新版本数据读流程比写流程慢数据没有类型,都以** byte[ ] **存储数据自动分片基本概念Hbasemysqlnamespace (命名空间)库table:创建表时,只需要指定列族即可,列可以动态增加表列族-列列原创 2021-07-20 15:16:09 · 1141 阅读 · 1 评论 -
kafka重复消费问题分析和解决
文章目录名词解释kafka 队列分区topic 队列 与 partition 分区优势kafka 消费者组Consumer 消费者 与 ConsumerGroup 消费者组消费者 与 分区kafka 重平衡重平衡 RebalanceRebalance触发时机Rebalance 过程Rebalance Generation具体流程不同场景问题避免重复消费函数幂等性避免频繁的重平衡ConsumerRebalanceListener相关文章名词解释名词解释Producer消息的生成者原创 2021-07-19 10:54:28 · 3551 阅读 · 0 评论 -
Hive Spark引擎
Spark on yarn官方文档下载spark-hadoop注意对应版本修改配置文件spark-env.shexport SPARK_DIST_CLASSPATH=$(hadoop classpath)export HADOOP_HOME=/opt/hadoop-3.2.1export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoopexport YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoopHive on Spark原创 2021-06-02 15:18:18 · 317 阅读 · 0 评论 -
Hive-MR引擎
文章目录概述组成部分语法DDLDML函数调优压缩和存储概述组成部分语法DDLDML函数调优压缩和存储原创 2021-04-25 14:51:58 · 2952 阅读 · 0 评论
分享