大数据
文章平均质量分 83
Hadoop 大数据生态圈
com.少年
这个作者很懒,什么都没留下…
展开
-
Hbase
文章目录概述基本概念基本架构数据模型数据读写流程写流程读流程文件合并 概述 Hbase官网 相关代码 基于hdfs的开源、分布式、非关系K-V 数据库 数十亿行 X 数百万列,进行随机、实时读/写访问 通过时间戳控制版本,返回最新版本数据 读流程比写流程慢 数据没有类型,都以** byte[ ] **存储 数据自动分片 基本概念 Hbase mysql namespace (命名空间) 库 table:创建表时,只需要指定列族即可,列可以动态增加 表 列族 - 列 列原创 2021-07-20 15:16:09 · 544 阅读 · 1 评论 -
kafka重复消费问题分析和解决
文章目录名词解释kafka 队列分区topic 队列 与 partition 分区优势kafka 消费者组Consumer 消费者 与 ConsumerGroup 消费者组消费者 与 分区kafka 重平衡重平衡 RebalanceRebalance触发时机Rebalance 过程Rebalance Generation具体流程不同场景问题避免重复消费函数幂等性避免频繁的重平衡ConsumerRebalanceListener相关文章 名词解释 名词 解释 Producer 消息的生成者原创 2021-07-19 10:54:28 · 3195 阅读 · 0 评论 -
Hive Spark引擎
Spark on yarn 官方文档 下载spark-hadoop注意对应版本 修改配置文件spark-env.shexport SPARK_DIST_CLASSPATH=$(hadoop classpath) export HADOOP_HOME=/opt/hadoop-3.2.1 export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop Hive on Spark原创 2021-06-02 15:18:18 · 272 阅读 · 0 评论 -
Hive-MR引擎
文章目录概述组成部分语法DDLDML函数调优压缩和存储 概述 组成部分 语法 DDL DML 函数 调优 压缩和存储原创 2021-04-25 14:51:58 · 2038 阅读 · 0 评论