技术和原理_yunzailin的博客-CSDN博客

技术和原理

关注

文章平均质量分 84

关注数：文章数：6 文章阅读量：7679 文章收藏量：5

作者: yunzailin

数据分析从业者；从事过多年软件实施运维；多年BI项目交付经验，对BI和数据仓库体系认知深刻。个人发展方向为大数据方向，对数据湖仓和实时数据有浓厚的兴趣；个人对技术和业务的平衡为深入理解技术原理，深入业务需求和实现，即道路为原理支持下的业务实现。我的分享将是以原理+实现+管理三个模块，对自己以前和以后的经历进行总结和前瞻。

展开

HBase第一天：HBase 设计理念和架构原理

HBase 的核心解决问题为低延时的海量数据集中的随机读写操作。HBase(PowerSet 公司) 是 Google 的 BigTable 的开源实现，底层存储引擎是基于 LSM-Tree 数据结构设计的。写入数据时会先写 WAL 日志，再将数据写到写缓存 MemStore 中，MemStore 的内部实现是一个跳表数据结构，等写缓存达到一定规模后或满足其他触发条件才会 Flush 刷写到磁盘，为了提高从文件中查找数据的效率，将内存的数据先按照一定的规则排序，然后刷写到磁盘上。这样就将...

翻译 2022-04-21 11:12:09 · 360 阅读 · 0 评论
Hive第三天（语法调优）

一、查看执行计划Hive 的 SQL 语句在执行之前需要将 SQL 语句转换成 MapReduce 任务，因此需要了解具体的转换过程，可以在 SQL 语句中输入如下命令查看具体的执行计划。## 查看执行计划，添加extended关键字可以查看更加详细的执行计划explain [extended] query例如：explain select department, count(*) as total from student where age >= 18 group by dep

原创 2022-04-20 09:31:48 · 209 阅读 · 0 评论
Hive实战第二天

一、hive全局排序如果使用 order by 来做，最终就是一个 reduceTask 来做，所以当数据量特别大的时候，肯定行不通。而我们的方案就是选择多个 reduceTask + sort by 做局部排序。必要条件：只要能保证，第一个分区的所有数据，小于第二个分区，第二个分区的所有数据小于第三个分区.....实现思路：用范围分区+ 分区排序。-- 设置reduce的个数为6set mapreduce.job.reduces=6;-...

原创 2022-04-16 22:32:31 · 2022 阅读 · 0 评论
Flink写数据（Sink）到HBASE报错解决

最近在做一个实时数仓的项目，需要把维度数据打入到HBASE中，以便实时分析时使用。在写入数据到HBASE中时，遇到了以下问题：1、连接报错：根据提示，应该是连接被关闭了Caused by: java.lang.IllegalArgumentException: Connection is null or closed. at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:308) at or...

原创 2022-03-28 22:56:40 · 3278 阅读 · 0 评论
Flink原理学习记录

一、首先看下整个互联网行业所有产品的本质需求：存储：大量数据的存储，对应的产品和组件如下，HDFS、HBASE、MySql、Redis、MongoDB、es、时序数据库、图数据库、对象数据库、数据湖取：单点取(例如MySql中select * from table where id =1)、批量取（类似HBase的范围查询）、全量取（文件上传下载，例如HDFS的文件操作）分析(计算)：计算引擎（MapReduce、Spark、Flink、stom）、分析性数据库(phoenix、...

转载 2022-01-10 14:22:14 · 189 阅读 · 0 评论
Zookeeper原理和组件

简介：本文主要描述了zookeeper的工作原理和两大组件：zkdatabase和watch机制，适合作为原理理解。Zookeeper的工作原理 Zookeeper（以下简称ZK）是一个分布式环境下的事务的协调者，为其他分布式环境下的软件系统提供协调服务。它的主要工作为当分布式环境下系统出现数据不一致，用它来做最终的协调，也就是它来告诉分布式系统，你这个数据应该是什么。通俗的来讲，拿疫情来举例，当某个地区发生疫情时，各种小道消息满天飞，各个公司都不知道明天能否正常上班，到底是居家办公还...

原创 2021-12-22 20:07:31 · 1628 阅读 · 0 评论

技术和原理

作者: yunzailin

HBase第一天：HBase 设计理念和架构原理

Hive第三天（语法调优）

Hive实战第二天

Flink写数据（Sink）到HBASE报错解决

Flink原理学习记录

Zookeeper原理和组件