技术和原理
文章平均质量分 84
yunzailin
数据分析从业者;从事过多年软件实施运维;多年BI项目交付经验,对BI和数据仓库体系认知深刻。
个人发展方向为大数据方向,对数据湖仓和实时数据有浓厚的兴趣;个人对技术和业务的平衡为深入理解技术原理,深入业务需求和实现,即道路为原理支持下的业务实现。
我的分享将是以原理+实现+管理三个模块,对自己以前和以后的经历进行总结和前瞻。
展开
-
HBase第一天:HBase 设计理念和架构原理
HBase 的核心解决问题为低延时的海量数据集中的随机读写操作。HBase(PowerSet 公司) 是 Google 的 BigTable 的开源实现,底层存储引擎是基于 LSM-Tree 数据结构设计的。写入数据时会先写 WAL 日志,再将数据写到写缓存 MemStore 中,MemStore 的内部实现是一个跳表数据结构,等写缓存达到一定规模后或满足其他触发条件才会 Flush 刷写到磁盘,为了提高从文件中查找数据的效率,将内存的数据先按照一定的规则排序,然后刷写到磁盘上。这样就将...翻译 2022-04-21 11:12:09 · 360 阅读 · 0 评论 -
Hive第三天(语法调优)
一、查看执行计划Hive 的 SQL 语句在执行之前需要将 SQL 语句转换成 MapReduce 任务,因此需要了解具体的转换过程,可以在 SQL 语句中输入如下命令查看具体的执行计划。## 查看执行计划,添加extended关键字可以查看更加详细的执行计划explain [extended] query例如:explain select department, count(*) as total from student where age >= 18 group by dep原创 2022-04-20 09:31:48 · 209 阅读 · 0 评论 -
Hive实战第二天
一、hive全局排序如果使用 order by 来做,最终就是一个 reduceTask 来做,所以当数据量特别大的时候,肯定行不通。而我们的方案就是选择多个 reduceTask + sort by 做局部排序。必要条件:只要能保证,第一个分区的所有数据,小于第二个分区,第二个分区的所有数据小于第三个分区.....实现思路: 用 范围分区+ 分区排序。-- 设置reduce的个数为6set mapreduce.job.reduces=6;-...原创 2022-04-16 22:32:31 · 2022 阅读 · 0 评论 -
Flink写数据(Sink)到HBASE报错解决
最近在做一个实时数仓的项目,需要把维度数据打入到HBASE中,以便实时分析时使用。在写入数据到HBASE中时,遇到了以下问题:1、连接报错: 根据提示,应该是连接被关闭了Caused by: java.lang.IllegalArgumentException: Connection is null or closed. at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:308) at or...原创 2022-03-28 22:56:40 · 3278 阅读 · 0 评论 -
Flink原理学习记录
一、首先看下整个互联网行业所有产品的本质需求:存储:大量数据的存储,对应的产品和组件如下,HDFS、HBASE、MySql、Redis、MongoDB、es、时序数据库、图数据库、对象数据库、数据湖取:单点取(例如MySql中select * from table where id =1)、批量取(类似HBase的范围查询)、全量取(文件上传下载,例如HDFS的文件操作)分析(计算):计算引擎(MapReduce、Spark、Flink、stom)、分析性数据库(phoenix、...转载 2022-01-10 14:22:14 · 189 阅读 · 0 评论 -
Zookeeper原理和组件
简介:本文主要描述了zookeeper的工作原理和两大组件:zkdatabase和watch机制,适合作为原理理解。Zookeeper的工作原理 Zookeeper(以下简称ZK)是一个分布式环境下的事务的协调者,为其他分布式环境下的软件系统提供协调服务。它的主要工作为当分布式环境下系统出现数据不一致,用它来做最终的协调,也就是它来告诉分布式系统,你这个数据应该是什么。通俗的来讲,拿疫情来举例,当某个地区发生疫情时,各种小道消息满天飞,各个公司都不知道明天能否正常上班,到底是居家办公还...原创 2021-12-22 20:07:31 · 1628 阅读 · 0 评论