yunzailin-CSDN博客

HBase 的核心解决问题为低延时的海量数据集中的随机读写操作。HBase(PowerSet 公司) 是 Google 的 BigTable 的开源实现，底层存储引擎是基于 LSM-Tree 数据结构设计的。写入数据时会先写 WAL 日志，再将数据写到写缓存 MemStore 中，MemStore 的内部实现是一个跳表数据结构，等写缓存达到一定规模后或满足其他触发条件才会 Flush 刷写到磁盘，为了提高从文件中查找数据的效率，将内存的数据先按照一定的规则排序，然后刷写到磁盘上。这样就将...

2022-04-21 11:12:09 311

原创 Hive第三天（语法调优）

一、查看执行计划Hive 的 SQL 语句在执行之前需要将 SQL 语句转换成 MapReduce 任务，因此需要了解具体的转换过程，可以在 SQL 语句中输入如下命令查看具体的执行计划。## 查看执行计划，添加extended关键字可以查看更加详细的执行计划explain [extended] query例如：explain select department, count(*) as total from student where age >= 18 group by dep

2022-04-20 09:31:48 174

原创 Hive实战第二天

一、hive全局排序如果使用 order by 来做，最终就是一个 reduceTask 来做，所以当数据量特别大的时候，肯定行不通。而我们的方案就是选择多个 reduceTask + sort by 做局部排序。必要条件：只要能保证，第一个分区的所有数据，小于第二个分区，第二个分区的所有数据小于第三个分区.....实现思路：用范围分区+ 分区排序。-- 设置reduce的个数为6set mapreduce.job.reduces=6;-...

2022-04-16 22:32:31 1993

原创 Hive实战第一天

hive，大数据

2022-04-14 10:47:08 1421

原创 Flink写数据（Sink）到HBASE报错解决

最近在做一个实时数仓的项目，需要把维度数据打入到HBASE中，以便实时分析时使用。在写入数据到HBASE中时，遇到了以下问题：1、连接报错：根据提示，应该是连接被关闭了Caused by: java.lang.IllegalArgumentException: Connection is null or closed. at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:308) at or...

2022-03-28 22:56:40 3186

转载 Flink原理学习记录

一、首先看下整个互联网行业所有产品的本质需求：存储：大量数据的存储，对应的产品和组件如下，HDFS、HBASE、MySql、Redis、MongoDB、es、时序数据库、图数据库、对象数据库、数据湖取：单点取(例如MySql中select * from table where id =1)、批量取（类似HBase的范围查询）、全量取（文件上传下载，例如HDFS的文件操作）分析(计算)：计算引擎（MapReduce、Spark、Flink、stom）、分析性数据库(phoenix、...

2022-01-10 14:22:14 173

原创谈谈大数据架构下的存储系统

相信了解过大数据的小伙伴们，对大数据架构的各个组件的名称和大致作用肯定有一定的了解。那我们来看看那些属于存储系统吧 1.hadoop，毫无疑问，它肯定是存储系统，用来存储分布式文件的。从存取速度角度来说，它的速度并不快。从数据量来说，海亮数据存储说的就是以它为鼻祖的组件。他并不擅长存取大量的小文件。适合存储大文件。因为文件的元数据信息保存在namenode的内存中，这个数据结构决定了不能存储太多小文件。 2.hive，它不是存储系统，它是一个基于hadoop的数据仓库，即可以讲存储在hadoop上的结.

2021-12-31 22:35:47 2082

原创企业级数据之我见

今天我来给大家聊一聊数据的事，数据究竟是什么？数据就是我们在生产、生活、娱乐等等过程中产生的一些信息的一个记录。对数据怎么用，我给他分了按照数据的量的大小，我分为三类，小数据量，中等数据量，大型数据量，每种不同的数据量，按照量级处理和使用它的手段是不一样的，这是第一种分类。那么第二种分类，我们对数据的使用的要求，我们暂且就定义为使用的要求，我认为使用的要求包括我们的最终的一个展示的一个形式，这是第一个点。第二个安全性、规范性等。第三就是说我们根据数据使用的要求，可以分为有结果就行，我们能...

2021-12-25 16:06:26 253

原创 Zookeeper原理和组件

简介：本文主要描述了zookeeper的工作原理和两大组件：zkdatabase和watch机制，适合作为原理理解。Zookeeper的工作原理 Zookeeper（以下简称ZK）是一个分布式环境下的事务的协调者，为其他分布式环境下的软件系统提供协调服务。它的主要工作为当分布式环境下系统出现数据不一致，用它来做最终的协调，也就是它来告诉分布式系统，你这个数据应该是什么。通俗的来讲，拿疫情来举例，当某个地区发生疫情时，各种小道消息满天飞，各个公司都不知道明天能否正常上班，到底是居家办公还...

2021-12-22 20:07:31 1572

yunzailin的博客

原创 Hive随笔

翻译 HBase第一天：HBase 设计理念和架构原理