自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Hive随笔

array写入hive

2022-07-18 19:50:36 379 1

翻译 HBase第一天:HBase 设计理念和架构原理

HBase 的核心解决问题为低延时的海量数据集中的随机读写操作。HBase(PowerSet 公司) 是 Google 的 BigTable 的开源实现,底层存储引擎是基于 LSM-Tree 数据结构设计的。写入数据时会先写 WAL 日志,再将数据写到写缓存 MemStore 中,MemStore 的内部实现是一个跳表数据结构,等写缓存达到一定规模后或满足其他触发条件才会 Flush 刷写到磁盘,为了提高从文件中查找数据的效率,将内存的数据先按照一定的规则排序,然后刷写到磁盘上。这样就将...

2022-04-21 11:12:09 311

原创 Hive第三天(语法调优)

一、查看执行计划Hive 的 SQL 语句在执行之前需要将 SQL 语句转换成 MapReduce 任务,因此需要了解具体的转换过程,可以在 SQL 语句中输入如下命令查看具体的执行计划。## 查看执行计划,添加extended关键字可以查看更加详细的执行计划explain [extended] query例如:explain select department, count(*) as total from student where age >= 18 group by dep

2022-04-20 09:31:48 174

原创 Hive实战第二天

一、hive全局排序如果使用 order by 来做,最终就是一个 reduceTask 来做,所以当数据量特别大的时候,肯定行不通。而我们的方案就是选择多个 reduceTask + sort by 做局部排序。必要条件:只要能保证,第一个分区的所有数据,小于第二个分区,第二个分区的所有数据小于第三个分区.....实现思路: 用 范围分区+ 分区排序。-- 设置reduce的个数为6set mapreduce.job.reduces=6;-...

2022-04-16 22:32:31 1993

原创 Hive实战第一天

hive,大数据

2022-04-14 10:47:08 1421

原创 Flink写数据(Sink)到HBASE报错解决

最近在做一个实时数仓的项目,需要把维度数据打入到HBASE中,以便实时分析时使用。在写入数据到HBASE中时,遇到了以下问题:1、连接报错: 根据提示,应该是连接被关闭了Caused by: java.lang.IllegalArgumentException: Connection is null or closed. at org.apache.hadoop.hbase.client.HTable.<init>(HTable.java:308) at or...

2022-03-28 22:56:40 3186

转载 Flink原理学习记录

一、首先看下整个互联网行业所有产品的本质需求:存储:大量数据的存储,对应的产品和组件如下,HDFS、HBASE、MySql、Redis、MongoDB、es、时序数据库、图数据库、对象数据库、数据湖取:单点取(例如MySql中select * from table where id =1)、批量取(类似HBase的范围查询)、全量取(文件上传下载,例如HDFS的文件操作)分析(计算):计算引擎(MapReduce、Spark、Flink、stom)、分析性数据库(phoenix、...

2022-01-10 14:22:14 173

原创 谈谈大数据架构下的存储系统

相信了解过大数据的小伙伴们,对大数据架构的各个组件的名称和大致作用肯定有一定的了解。那我们来看看那些属于存储系统吧 1.hadoop,毫无疑问,它肯定是存储系统,用来存储分布式文件的。从存取速度角度来说,它的速度并不快。从数据量来说,海亮数据存储说的就是以它为鼻祖的组件。他并不擅长存取大量的小文件。适合存储大文件。因为文件的元数据信息保存在namenode的内存中,这个数据结构决定了不能存储太多小文件。 2.hive,它不是存储系统,它是一个基于hadoop的数据仓库,即可以讲存储在hadoop上的结.

2021-12-31 22:35:47 2082

原创 企业级数据之我见

今天我来给大家聊一聊数据的事,数据究竟是什么?数据就是我们在生产、生活、娱乐等等过程中产生的一些信息的一个记录。对数据怎么用,我给他分了按照数据的量的大小,我分为三类,小数据量,中等数据量,大型数据量,每种不同的数据量,按照量级处理和使用它的手段是不一样的,这是第一种分类。那么第二种分类,我们对数据的使用的要求,我们暂且就定义为使用的要求,我认为使用的要求包括我们的最终的一个展示的一个形式,这是第一个点。第二个安全性、规范性等。第三就是说我们根据数据使用的要求,可以分为有结果就行,我们能...

2021-12-25 16:06:26 253

原创 Zookeeper原理和组件

简介:本文主要描述了zookeeper的工作原理和两大组件:zkdatabase和watch机制,适合作为原理理解。Zookeeper的工作原理 Zookeeper(以下简称ZK)是一个分布式环境下的事务的协调者,为其他分布式环境下的软件系统提供协调服务。它的主要工作为当分布式环境下系统出现数据不一致,用它来做最终的协调,也就是它来告诉分布式系统,你这个数据应该是什么。通俗的来讲,拿疫情来举例,当某个地区发生疫情时,各种小道消息满天飞,各个公司都不知道明天能否正常上班,到底是居家办公还...

2021-12-22 20:07:31 1572

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除