It.explorer
码龄4年
关注
提问 私信
  • 博客:58,566
    58,566
    总访问量
  • 46
    原创
  • 1,311,265
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江苏省
  • 加入CSDN时间: 2021-05-10
博客简介:

weixin_58078092的博客

查看详细资料
个人成就
  • 获得24次点赞
  • 内容获得2次评论
  • 获得146次收藏
创作历程
  • 46篇
    2021年
成就勋章
TA的专栏
  • hive
    8篇
  • hadoop
    7篇
  • 数据集成工具
  • hbase
    7篇
  • html
    1篇
  • mysql
    10篇
  • redis
    2篇
  • xshell
    1篇
  • linux
    3篇
  • java
    6篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive调优方式

文章目录一、建表注意事项1、分区、分桶2、一般使用外部表,避免数据误删3、选择适当的文件储存格式及压缩格式4、命名要规范5、数据分层,表分离,但是不要分的太散二、查询优化1、分区裁剪 where过滤,先过滤,后join2、分区分桶,合并小文件3、适当的子查询4、排序方式三、Hive数据倾斜优化数据倾斜出现原因表现数据倾斜解决具体解决四、作业优化一、建表注意事项1、分区、分桶一般按照业务日期进行分区,每天的数据放在一个分区里,这样可以查询每一天的数据,避免了全局扫描,提高效率2、一般使用外部表,避免数
原创
发布博客 2021.11.17 ·
556 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive数仓分层架构

文章目录一、为什么要进行数据分层?数据分层的好处?1、原因2、好处二、hive数仓分为哪几层?1、ODS层:数据运营层(贴源层)作用我们需要做的是?2、DW层: 数据仓库层(1)DWD层:数据明细层(2)DWM层:数据中间层(3)DWS层:数据服务层3、ADS层一、为什么要进行数据分层?数据分层的好处?1、原因对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控。2、好处清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据血缘
原创
发布博客 2021.10.28 ·
4379 阅读 ·
2 点赞 ·
0 评论 ·
34 收藏

phoenix安装及使用(重点二级索引)

文章目录一、phoenix搭建1、关闭HBase集群,在master中执行2、上传解压配置环境变量3、将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下4、启动hbase , 在master中执行5、配置环境变量二、常用命令三、phoenix表映射3.1、视图映射3.2、表映射四、Phoenix二级索引1、开启索引支持2、创建索引2.1、全局索引2.2、本地索引2.3、覆盖索引三、Phoenix JDBC一、phoenix搭建1、关闭HBas
原创
发布博客 2021.10.20 ·
1013 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase HA(高可用)、MapReduce读写HBase

文章目录一、为什么要使用HBase HA?二、HBase HA又什么好处?三、如何启动HBase HA一、为什么要使用HBase HA?以三台机器为例,当启动HBase的时候会有一个HMaster在ZK中/master节点上自动注册,因为HMaster中有一个,当HMaster进程挂掉后,会对整个集群造成影响(单节点故障)。而当增加一个HMaster之后,这个备用的HMaster在启动时会在ZK中backup-masters节点注册二、HBase HA又什么好处?当RegionServer挂了的时候
原创
发布博客 2021.10.20 ·
349 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase过滤器

HBase过滤器文章目录HBase过滤器作用比较过滤器比较运算符常见的六大比较过滤器BinaryComparator(二进制比较器)BinaryPrefixComparator(二进制前缀比较器)NullComparator(空比较器)一般不用BitComparator(位比较器)一般不用RegexStringComparator(正则比较器)SubstringComparator示例代码rowKey过滤器:RowFilter列簇过滤器:FamilyFilter列过滤器:QualifierFilter列值
原创
发布博客 2021.10.20 ·
980 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive异步求和

Hive调优-数据倾斜优化问题抛出:比如这里有100万的数据,99万的a,1万的b,最终到reduce阶段,相同的处理能力,一个处理99万,一个处理1万,最后处理的效率肯定是不相同的,会产生数据倾斜。随机数怎么打:(也可以直接打在后面做字符串的拼接,然后再去掉)思路1,数据倾斜解决看下key的分布处理集中的key原因1)、key分布不均匀(实际上还是重复) 比如 group by 或者 distinct的时候2)、数据重复,join 笛卡尔积 数据膨胀表现任务进度长时间维持在99%(
原创
发布博客 2021.10.17 ·
144 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase - JAVA -API

文章目录一、几个主要的HBase API类和数据模型之间的对应关系二、使用java代码操作HBase1、初始化连接2、创建表3、删除表4、修改表5、添加数据put6、putall 读取students.txt 并将数据写入Hbase6、获取数据7、查询数据8、获取数据第二种方式9、关闭连接一、几个主要的HBase API类和数据模型之间的对应关系二、使用java代码操作HBaseimport org.apache.hadoop.conf.Configuration;import org.apach
原创
发布博客 2021.10.17 ·
111 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase shell基础操作

文章目录1、进入HBase shell命令2、创建表3、查看所有的表4、查看表详情5、表修改(1)增加新的列簇(2)删除指定的列簇(注意:表至少有一个列簇,所以要删除列簇需要表中至少两个列簇才能删除)6、插入数据7、根据rowkey查询结果8、查询所有数据(1)扫描所有记录(2)扫描前两条(3)范围查询 STARTROW(开始rowkey) ENDROW(结束rowkey)9、统计表记录数1、进入HBase shell命令hbase shell2、创建表create <table>,
原创
发布博客 2021.10.17 ·
294 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase基础

文章目录一、Hadoop生态系统二、HBase简介三、HBase系统架构1、HBase系统组成2、HMaster介绍(1)HMster的作用3、HRegionServe介绍(1)HRegionServe的作用(2)HRegionServerd的组成介绍(3)HBase的读写流程四、HBase数据模型1、HBase数据模型介绍2、Rowkey3、Column Family(列族)和qualifier(列)4、Timestamp时间戳5、Cell单元格一、Hadoop生态系统二、HBase简介1、H
原创
发布博客 2021.10.17 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive开窗函数、窗口帧

​前言 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,哟偶是我们想要既显示聚集后的数据,这时我们便引入了窗口函数。一、什么是开窗函数1、概念 好像给每一份数据开一扇窗户,所以叫开窗函数2、开窗函数都有哪些(1)row_number 无并列排名用法:select xxxx,row_number() over (partition by 分组字段 orde
原创
发布博客 2021.10.13 ·
693 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

编辑器范例

范例欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;增加了
原创
发布博客 2021.10.13 ·
94 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive分桶

一、Hive分桶介绍分桶实际上是对文件(数据)的进一步切分Hive默认关闭分桶作用:在往分桶表中插入数据的时候,会根据 clustered by 指定的字段 进行hash分区 对指定的buckets个数 进行取余,进而可以将数据分割成buckets个数个文件,以达到数据均匀分布,可以解决Map端的“数据倾斜”问题,方便我们取抽样数据,提高Map join效率分桶字段 需要根据业务进行设定##### 开启分桶开关hive> set hive.enforce.bucketing.
原创
发布博客 2021.10.10 ·
283 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive分区

一、分区的概念及作用概念:分区表实际上是在表的目录下在以分区命名,建子目录作用:进行分区裁剪,避免全表扫描,减少MapReduce处理的数据量,提高效率一般在公司的hive中,所有的表基本上都是分区表,通常按日期分区、地域分区分区表在使用的时候记得加上分区字段分区也不是越多越好,一般不超过3级,根据实际业务衡量二、如何实现分区表1、分区表的简单创建及简单使用(增删查改)(1)建立分区表create external table students_pt1(...
原创
发布博客 2021.10.10 ·
512 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HBase安装

1、启动hadoopstart-all.sh验证http://master:500702、启动zookeeper需要在在三台中分别启动zkServer.sh startzkServer.sh status搭建hbase1、上传解压配置环境变量tar -zxvf hbase-1.4.6-bin.tar.gz2、修改hbase-env.sh文件增加java配置export JAVA_HOME=/usr/local/soft/jdk1.8.0_171关闭默认zk配置e.
原创
发布博客 2021.10.09 ·
86 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive语法及进阶

一、基本语法1、Hive--建表[external]代表创建外部表create [external] table [if not exists] table_name// 定义字段名,字段类型[(col_name data_type [comment col_comment], ...)]// 给表加上注解 [commenttable_comment]// 分区[partitionedby(col_name data_type [comment c...
原创
发布博客 2021.09.29 ·
373 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive架构及其安装和简单使用

一、hive是什么HIve是建立在Hadoop上的数据仓库基础架构。二、hive的概念及架构1、概念它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 m...
原创
发布博客 2021.09.29 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

MapReduce在Yarn上执行流程

目录1、执行流程2、Yarn核心组件功能1、执行流程首先,Resource Manager会为每一个application(比如一个用户提交的MapReduce job)在NodeManager里面申请一个container,然后在该container里面启动一个Application Master。container在Yarn中是分配资源的容器(内存、cpu、硬盘等),它启动时便会相应启动一个JVM。然后,Application Master便陆续为application包含的每...
原创
发布博客 2021.09.28 ·
733 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

HDFS原理深入

一、HDFS概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。容错。即使系统中有某些节点宕机,整体来说系统仍然可以持...
原创
发布博客 2021.09.28 ·
213 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hadoop三大组件

1、介绍hadoop的组件hadoop有三个主要的核心组件:HDFS(分布式文件存储)、MAPREDUCE(分布式的计算)、YARN(资源调度),现在云计算包括大数据和虚拟化进行支撑。  在HADOOP(hdfs、MAPREDUCE、yarn)大数据处理技术框架,擅长离线数据分析.  Zookeeper分布式协调服务基础组件,Hbase 分布式海量数据库,离线分析和在线业务处理。  Hive sql数据仓库工具,使用方便,功能丰富,基于MR延迟大,可以方便对数据的分析,并且数据的处理...
原创
发布博客 2021.09.28 ·
11847 阅读 ·
3 点赞 ·
0 评论 ·
28 收藏

MapReduce概述及MapReduce详细实现

目录一、概述二、定义三、MapReduce原理1、原理四、MR执行过程1、map阶段2、reudce阶段3、shuffle过程五、MapReduce默认输入处理类六、RecordReader七、Inputsplit一、概述1)MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.2)MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行..
原创
发布博客 2021.09.28 ·
1684 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏
加载更多