Hive
文章平均质量分 94
Hive从入门到入坑!
大数据梦想家
专注与研究大数据基础,理论,架构与原型实现。
个人原创公众号「 大数据梦想家 」,每日更新大数据干货,欢迎上车!
一天的生活就是一生的缩影。在最美的年华,做最好的自己!!!
展开
-
Hive常用的函数总结
常见hive函数,必须掌握!原创 2020-12-09 00:14:33 · 9463 阅读 · 30 评论 -
Hive查询的18种方式,你都学会了吗?
Hive查询的18种方式,确定不点击进来学习一下吗?原创 2020-12-05 10:14:42 · 5148 阅读 · 39 评论 -
关于Hive命令的7个小技巧,你都清楚吗?
前言 最近在看冰河大佬写的《海量数据处理与大数据技术实战》,该书涵盖以Hadoop为主的多款大数据技术框架实战的内容,兼顾理论与实操,是市面上难得的技术好书。本篇文章,我就分享一下从中学习到的关于Hive命令的7个小技巧,受益的朋友记得来发三连⭐支持一下哟~Hive命令说明 在Hive提供的所有连接方式中,命令行界原创 2020-11-22 01:17:33 · 3258 阅读 · 32 评论 -
第一次做大数据毕设?不知道Springboot如何配置Hive?这篇博客或许能帮到你!
最近刚完成了一份关于大数据的毕设项目,其中使用到的框架就包括Springboot。因为做的是一个离线的数据分析,所以在组件的选用上面也是选择了Hive(如果是做实时的可能就要用到Spark或者HBase了…)。本篇博客,为大家带来的就是关于如何在Springboot项目中配置Hive做一个说明。更改...原创 2020-02-12 20:40:25 · 7600 阅读 · 2 评论 -
把本地的文件数据导入到Hive分区表--系列①Java代码
本篇博客,小菌为大家带来关于如何将本地的多个文件导入到Hive分区表中对应的分区上的方法。一共有四种方法,本篇将介绍第一种—Java代码。 &nb...原创 2019-12-25 23:31:02 · 5943 阅读 · 2 评论 -
Hive中的复合数据类型
在正式开始之前,先让我们来看下Hive中所有的数据类型吧!数字类类型长度备注TINYINT1字节有符号整型SMALLINT2字节有符号整型INT4字节有符号整型BIGINT8字节有符号整型FLOAT4字节有符号单精度浮点数D...原创 2019-12-03 23:19:27 · 5371 阅读 · 2 评论 -
Hive性能优化之推测执行(6)
在分布式集群环境下,因为程序Bug(包括Hadoop本身的bug),负载不均衡或者资源分布不均等原因,会造成同一个作业的多个任务之间运行速度不一致,有些任务的运行速度可能明显慢于其他任务(比如一个作业的某个任务进度只有50%,而其他所有任务已经运行完毕),则这些任务会拖慢作业的整体执行进度。为了避免这种...原创 2019-12-01 17:20:59 · 5335 阅读 · 0 评论 -
Hive性能调优之JVM重用(5)
JVM重用是Hadoop调优参数的内容,其对Hive的性能具有非常大的影响,特别是对于很难避免小文件的场景或task特别多的场景,这类场景大多数执行时间都很短。 Hadoop的默认配置通常是使用派生JVM来执...原创 2019-12-01 16:55:31 · 6664 阅读 · 3 评论 -
Hive性能调优之严格模式(4)
Hive提供了一个严格模式,可以防止用户执行“高危”的查询。 通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为st...原创 2019-12-01 16:41:03 · 5215 阅读 · 1 评论 -
Hive性能调优之并行执行(3)
Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下,Hive一次只会执行一个阶段。不过,某个特定的job可能包含众多的阶段,而这些阶段可能并非完全互相依赖的,也就是说有些阶段是可以并...原创 2019-12-01 11:30:31 · 6627 阅读 · 38 评论 -
Hive性能调优之数据倾斜(2)
Map数<1>通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);<2>举例:  ...原创 2019-12-01 11:06:22 · 5200 阅读 · 2 评论 -
Hive性能调优之Fetch抓取(1)
我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。 但是Hive中对某些情况的查询可以不必使用MapReduc...原创 2019-11-30 22:19:50 · 7154 阅读 · 0 评论 -
hive的数据存储格式
Hive支持的存储数据的格式主要有:TEXTFILE(行式存储) 、SEQUENCEFILE(行式存储)、ORC(列式存储)、PARQUET(列式存储)。列式存储和行式存储上图左边为逻辑表,右边第一个为行式存储,第二个为列式存储。 &nb...原创 2019-11-30 16:48:27 · 5049 阅读 · 38 评论 -
Hive的数据压缩介绍及使用
在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的,可以使用压缩来节省我们的MR处理的网络带宽。 &nb...原创 2019-11-30 12:33:04 · 4719 阅读 · 0 评论 -
Hive表数据的加载与导出
本篇博客,小菌为大家详细地带来Hive中表数据的加载与导出。Hive表数据加载1.直接向分区表中插入数据insert into table score3 partition(month =‘201807’) values (‘001’,‘002’,‘100’);2、通过查询插入数据(linux...原创 2019-11-23 21:54:24 · 4956 阅读 · 43 评论 -
Hive的自定义函数与通过reflect调用java方法
本篇博客小菌为大家带来的是关于Hive自定义函数的相关内容! 首先先让我们来看下系统自带的函数有哪些! 进入Hi...原创 2019-11-21 20:30:24 · 5599 阅读 · 0 评论 -
Hive基本操作(持续更新ing)
本篇博客,小菌分享的是关于Hive的基本操作!数据库的基本操作创建数据库 create database [ if not exists ] myhive ;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metas...原创 2019-11-20 17:25:48 · 4526 阅读 · 0 评论 -
Hive基本概念入门与安装部署,使用(简单清晰,一目了然!)
在经过几天MapReduce的学习之后,我们总算是来到了Hive阶段。本篇博客小菌将为大家带来Hadoop组件之——Hive的介绍! 首先在开始之前,再让我们通过一张熟悉的图片来回顾一下Hadoop生态系...原创 2019-11-19 21:11:19 · 4326 阅读 · 0 评论