大数据~~Hive
一尘在心
这个作者很懒,什么都没留下…
展开
-
Hive配置汇总
https://blog.csdn.net/qq_36864672/article/details/103597844转载 2020-02-18 19:25:05 · 189 阅读 · 0 评论 -
Hive学习之路 (九)Hive的内置函数
目录数学函数 集合函数 类型转换函数 日期函数 条件函数 字符函数 聚合函数 表生成函数正文回到顶部数学函数 Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Retur...转载 2019-07-15 16:52:37 · 558 阅读 · 0 评论 -
Hive学习之路 (十)Hive的高级操作
目录一、负责数据类型 1、array 2、map 3、struct 4、uniontype 二、视图 1、Hive 的视图和关系型数据库的视图区别 2、Hive视图的创建语句 3、Hive视图的查看语句 4、Hive视图的使用语句 5、Hive视图的删除语句 三、函数 1、内置函数 2、自定义函数UDF (1)简单UDF示例 (2)...转载 2019-07-15 17:20:19 · 198 阅读 · 0 评论 -
Hive学习之路 (二十)Hive 执行过程实例分析
目录一、Hive 执行过程概述 1、概述 2、Hive 操作符列表 3、Hive 编译器的工作职责 4、优化器类型 二、join 1、对于 join 操作 2、实现过程 3、具体实现过程 三、Group By 1、对于 group by操作 2、实现过程 四、Distinct 1、对于 distinct的操作 2、实现过程 3、详细过...转载 2019-07-19 14:13:49 · 307 阅读 · 0 评论 -
Hive学习之路 (十一)Hive的5个面试题
目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析 二、学生课程成绩 1、说明 2、需求 三、求每一年最大气温的那一天 + 温度 1、说明 2、 需求 3、解析 四、求学生选课情况 1、数据说明 2、数据准备 3、需求 4、解析 五、求月销售额和总销售额 1、数据说明 2、数据准备...转载 2019-07-17 09:48:19 · 409 阅读 · 0 评论 -
Hive学习之路 (二十一)Hive 优化策略
目录一、Hadoop 框架计算特性 二、优化常用手段 三、排序选择 四、怎样做笛卡尔积 五、怎样写 in/exists 语句 六、设置合理的 maptask 数量 七、小文件合并 八、设置合理的 reduceTask 的数量 九、合并 MapReduce 操作 十、合理利用分桶:Bucketing 和 Sampling 十一、合理利用分区:Partition 十二、Jo...转载 2019-07-19 15:01:32 · 163 阅读 · 0 评论 -
Hive学习之路 (十二)Hive SQL练习之影评案例
目录案例说明 数据下载 解析 1、正确建表,导入数据(三张表,三份数据),并验证是否正确 2、求被评分次数最多的10部电影,并给出评分次数(电影名,评分次数) 3、分别求男性,女性当中评分最高的10部电影(性别,电影名,影评分) 4、求movieid = 2116这部电影各年龄段(因为年龄就只有7个,就按这个7个分就好了)的平均影评(年龄段,影评分) 5、求最喜欢看电影(...转载 2019-07-17 17:46:14 · 1243 阅读 · 0 评论 -
Hive学习之路 (十三)Hive分析窗口函数(一) SUM,AVG,MIN,MAX
目录数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 玩一玩AVG 查询语句 查询结果 玩一玩MIN 查询语句 查询结果 玩一玩MAX 查询语句 查询结果 正文回到顶部数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5co...转载 2019-07-17 17:55:08 · 204 阅读 · 0 评论 -
Hive学习之路 (十四)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
目录概述 数据准备 数据格式 创建表 玩一玩NTILE 说明 查询语句 查询结果 比如,统计一个cookie,pv数最多的前1/3的天 玩一玩ROW_NUMBER 说明 分组排序 查询结果 玩一玩RANK 和 DENSE_RANK 查询语句 查询结果 ROW_NUMBER、RANK和DENSE_RANK的区别正文回到顶部...转载 2019-07-17 19:19:05 · 181 阅读 · 0 评论 -
Hive学习之路 (十五)Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK
目录数据准备 数据格式 创建表 玩一玩CUME_DIST 说明 查询语句 查询结果 结果说明 玩一玩PERCENT_RANK 说明 查询语句 查询结果 结果说明 正文这两个序列分析函数不是很常用,这里也练习一下。回到顶部数据准备数据格式cookie3.txtd1,user1,1000d1,user2,...转载 2019-07-17 19:24:33 · 682 阅读 · 0 评论 -
Hive学习之路 (十六)Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE
目录数据准备 数据格式 创建表 玩一玩LAG 说明 查询语句 查询结果 结果说明 玩一玩LEAD 说明 查询语句 查询结果 结果说明 玩一玩FIRST_VALUE 说明 查询语句 查询结果 玩一玩LAST_VALUE 说明 查询语句 查询结果 如果不指定ORDER BY,则默认按照记录在文件中的...转载 2019-07-17 19:33:01 · 456 阅读 · 0 评论 -
Hive学习之路 (十七)Hive分析窗口函数(五) GROUPING SETS、GROUPING__ID、CUBE和ROLLUP
分类: Hadoop,Hive好文要顶 关注我 收藏该文 扎心了,老铁关注 - 55粉丝 - 860+加关注20« 上一篇:Hive学习之路 (十六)Hive分析窗口函数(四) LAG、LEAD、FIRST_VALUE和LAST_VALUE» 下一篇:Hive学习之路 (十八)Hive的Shell操作posted @ 2018-04-15 15:37 扎...转载 2019-07-17 19:37:13 · 501 阅读 · 0 评论 -
Hive学习之路 (十八)Hive的Shell操作
目录一、Hive的命令行 1、Hive支持的一些命令 2、语法结构 3、示例 二、Hive的参数配置方式 1、Hive的参数配置大全 2、Hive的参数设置方式 正文回到顶部一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the inte...转载 2019-07-17 19:47:57 · 180 阅读 · 0 评论 -
Hive学习之路 (十九)Hive的数据倾斜
目录1、什么是数据倾斜? 2、Hadoop 框架的特性 3、主要表现 4、容易数据倾斜情况 5、产生数据倾斜的原因 6、业务场景 (1)空值产生的数据倾斜 (2)不同数据类型关联产生数据倾斜 (3)大小表关联查询产生数据倾斜 正文回到顶部1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点回到顶部2、Hadoop 框...转载 2019-07-17 20:10:25 · 120 阅读 · 0 评论 -
Hive学习之路 (八)Hive中文乱码
目录Hive注释中文乱码 针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库Metastore中执行以下5条SQL语句 2、修改metastore的连接URL 验证正文回到顶部Hive注释中文乱码创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码create extern...转载 2019-07-15 16:43:08 · 300 阅读 · 0 评论 -
Hive学习之路 (七)Hive的DDL操作
目录1、创建库 语法结构 创建库的方式 2、查看库 查看库的方式 3、删除库 说明 示例 4、切换库 语法 示例 1、创建表 语法 示例 2、查看表 (1)查看表列表 (2)查看表的详细信息 查看表的信息 (3)查看表的详细建表语句 3、修改表 (1)修改表名 (2)修改字段定义 (3)修改分区信息 ...转载 2019-07-15 16:36:54 · 221 阅读 · 0 评论 -
Hive学习之路 (六)Hive SQL之数据类型和存储格式
目录一、数据类型 1、基本数据类型 2、复杂类型 二、存储格式 (1)textfile (2)SequenceFile (3)RCFile (4)ORCFile (5)Parquet 三、数据格式正文回到顶部一、数据类型1、基本数据类型Hive 支持关系型数据中大多数基本数据类型类型 描述 示例 b...转载 2019-07-15 16:09:42 · 548 阅读 · 0 评论 -
Hive环境部署
Hive安装部署-实验环境架构Hive安装部署-真实环境架构 Hive 环境的安装部署Hive 安装依赖 Hadoop 的集群,它是运行在 Hadoop 的基础上。所以在安装 Hive 之前,保证 Hadoop 集群能够成功运行。Hive的安装详细流程如下所示。1、下载HiveHive是Apache 的一个顶级开源项目,我们可以直接到官网下载需要的版本即可。使用的是ap...原创 2018-08-20 10:18:39 · 544 阅读 · 0 评论 -
Hive 常用操作
Hive 操作(一)表操作Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,那Hive 的表操作就非常容易,下面对 Hive 的表操作进行深入讲解。(1)先来创建一个表名为student1的内部表hive> CREATE TABLE IF NOT EXISTS student1(sno INT,sname STRING,age INT,sex STRING...原创 2018-08-20 13:08:29 · 432 阅读 · 0 评论 -
Hive与Impala的异同
hive和impala官网:http://hive.apache.org/http://impala.apache.orgHive 体系结构 Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive支持HSQL,是一种类SQL。...原创 2018-08-20 14:13:07 · 11621 阅读 · 0 评论 -
Hbase、Hive、Impala数据同步简单示例
Hbase +hive+impala数据同步简单示例首先先在hbase创建表hbasehbase shelllistscan 'TEST_INFO'create 'TEST_INFO','d'put ‘TEST_INFO’,’001’,’fields’,’VALUE’,scan 'TEST_INFO'Hivehive创建外部表 show databa...原创 2018-08-20 14:17:12 · 971 阅读 · 0 评论 -
Hive是否支持in函数
hive 中用in的时候,如分时段,分类型,分平台统计点击量select substr(createtime,12,2) hour,logtype,os_id,count(*) from wizad_mdm_raw_hdfs rawwhere ad_id in ('19829','19830','19831','26657d5ff9020d2abefe558796b99584') a...原创 2018-08-20 14:50:37 · 13363 阅读 · 0 评论 -
有Hive之后,为何还要学mapreduce
hive本身只是在mr上封装,应用场景自然更局限,不可能满足所有需求有些场景是不能用hive来实现,就需要mr来实现。结构复杂的日志文件,首先要经过ETL处理(使用mapreduce),得到的数据再有hive处理比较合适。直接让hive处理结构复杂的数据估计很难处理。业务比较复杂的,还是必须写mapreduce才能实现。Hive目前底层还是用MapReduce,以后可能会用Spar...原创 2018-08-20 14:56:02 · 2399 阅读 · 0 评论 -
Hive函数大全
一、关系运算:1. 等值比较: =语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from lxw_dual where 1=1;12. 不等值比较: <>语法: A <> B操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表...原创 2018-08-20 16:27:58 · 358 阅读 · 0 评论 -
Hive 优缺点
(一)hive的优点(1)简单容易上手:提供了类SQL查询语言HQL(2)可扩展:为超大数据集设计了计算/扩展能力(MR作为计算引擎,HDFS作为存储系统)一般情况下不需要重启服务Hive可以自由的扩展集群的规模。(3)提供统一的元数据管理(4)延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数(5)容错:良好的容错性,节点出现问题SQL仍可完成执行...原创 2018-08-21 10:40:36 · 5088 阅读 · 0 评论 -
Hive的核心原理以及查询优化
Hive是构建在Hadoop上的数据仓库软件框架,支持使用SQL来读,写和管理大规模数据集合。Hive入门非常简单,功能非常强大,所以非常流行。通常来说,Hive只支持数据查询和加载,但后面的版本也支持了插入,更新和删除以及流式api。Hive具有目前Hadoop上最丰富最全的SQL语法,也拥有最慢最稳定的执行。是目前Hadoop上几乎标准的ETL和数据仓库工具。Hive这个特点与其它AdHo...原创 2018-12-26 15:38:41 · 1786 阅读 · 0 评论 -
Hive-1-Hive初识
原文地址:https://www.cnblogs.com/qingyunzong/p/8707885.html一、Hive简介1.1、什么是Hive(1)Hive是Facebook实现并开源。(2)Hive是基于Hadoop的一个数据仓库工具。(3)Hive可以将结构化的数据映射为一张数据库表,并提供HQL(Hive SQL)查询功能。(4)Hive底层数据存储在HDFS上...转载 2019-07-15 11:33:53 · 163 阅读 · 0 评论 -
Spark项目实战-Hive安装
Hive官网地址:https://hive.apache.org/cdh版Hive下载地址:http://archive.cloudera.com/cdh5/cdh/5/Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简...转载 2019-07-15 11:35:41 · 362 阅读 · 0 评论 -
Hive学习之路 (三)Hive元数据信息对应MySQL数据库表
https://www.cnblogs.com/qingyunzong/p/8710356.html目录概述 一、存储Hive版本的元数据表(VERSION) 二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS ...转载 2019-07-15 15:03:35 · 370 阅读 · 0 评论 -
Hive学习之路 (五)DbVisualizer配置连接hive
目录一、安装DbVisualizer 二、配置DbVisualizer里的hive jdbc 1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹 2、拷贝Hadoop的相关jar包放入新建的hive文件夹里面 3、拷贝Hive的相关jar包放入新建的hive文件夹里面 4、结果 5、在tools/Driver manager中进行配置 6、在To...转载 2019-07-15 15:57:08 · 244 阅读 · 0 评论 -
Hive简介、应用场景及架构原理
Hive简介、应用场景及架构原理Hive背景介绍Hive最初是Facebook为了满足对海量社交网络数据的管理和机器学习的需求而产生和发展的。马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop的mapreduce操作专业性太强,所以facebook在这些基础上开发了hive框架,毕竟世界上会sql的人比会jav...原创 2018-08-20 09:38:52 · 852 阅读 · 0 评论