![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 89
Hive
SuperQiu~
这个作者很懒,什么都没留下…
展开
-
Hive 常见错误及解决方案
常见错误及解决方案0)如果更换 Tez 引擎后,执行任务卡住,可以尝试调节容量调度器的资源调度策略将$HADOOP_HOME/etc/hadoop/capacity-scheduler.xml 文件中的<property> <name>yarn.scheduler.capacity.maximum-am-resource-percent</name> <value>0.1</value> <description> Maxi原创 2021-12-14 22:53:55 · 1117 阅读 · 0 评论 -
Hive 实战
Hive 实战需求描述统计硅谷影音视频网站的常规指标,各种 TopN 指标:– 统计视频观看数 Top10– 统计视频类别热度 Top10– 统计出视频观看数最高的 20 个视频的所属类别以及类别包含 Top20 视频的个数– 统计视频观看数 Top50 所关联视频的所属类别排序– 统计每个类别中的视频热度 Top10,以 Music 为例– 统计每个类别视频观看数 Top10– 统计上传视频最多的用户 Top10 以及他们上传的视频观看次数在前 20 的视频数据结构1)视频表2)原创 2021-12-14 22:53:14 · 443 阅读 · 0 评论 -
Hive 企业级调优
企业级调优1、执行计划(Explain)1)基本语法EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query2)案例实操(1)查看下面这条语句的执行计划没有生成 MR 任务的有生成 MR 任务的(2)查看详细执行计划hive (default)> explain extended select * from emp;hive (default)> explain extended select deptno, avg(sal)原创 2021-12-13 23:21:10 · 486 阅读 · 0 评论 -
Hive 压缩和存储
压缩和存储1、Hadoop 压缩配置MR 支持的压缩编码为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩性能的比较:On a single core of a Core i7 processor in 64-bit mode, Snappy compresses at about 250 MB/sec or more and decompresses at about 500 MB/sec or more压缩参数配置要在 Hadoop 中启用压缩,可以配置原创 2021-12-13 16:44:01 · 582 阅读 · 0 评论 -
Hive DQL数据查询函数
函数1、系统内置函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;2、常用内置函数空字段赋值1)函数说明NVL:给值为 NULL 的数据赋值,它的格式是 NVL( value,default_value)。它的功能是如果 value 为 NULL,则 NVL 函数返回 defau原创 2021-12-13 15:43:41 · 678 阅读 · 0 评论 -
Hive 分区表和分桶表
分区表和分桶表1、分区表分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。分区表基本操作1)引入分区表(需要根据日期对日志进行管理, 通过部门信息模拟)dept_20200401.logdept_20200402.logdept_20200403.log2)创建分区表语法hiv原创 2021-12-11 13:57:33 · 165 阅读 · 0 评论 -
Hive DQL数据查询
Hive查询https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list][CLUSTER BY col_list| [DISTRIB原创 2021-12-11 12:31:16 · 219 阅读 · 0 评论 -
Hive DML数据操作
DML 数据操作1、数据导入向表中装载数据(Load)1)语法hive> load data [local] inpath '数据的 path' [overwrite] into table student [partition (partcol1=val1,…)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)inpath:表示加载数据的路径(4)overwrite:表示覆盖表中已有数据,原创 2021-12-10 22:32:48 · 223 阅读 · 0 评论 -
Hive DDL数据定义
DDL 数据定义1、创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create datab原创 2021-12-10 15:45:11 · 160 阅读 · 0 评论 -
Hive 数据类型
Hive 数据类型1、基本数据类型对于 Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。2、集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据类型允许任意层次的嵌套。1)案例实操(原创 2021-12-09 23:34:16 · 199 阅读 · 0 评论 -
Hive 安装
Hive 安装Hive 安装地址1)Hive 官网地址http://hive.apache.org/2)文档查看地址https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址http://archive.apache.org/dist/hive/4)github 地址https://github.com/apache/hiveHive 安装部署安装 Hive1)把 apache-hive-3.1.2-bi原创 2021-12-09 22:27:29 · 1462 阅读 · 0 评论 -
Hive 基本概念
Hive 基本概念1、什么是 Hive1) hive 简介Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。2) Hive 本质:将 HQL 转化成 MapReduce 程序(1)Hive 处理的数据存储在 HDFS(2)Hive 分析数据底层的实现是 MapReduce(3)执行程序运行在 Yarn 上Hive 的优缺点优点(1)操作接口采用类原创 2021-12-08 15:40:02 · 131 阅读 · 0 评论