Hive
文章平均质量分 92
来自尚硅谷大数据技术Hive
喵先生呢
优秀的人哪都好,唯一的缺点是让人觉得自己是个垃圾。
展开
-
13. Hive实战之谷粒影音
文章目录Hive实战之谷粒影音1. 项目数据结构1.1 视频表1.2 用户表2. 数据清洗2.1 ETLMapper2.2 ETLUtil2.3 ETLDriver3. 项目准备工作3.1 创建表3.2 导入ETL后数据4. 业务分析4.1 统计视频观看数 Top104.2 统计视频类别热度 Top104.3 统计视频观看数 Top20 所属类别以及类别包含的 Top20 的视频个数4.4 统计视频观看数 Top50 所关联视频的所属类别 Rank4.5 统计上传视频最多的用户Top10以及他们上传的观看次原创 2020-08-08 11:36:28 · 2431 阅读 · 0 评论 -
12. Hive技术之企业级调优☆
文章目录Hive技术之企业级调优1. Fetch 抓取案列实操2. 本地模式案例实操3. 表的优化3.1 小表 Join大表执行小表 JOIN 大表语句执行大表 JOIN 小表语句3.2 大表 Join 大表空 KEY 过滤空 key 转换3.3 MapJoin案例实操3.4 Group By3.5 Count(Distinct) 去重统计3.6 笛卡尔积3.7 行列过滤3.8 动态分区调整案例实操3.9 分桶和分区4. MR 优化4.1 合理设置 Map 数4.2 小文件进行合并4.3 复杂文件增加 M原创 2020-08-07 00:18:47 · 155 阅读 · 0 评论 -
11. Hive技术之压缩和存储
Hive技术之压缩和存储1. Hadoop源码编译支持Snappy压缩Hadoop数据压缩相关基础知识编译后的hadoop-2.7.2.tar.gz --支持snappy压缩步骤:查看 hadoop 支持的压缩方式-- hadoop checknative 命令将编译好的支持 Snappy 压缩的 hadoop-2.7.2.tar.gz 包导入到 hadoop的/opt/software 中。解压 hadoop-2.7.2.tar.gz 到当前路径进入到/opt/so原创 2020-08-06 15:08:49 · 218 阅读 · 0 评论 -
10. Hive技术之自定义函数
文章目录Hive技术之自定义函数1. Hive系统内置函数2. 自定义函数3. 自定义UDF函数4. 自定义UDTF函数☆Hive技术之自定义函数1. Hive系统内置函数-- 查看系统自带的函数show functions;-- 显示自带的函数的用法desc function split;-- 细显示自带的函数的用法desc function extended split;2. 自定义函数Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义原创 2020-08-05 17:23:46 · 251 阅读 · 0 评论 -
9. Hive技术之HQL练习☆
文章目录Hive技术之HQL练习第一题1. 数据准备2. 需求分析3. HQL语句第二题 京东1. 数据准备2. HQL语句第三题 蚂蚁金服 第一问1. 数据准备2. 需求分析3. HQL语句第四题 蚂蚁金服 第二问1. 需求分析2. HQL语句2.1 解法一2.2 解法二☆Hive技术之HQL练习第一题1. 数据准备userIdvisitDatevisitCountu012017/1/215u022017/1/236u032017/1/228u0原创 2020-08-05 12:57:52 · 536 阅读 · 1 评论 -
8. Hive技术之常用查询函数
文章目录Hive技术之常用查询函数1. 空字段赋值2. 时间类3. CASE WHEN4. 行转列相关函数5. 列转行相关函数6. 窗口函数☆相关函数测试数据准备需求分析7. Rank数据准备按需求查询数据结果分析☆Hive技术之常用查询函数1. 空字段赋值nvl函数:给值为 null 的数据赋值,它的格式是 nvl( string1, replace_with)。它的功能是如果string1 为 null,则 NVL 函数返回 replace_with 的值,否则返回 string1 的值,原创 2020-08-01 17:28:03 · 467 阅读 · 0 评论 -
7. Hive技术之DQL数据查询
本文包含HiveSQL的基本查询(Select…From)、分组查询、关联查询 。更多细节尽在其中...原创 2020-07-24 00:28:12 · 674 阅读 · 0 评论 -
6. Hive技术之DML数据操作
文章目录Hive技术之DML数据操作1. 数据导入1.1 向表中装载数据(Load)1.2 通过查询语句向表中插入数据(Insert )1.3 查询语句中创建表并加载数据(As Select )1.4 创建表时通过 Location 指定加载数据2. 数据导出2.1 Insert 导出2.2 Hadoop 命令导出到本地2.3 Hive Shell 命令导出2.4 Sqoop3. Export导出和导入数据3.1 Export 导出到 HDFS3.2 Export 导入指定Hive表中☆Hive技术原创 2020-07-21 17:01:52 · 158 阅读 · 0 评论 -
5. Hive技术之DDL数据定义
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive是十分适合数据仓库的统计分析和Windows注册表文件。原创 2020-07-20 23:55:33 · 275 阅读 · 0 评论 -
4. Hive的数据类型
文章目录Hive 的数据类型1. 基本数据类型2. 集合数据类型3. 案例实操☆字段解释导入文本数据到测试表4. 类型转化☆Hive 的数据类型1. 基本数据类型对于Hive 的 String 类型相当于数据库的 varchar 类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储 2GB 的字符数。Hive 数据类型Java 数据类型长度例子TINYINTbyte1byte 有符号整数20SMALINTshort2by原创 2020-07-20 21:11:43 · 259 阅读 · 0 评论 -
3. Hive常见属性配置
文章目录Hive常见属性配置1. Hive数据仓库位置配置2. 查询后信息显示配置3. Hive 运行日志信息配置4. 参数的配置三种方式4.1 配置文件方式4.2 命令行参数方式4.3 参数声明方式5. HiveJDBC 访问(了解)6.Hive 常用交互命令☆Hive常见属性配置1. Hive数据仓库位置配置Default 数据仓库的最原始位置是在 hdfs 上的/user/hive/warehouse 路径下。在仓库目录下,没有对默认的数据库 default 创建文件夹。如果某张表属于原创 2020-07-20 16:20:59 · 210 阅读 · 0 评论 -
2. Hive的安装和配置
文章目录Hive的安装与配置1. Hive 安装及配置2. Hive 基本操作3. 将本地文件导入 Hive3.1 数据准备3.2 Hive 实际操作3.3 遇到的问题4. 安装Mysql数据库5. Hive 元数据配置到 MySql5.1 多窗口启动 Hive☆Hive的安装与配置Hive 官网地址 http://hive.apache.org/文档查看地址 https://cwiki.apache.org/confluence/display/Hive/GettingStarted下载地原创 2020-07-20 12:44:39 · 304 阅读 · 0 评论 -
1. Hive基本概念
Hive由 Facebook 开源用于解决海量结构化日志的数据统计。是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供`类 SQL 查询功能。原创 2020-07-19 23:29:32 · 205 阅读 · 0 评论
分享