![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据——数仓工具Hive
文章平均质量分 73
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能
友培
感觉数据+AI之美
展开
-
读《Hive实战》随笔
1、5个和Hive相关的服务:Hive Metastore、HiveServer2、Mysql Server、WebHCat Server、Hive Client2、Hive 是一个分析的工具,不会取代现有的一个联机事务处理(OLTP 传统数据库开发)3、schema-on-read:读时模型,即在写的时候直接存储,需要分析读取的时候再将其赋予一定的结构 schema-on-write:写时模型,即在入库之前就得定义好结构(传统数据库)4、Hive的文件存储在Hdfs上,但是为这些文件定义存储模式的元原创 2021-07-13 18:36:33 · 104 阅读 · 2 评论 -
Hive学习视频心得(六)Hive实战之某视频网站分析
文章目录Hive实战之某视频网站分析一、项目需求简介二、项目具体步骤1)、数据结构①、视频表②、用户表2)、项目准备3)、数据准备4)、数据处理(ETL)①、ETLMapper.java②、ETLDriver.java③、打包提交集群执行④、ETL执行完成后截图5)、Hive端导入数据①、项目创库②、项目建表a、外部表b、内部表c、外部向内部数据导入三、处理项目需求1)、统计视频观看数Top102)、统计视频类别热度Top103)、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数4原创 2021-01-19 23:30:19 · 1995 阅读 · 0 评论 -
Hive学习视频心得(五)自定义UDF函数、压缩存储、企业级调优
文章目录1、系统内置函数2、自定义函数(UDF)(路径不唯一)3、压缩1)、开启Map输出阶段压缩2)、开启Reduce输出阶段压缩4、存储1)、列式存储和行式存储5、存储和压缩对比1)、比较各种存储格式2)、比较各种压缩格式6、Fetch抓取7、表的优化1)、小表大表join2)、大表大表join3)、笛卡尔积4)、行列过滤5)、动态分区★★★8、合理设置Map及Reduce数1)、复杂文件增加Map数2)、小文件进行合并3)、合理设置Reduce数1、系统内置函数--查看系统自带的函数show f原创 2021-01-18 20:15:45 · 211 阅读 · 0 评论 -
Hive学习视频心得(四)常用查询函数
文章目录常用查询函数1、空字段赋值(NVL)2、CASE WHEN(相当于java的switch case)3、行转列(聚合)4、列转行5、窗口函数(开窗函数)6、Rank(排名)7、日期函数(部分)8、练习题常用查询函数1、空字段赋值(NVL) 给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果两个参数都为NULL ,则返回NULL。--NVL(原创 2021-01-14 20:28:47 · 192 阅读 · 0 评论 -
Hive学习视频心得(三)查询
一、基本查询1)、数据准备--部门表create table if not exists dept(deptno int,dname string,loc int)row format delimited fields terminated by '\t';--员工表create table if not exists emp(empno int,ename string,job string,mgr int,hiredate string, sal double, co原创 2021-01-13 14:49:26 · 138 阅读 · 0 评论 -
Hive学习视频心得(二)数据类型、DDL、内外表、分区表、DML
1、Hive的数据类型1)、基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双原创 2021-01-10 22:14:27 · 176 阅读 · 0 评论 -
Hive学习视频心得(一)Hive基本介绍
1、Hive的基本介绍 本质是:将HQL转化成MapReduce程序 ①、Hive处理的数据存储在HDFS ②、Hive分析数据底层的实现是MapReduce ③、执行程序运行在Yarn上2、Hive优缺点1)、优点 ①、操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。 ②、避免了去写MapReduce,减少开发人员的学习成本。 ③、Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。 ④、Hive优势在于处理大数据原创 2021-01-10 09:32:17 · 248 阅读 · 0 评论