大数据之 HIVE
知识要点理解
weixin_52346735
Wang-Gang
展开
-
sql 语句的执行顺序
select-------④from ----- ①tb_namewhere ------②group by -------③having ------- ⑤order by ---------⑥limit -------------⑦原创 2021-02-16 22:00:56 · 72 阅读 · 0 评论 -
业务中产生的业务日志所用到的压缩算法
原创 2021-02-08 10:14:25 · 232 阅读 · 0 评论 -
HIVE 常用命令
HIVE 连接方式1 在本地执行 hive 命令(本地模式进入到 hive客户终端)2 通过远程连接的方式1)开启元数据服务hive --service metastore & 2) 开启 hiveserver2 服务hiveserver23) 开启 beeline窗口beeline4) 可以查看端口号是否连接netstat -nltp | grep 10000 netstat -nltp | grep 90835)输入连接命令原创 2021-01-13 22:43:53 · 603 阅读 · 0 评论 -
使用反射调用 java 类方法
反射 reflect 函数reflect(class(类名) , methodName(方法名) , args(可变的参数)…)1 编写java程序2 打包3 上传到linux系统4 add jar /test.jar 将jar包添加到 $HIVE_HOME/lib/目录下5 select reflect(‘cn._51doit.test.Test1’ , ‘test1’ , ‘HELLO’ , 23) ;select reflect('Test1','test1',原创 2020-12-04 00:14:53 · 78 阅读 · 0 评论 -
HIve 数据类型的元素的操作
在hive中的数据类型基本数据类型集合数据类型习题练习benben,fengjie_furong,xiaoben:18_daben:19,hui long guan_beijing姓名 朋友 孩子 城市yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing1) 建表 导入数据drop t...原创 2020-12-03 23:48:02 · 156 阅读 · 0 评论 -
Hive 一些系统函数
系统函数show functions 查看函数 decs function 函数 查看函数使用方法select trunc ('2020-12-3','MM') ; 这个月的第一天select trunc ('2020-12-3','Q') ; 这个季度的第一天select trunc ('2020-12-3','YEAR') ; 这年的第一天 2020-1-1select date_sub('2020-12-3' , 1 ) ; 减一天原创 2020-12-03 22:43:31 · 82 阅读 · 0 评论 -
Hive 编号函数
编号函数、row_number ()仅仅定义组内的数据进行编号 1 2 3 4rank()编号的时候 排序字段会参与编号相同的排序字段 标号一致, 总标号不变dense_rank()编号的时候 排序字段会参与编号相同的排序字段标号一致, 总标号有可能变小习题练习孙悟空 语文 87孙悟空 数学 95娜娜 英语 84宋宋 语文 64孙悟空 英语 68宋宋 英语 84婷婷 语文 65娜娜 语文 94宋宋 数学 86婷婷 数学 85娜娜 数学 56婷婷 英原创 2020-12-03 22:09:40 · 993 阅读 · 0 评论 -
Hive 的 窗口函数介绍
窗口函数一 窗口函数有什么用?在日常工作中,经常会遇到需要在每组内排名,比如下面的业务需求:排名问题:每个部门按业绩来排名topN问题:找出每个部门排名前N的员工进行奖励面对这类需求,就需要使用sql的高级功能窗口函数了。二 什么是窗口函数 ?窗口函数,也叫OLAP函数(Online Anallytical Processing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数的基本语法如下:selectcount(1) over(partition by name)原创 2020-12-03 00:46:25 · 341 阅读 · 1 评论 -
sql:常用 sql 语句
聚合函数一句话概括什么是聚合函数: 多行合并为一行。1 常用的一些j函数sum, count, max, min, avg sum () 返回某列值之和count () 返回某列的行数max () 返回某列的最大值min () 返回某列的最小值avg () 返回某列的平均值分组函数(Group by)注意 :使用Group by时,在Group by后面出现的字段也要出现在selec原创 2020-12-03 00:01:32 · 102 阅读 · 0 评论 -
Hive 中 分桶表 和 抽样查询
我们知道 分区表呢 是将数据分文件夹管理 , 减少数据扫描的文件范围 直接从对应文件夹中读取数据 ,但如果有时候分区表中的数据也大的时候,我们读取数据的时候,表之间需要 join 的 时候 会判断所有数据 进行读取扫描 ,效率不高这时候我们可以把分区表中的数据进行分割 就是HIve中的分桶表分桶表 是 对join 对查询的优化 将数据按照指定的字段的规则分文件1 创建普通表 导入数据2 创建分桶表3 开启分桶功能4 使用insert into的方式导入数据 到 分桶表中1原创 2020-12-02 23:19:25 · 187 阅读 · 0 评论 -
Hive 常用的一些函数
创建数组array(ele1 , ele2…) --创建数组 数组是hive中的一种集合数据类型 和 java中的数组一样select array(1,2,3,4) ; 创建一个数组select array(1,2,3,4)[index] ; 在数组里取值是否包含元素array_contains(arr , element) ;select array_contains(array(‘a’,‘ab’,‘abc’,‘abcd’),‘aa’) ; 是否包含一个元素,包含返回true..原创 2020-12-02 10:57:10 · 118 阅读 · 0 评论 -
Hive 中 case when 和 聚合函数的使用(练习解析)
习题王奔 A 男娜娜 A 男宋宋 B 男凤姐 A 女热巴 B 女慧慧 B 女求出以下结果 男 女A 2 1B 1 2第一步 先建文件夹导入数据vi /data/emp/emp.txt 把数据输入到emp.txt下第二步 建表在hive客户端建表create table tb_emp(name string ,dname string ,gender string )row format delimi原创 2020-12-01 21:47:08 · 1117 阅读 · 0 评论 -
Hive 表的两种分类
在hive中的表分两种1) external 外部表2) 默认的 内部表 管理表 managertable1) external 外部表公共/原始数据 使用外部表外部表指定的路径下的数据不会被删除create external table tb_log2(id int ,name string )row format delimited fields terminated by ","location '/data/log/' ; 1) 表字段原创 2020-11-30 19:38:03 · 835 阅读 · 0 评论 -
Hive 建表 查看表
一 先建一个文件 里面写表的数据vi a.log1,ligengxi,22,Y2,madaha,45,M3,yangmi,32,Y4,lixiaoyu,24,Y二 在data下建一个 log文件夹hdfs dfs -mkdir -p /data/log在把刚写的 a .log 添加到 log文件夹中hdfs dfs -put a.log /data/log 三 建一个表结构 复制到 hive 客户端create table tb_log原创 2020-11-29 11:28:57 · 697 阅读 · 0 评论 -
Hive 中的数据类型
基本数据类型TINYINT 1byte有符号整数 20SMALLINT 2byte有符号整数 20BOOLEAN 布尔类型,true或者false TRUE FALSEFLOAT 单精度浮点数 3.14159BINARY 字节数组下面是些常用的DOUBLE ** 双精度浮点数 3.14159(常用的)STRING ** 字符系列。可以指定字符集。可以使用单引号或者双引号。(常用的) ‘now is the time’ “for原创 2020-11-29 10:18:06 · 286 阅读 · 0 评论 -
Hive的安装步骤
一 首先我们先下载一个mysql数据库需要一个远程连接权限二 HDFS 也需要有 因为数据得存储在HDFS上三 hive 安装包进行解压 配置切换到 apps目录下 输入 rz 把hive 的安装包拖进来 进行解压四 输入 进行解压五 去 conf 目录下 有个vi hive-env.sh 进去 子啊最下面粘贴这两行**export HADOOP_HOME=/opt/apps/hadoop-3.1.1/ export HIVE_原创 2020-11-28 20:47:36 · 137 阅读 · 1 评论 -
HIVE 简介
企业中的数据大部分都是结构化(不是结构化的也都会转换成结构化)我们可以使用JAVA进行分析处理数据,也可以使用mysql进行处理数据最终的数据都会存储在HDFS中我们可以使用MR程序进行分析处理数据,(JAVA特点:代码臃肿,逻辑复杂,效率低,但比较稳定)SQL的特点 : 可以满足各种分析统计的需求,**SQL统计解析语义 ,然后可以进行优化,最后传输到 MR模板 中这个解析数据的过程有点复杂,为了简化程序员的操作时间和流程这时候就有了一个工具 HIVEHIVE 主要就是用来操作sql里的原创 2020-11-28 19:59:55 · 169 阅读 · 0 评论
分享