![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
yoohhwz
这个作者很懒,什么都没留下…
展开
-
hive自定义函数
hive自定义函数:UDF :User-Defined Function (用户自定义函数)一进一出UDAF : User-Defined Aggregation Function(用户自定义聚合函数) 多进一出UDTF : User-Defined Table-Generating Function(用户自定义表生成函数)一进多出这里重点说一下自定义UDF的使用:因为在使用hive清洗...原创 2019-10-11 21:47:18 · 126 阅读 · 0 评论 -
Hive小Demo
需求分析:求各个区域下最受欢迎的产品的TOP 3假设我们mysql上存放了两表,一张city_info城市信息表,一张product_info产品信息表city_info:city_id 城市idcity_name 城市名字area 区域信息(华东、华北、华南、华中这些)product_info:product_id 产品idproduct_name 产品名称extend_inf...原创 2019-07-27 23:29:11 · 484 阅读 · 0 评论 -
hive的beeline连接方式
*##启动后台启动hs2服务,将输出日志输出到指定目录,然后使用beeline方式连接到hive上。*[hadoop@hadoop001 ~]$ nohup sh app/hive/bin/hiveserver2 >> ~/data/tmp/hs2.log &[1] 34483*##此处hs2的默认端口号为10000,可修改,hadoop001为主机名,hwzhdb为你...原创 2019-07-22 21:46:29 · 6416 阅读 · 0 评论 -
hive数据类型
hive数据类型分为基本数据类型和复杂数据类型(参考官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types)基本数据类型:常用的int,bigint,string,float,double,boolean,date,timestamp不做过多解释了复杂数据类型:1.array<dataTyle...原创 2019-07-21 23:20:24 · 128 阅读 · 0 评论 -
常见错误集(持续更新)
1.多次执行hdfs namenode -format命令然后启动start-dfs.sh 然后jps后发现datanode节点(或者其它节点,比如namenode)没有启动,然后去logs目录下查看datanode的日志文件hadoop-hadoop–datanode(或者其它比如namenode).log发现报如下错: 2019-07-03 12:39:54,640 WARNorg.ap...原创 2019-07-15 09:20:13 · 735 阅读 · 0 评论 -
Hive解析json格式数据
本文将介绍两个使用hive解析json的小demo1.[hadoop@hadoop001 jsonData]$ more rating.json {"movie":"1193","rate":"5","time":"978300760","userid":"1"}{"movie":"661","rate":"3","time":"978302109","userid":"1"}{"movi...原创 2019-07-21 18:52:50 · 552 阅读 · 0 评论 -
Hive语法相关
一些常用的hive相关的语法,详细请查看官网:https://cwiki.apache.org/confluence/display/HiveDDLcreate创建数据库:create database [if not exists] 数据库名;创建表:create table [external] 表名(column1 type1,column2 type2,…)row fo...原创 2019-07-21 16:33:19 · 181 阅读 · 0 评论 -
Hive相关概念
Hive:基于Hadoop之上的一个离线数据仓库,使用hdfs作为底层存储,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive主要分为以下几个部分:1. 用户接口用户接口主要有三个:CLI,Client 和 WebUI(HUE/Zeppelin)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个...原创 2019-07-15 23:29:28 · 235 阅读 · 0 评论 -
Hive分区分桶详解
一、分区概念:分区最主要的目的:实现快速查询为什么要创建分区:单个表数据量越来越大的时候,在Hive select查询中一般会扫描整个表内容(暴力扫描),会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。(1)、Hive的分区和mysql的分区差异:mysql分区是将表中的字段拿来直接作为分区字段,而hive的分区则是分区字段不在...原创 2019-07-23 20:56:06 · 264 阅读 · 0 评论 -
Hive搭建步骤
1.下载与你hadoop对应的hive tar安装包,在这里我的hadoop是hadoop-2.6.0-cdh5.7.0的版本,所以需要去下载cdh同样为5.7.0的hive-1.1.0-cdh5.7.0.tar.gz包,然后上传至linux系统上的software目录下。[root@hadoop001 ~]# su - hadoop[hadoop@hadoop001 ~]$ rz[had...原创 2019-07-18 22:52:37 · 389 阅读 · 0 评论