hive
文章平均质量分 60
星辰安安
大数据工程师
展开
-
HQL作业
员工信息表emp:字段:员工id,员工名字,工作岗位,部门经理,受雇日期,薪水,奖金,部门编号英文名:EMPNO,ENAME,JOB,MGR,HIREDATE,SAL,BONUS,DEPTNOcreate table emp( EMPNO int ,ENAME string ,JOB string ,MGR int ,HIREDATE string ,SAL int ,BONUS int ,DEPTNO int) row form.原创 2021-06-27 16:16:44 · 134 阅读 · 0 评论 -
Hive参数优化和数据倾斜
文章目录Hive数据倾斜原因:表现:解决方案:Hive调优Hive数据倾斜原因:key分布不均匀,数据重复表现:任务进度长时间维持在99%(或100%),查看任务监控页面,发现只有少量(1个或几个)reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大,通常可能达到3倍甚至更多。 最长时长远大于平均时长。解决方案:1、从数据源头,业务层面进行优化2、找到key重复的具体值,进行拆分,hash。异步求和。(随机前缀)crea原创 2021-06-27 16:12:43 · 220 阅读 · 0 评论 -
初识Hive
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。数据仓库,英文名称为Data原创 2021-06-27 15:46:00 · 119 阅读 · 0 评论 -
Hive函数
文章目录Hive 常用函数关系运算数值计算条件函数日期函数字符串函数Hive 中的wordCountHive 开窗函数测试数据建表语句row_number:无并列排名dense_rank:有并列排名,并且依次递增rank:有并列排名,不依次递增PERCENT_RANK:(rank的结果-1)/(分区内数据的个数-1)LAG(col,n):往前第n行数据LEAD(col,n):往后第n行数据FIRST_VALUE:取分组内排序后,截止到当前行,第一个值LAST_VALUE:取分组内排序后,截止到当前行,最后一原创 2021-06-27 15:34:35 · 133 阅读 · 1 评论 -
HIve语法
文章目录Hive建表建表1:全部使用默认建表方式建表2:指定location (这种方式也比较常用)建表3:指定存储格式建表4:create table xxxx as select_statement(SQL语句) (这种方式比较常用)建表5:create table xxxx like table_name 只想建表,不需要加载数据Hive加载数据1、使用```hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'```2、使用 load data inpath3、create原创 2021-06-27 15:32:13 · 669 阅读 · 0 评论 -
Hive搭建
安装前提:mysql和hadoop必须已经成功安装并启动登录mysql mysql -uroot -p123456 在MySQL中创建hive元数据库 create database hive character set "latin1";1、解压hive的安装包: tar -zxvf apache-hive-1.2.1-bin.tar.gz 修改目录名称:mv apache-hive-1.2.1-bin hive-1.2.12、进入hive-1.2.1/conf原创 2021-06-27 14:14:53 · 236 阅读 · 0 评论