hive
wer0735
这个作者很懒,什么都没留下…
展开
-
久其BI数据质量管控解决方案
1 概述1.1 方案背景随着企业信息化建设的全面展开,各种业务系统在企业的运营和管理等方面扮演着越来越重要的角色。系统中存储的大量数据已经成为企业继“人、财、物”后最具价值的企业资源。企业对数据的依赖程度也在加大,数据质量的好坏直接关系到信息的准确程度,也影响了企业的生存和竞争能力。因此,数据质量作为影响管理层决策正确性的基础元素,已经越来越多地为企业领导者所关注。但在长期的系统维护和转载 2016-08-25 00:21:29 · 4536 阅读 · 0 评论 -
Hive.GROUPING SETS
如果说聚合函数(Simple UDAF / Generic UDAF)是HQL聚合数据查询或分析的中枢处理器,那GROUP BY可以说是聚合函数的神经了,GROUP BY收集和传递材料,然后交给聚合函数们去处理。这些材料的组织形式显得尤为重要,它们表达着分析者想要的观察维度或视角,管理着聚合函数们的操作对象。 而分析者经常想要在一次分析中从多个维度去获得分析数据,对包含多个维度或多级层...转载 2018-07-16 00:13:58 · 416 阅读 · 0 评论 -
Hive.LEFT SEMI JOIN子句
转载:https://blog.csdn.net/mashroomxl/article/details/20845279公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的,现在的工作主要是数据分析,自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识,神马结构化查询语言也只是听说而已,不过,这没关系,实际工作一来,学习起来还是很快~~ 年前有一个同事叫...转载 2018-07-16 00:12:47 · 843 阅读 · 0 评论 -
Hive.分组排序和TOP
转载:https://blog.csdn.net/mashroomxl/article/details/23864685HQL作为类SQL的查询分析语言,到目前为止,应该也还未能达到其它流行的SQL(如Transact-SQL, MySQL)实现那样完善。而在公司的生产环境中,我想应该也不会紧贴Hive版本更新的步伐,始终部署最新版的Hive;可能会滞后一两个大版本神马的;毕竟,虽然开源工具的透明...转载 2018-07-16 00:11:19 · 1839 阅读 · 0 评论 -
Hive分析窗口函数
分析窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询Hive分析窗口函数(一) SUM,AVG,MIN,MAXHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。数据准备: CREATE EXT...转载 2018-07-13 14:14:07 · 1359 阅读 · 0 评论 -
Hive优化—-控制hive任务的reduce数
转载:http://www.superwu.cn/?p=21231. Hive自己如何确定reduce数:reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:hive.exec.reducers.bytes.per...转载 2018-07-14 18:40:52 · 323 阅读 · 0 评论 -
Hive中reduce个数设定
转载:https://blog.csdn.net/wisgood/article/details/42125367我们每次执行hive的hql时,shell里都会提示一段话:[python] view plaincopy... Number of reduce tasks not specified. Estimated from input data size: 500 In order t...转载 2018-04-16 15:48:01 · 724 阅读 · 0 评论 -
hive知识点
1 外部表和内部表的使用场景Hive中的表分为内部表(MANAGED_TABLE)和外部表(EXTERNAL_TABLE)。内部表和外部表最大的区别内部表DROP时候会删除HDFS上的数据;外部表DROP时候不会删除HDFS上的数据;内部表适用场景:Hive中间表、结果表、一般不需要从外部(如本地文件、HDFS上load数据)的情况。外部表适用场景:源表,需要定期将外部数据映射到表中。我们的使用场...原创 2018-03-27 16:20:38 · 252 阅读 · 0 评论 -
hive元数据
转载:http://lxw1234.com/archives/2015/07/378.htm1 存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本版本说明10.13.0Set by MetaStore如果该表出现问题,根本进入不了Hive-Cli。比如该表不存在,当启动Hive-Cli时候,...转载 2018-03-27 15:22:27 · 404 阅读 · 0 评论 -
hive日志分析
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。 路径在datanode节点上:/tmp/用户名/hive.log2. Job 日志,记录了Hive 中job的执行的历史过程。 路径在datanode节点上:/tmp/用户名/参考资料:http://www.aboutyun.com/thread-7457-1-1....原创 2018-02-24 14:47:11 · 523 阅读 · 0 评论 -
hive问题集
案件背景: 大数据平台有两个环境,分正式环境和测试环境。创建hive的时候,把正式环境的表的location配置成测试的路径,测试环境的hive表的location配置成正式的路径。这样导致两张hive表无法被操作,truncate、insert、select、drop都不能。案件错误日志: 执行命令 drop table mysql4_csp_cstm_t原创 2017-12-15 14:48:29 · 348 阅读 · 0 评论 -
Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time
今天有一个任务报错:Unable to acquire IMPLICIT, SHARED lock db_ecar@bd_dw_terminal_id_city_info after 100 attempts.FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. r原创 2017-12-06 14:56:17 · 6316 阅读 · 1 评论 -
hive锁
hive lock报错 FAILED: Error in acquiring locks: Locks on the underlying objects cannot be acquired. retry after some time 解决办法:关闭并发,set hive.support.concurrency=false;hive锁介绍: hive存在两种锁,共享锁Shar原创 2017-10-25 17:36:05 · 5015 阅读 · 0 评论 -
Hive 数据倾斜解决方案(调优)
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2017-09-01 15:35:30 · 298 阅读 · 0 评论 -
hive根据日期获取星期几的方法
hive原生未提供获取一个日期是星期几的方法,所以只有我们自己编写udf函数提供,udf就不说了,在这里给出了一个使用hive原生函数获取星期几的技巧。pmod(datediff(#date#, '1920-01-01') - 3, 7) #date#表示给的日期。输出的结果为0-6的数,分别表示 日,一,二 ... 六。2016-01-01 52016-01-02 6转载 2017-08-15 16:24:29 · 8538 阅读 · 1 评论 -
hive常用函数
1 string to datedate(string)例如:select date('2017-06-12') from dual; 结果:2017-06-12原创 2017-06-12 17:41:55 · 203 阅读 · 0 评论 -
Hive.GROUPING SETS的“陷阱”
转载:https://blog.csdn.net/mashroomxl/article/details/23022123之前整理了一下Hive 0.10版引进的GROUPING SETS子句特性,并作了简单的句法使用体验和数据验证。但是当时没有注意到稍微复杂一点的情况,然后,在实际使用过程中,妥妥地就中了一枪。 这一枪发生在有JOIN操作的时候,情况是这样的:我要对Hive表data_...转载 2018-07-16 00:17:10 · 2766 阅读 · 0 评论