hive
zhangxiaomei1952
统计、数据、python、spss,r
展开
-
hive join操作
此文章为转载。转载 2016-12-13 14:46:19 · 376 阅读 · 0 评论 -
数据倾斜及处理方案
1.什么是数据倾斜 大家可能会发现这样一种现象:在执行hive查询的时候,map早已经100%了,而reduce也早早到了90% +,但是可能会一连出现多个99%,而且迟迟停在99%,不再向下走,这是数据倾斜最常见的表现。 2.什么会导致数据倾斜 以MapReduce实现过程为例,如果大多数item对应用户量都是几十万的级别,少量item对应user量很大,例如百万以上,则聚集到这些item上原创 2017-04-08 23:15:03 · 923 阅读 · 0 评论 -
日志检测活动效果 如何将用户访问路径串起来(session id)
一个很实用的场景:某业务借助于其他平台投放了一些链接,用户点了此链接后,会跳转到自家产品的页面,比如评价页面,如果用户不通过外部链接进入页面,打开自家的产品,也可以进入到评价页面,不管用户从何而来,评价页面的url是不会变化的,如何纯粹衡量外部平台带来的流量究竟有多少?此处就涉及到如何将用户的访问路径串起来的问题。原创 2017-03-18 00:47:04 · 969 阅读 · 0 评论 -
hive 解析日志常用的几个函数
大家都知道日志的形式偏非结构化,有很多特殊的字符等等,现总结一些日志中常用或者易用到的函数便于日志数据的提取、解析。 1.get_json_object,底层日志经常会被储存为json字符串的形式,如果想获得各个维度的值,往往需要这个函数把对应的值取出来,具体用法为:get_json_object(action,'$.evt_id') 取出1111027379533此处假设需要解析的字段叫act原创 2017-03-16 23:25:50 · 752 阅读 · 0 评论 -
HIVE分区
hive分区对数据进行分区,最重要的原因就是为了更快的查询,分区表改变了hive对数据存储的组织方式,当我们在where子句中增加谓词按照分区值进行过滤时,这些谓词被称为分区过滤器。1.如果表中的数据及分区非常大的话,执行一个包含所有分区的查询可能会触发一个巨大的Mapreduce任务。一个高度建议的安全措施就是将Hive设置为“strict”模式,这样如果对分区表进行查询而where子句没有加分原创 2017-02-04 14:22:09 · 499 阅读 · 0 评论 -
oozie常用语句
一.oozie的介绍:oozie可以被称为一个调度系统,具体可参照此篇博文:http://shiyanjun.cn/archives/684.html 以上这篇博文将oozie的功能和使用方法介绍的很详细 二.oozie执行后续监控:可以将oozie的执行结果写入mysql数据表中,通过本地的sh mysql.sh可以查看oozie的执行情况: 1.执行时长统计:select t原创 2017-03-02 21:06:16 · 1083 阅读 · 0 评论 -
HiveQL:数据定义
一.数据库部分 1.创建数据库:create database dw; 或者create database if not exists dw;create database dw comment "this is a test database";create database dw location 'my/prefered/location/';create database dw wi原创 2017-01-15 17:51:48 · 328 阅读 · 0 评论 -
在linux环境下自动执行python脚本
说明:此文针对需要用hive来查询长时间数据的人员,而且是需要按照天来输出查询数据,考虑到如果查询多天的,数据量过大会造成集群拥堵,所以按天输出,最终再做汇总。 需求来源:如果你每天接触的都是日志类数据,日志每天的产生量都非常庞大,而你想对过去几个月的数据进行分析,就需要考虑如何有效的实现这种方式。 假设想查询8月-10月的流量数据,可以这样: #!/usr/bin/env python #原创 2016-12-20 20:00:06 · 5790 阅读 · 0 评论 -
初识hadoop
hadoop 提供了一个可靠的共享存储和分析系统,hdfs实现存储,mapreduce 实现分析处理,这两部分是它的核心。mapreduce和关系型数据库的区别 1. 关系型数据库处理GB级别数据大小的任务,mapreduce处理PB级别数据大小的任务 2. 关系型数据库处理结构化的数据,mapreduce处理非结构化或者半结构化数据非常有效,因为处理数据时才对数据进行解释 3. 关系型数据往往原创 2017-05-21 21:41:37 · 275 阅读 · 0 评论