自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 udf获取json中所有的key

代码如下:package ***.com.json_udf;import net.sf.json.JSONObject;import org.apache.hadoop.hive.ql.exec.UDF;import java.util.Iterator;/** * create by zhangxin 2018-07-25 */public class get_json...

2019-03-28 11:04:01 640

原创 udf计算事件发生时间序列特征

使用该udf函,可获得不同时间跨度的连续事件,以及对应区间长度的均值、方差输入是事件发生时间的列表、输出是事件发生的一系列数值包括均值、方差等等。代码如下:package ***.****;import org.apache.hadoop.hive.ql.exec.UDF;import java.util.*;/** ...

2019-03-28 10:22:28 364

原创 python替换字符串中的逗号

hive处理文本数据时需要指定分隔符,一般来说都是用逗号来做分隔,当某个字段的内容是字符串时,特别是有"{}"双引号括起来的json那种,hive处理时会直接将某个字段中的字符串内容中逗号也当成分隔符来处理,造成hive表格字段内容的异常,这里就需要用将字符串中的逗号替换掉。代码如下:# -*- coding: utf-8 -*-import re,os,sysdef alter(f...

2019-03-21 15:03:46 7301

原创 shell 循环遍历

代码:#!/bin/bashhour_first=("0" "1" "2")hour_second=("0" "1" "2" "3" "4" "5" "6" "7" "8" "9")function bydate() { for h_f in ${hour_first[@]}; do for h_s in ${hour_second[@]}; do #code ...

2019-03-21 11:29:09 2024

原创 shell 实现变量累加

shell操作中偶尔也会用到全局变量累加,用来计数等用途,代码如下:#!/bin/bashcount=0#每次累加1count=$((${count} + 1))

2019-03-21 11:22:43 22419

原创 linux shell通过http协议获取数据并上传hdfs

#!/bin/bashsource ./common.configd_h_m=`date +%Y-%m-%d_%H:%M:%S`day_and_hour=`date -d "${timespan}" +"%Y-%m-%d-%H"`today=`date +%Y-%m-%d`today_timespan=`date -d "${timespan}" +"%Y-%m-%d"`url=...

2019-03-20 18:23:12 1091

原创 python获取邮件内容(邮件内容为html)

用python获取邮件内容比较简单,直接用现成的imap和pop3包即可,但是有时候邮件的内容不是plainText而是html甚至是一个url链接,原本的操作流程是点击url获取内容(比如csv等等)。我这边的需求是从html里的众多url中找到包含所需文件的url并将文件的内容保存到本地。上代码:# -*- encoding: utf-8 -*-import getpass,...

2019-03-20 17:02:26 7450

原创 python 画折线图并通过邮件转发

业务上很多时候需要将结果数据以图表形式呈现、以达到直观高效的效果、另外还能观察业务结果的走向和趋势。目前如果不使用很多大厂的数据可视化产品,可以选用zeepline或者其他工具、但考虑到很多时候在制作图表时还要涉及到数据的计算和处理、以及图表的保存转发等等、所以这里使用python来完成。第一步是制作折线图并保存# _*_coding:utf-8_*_import osimpo...

2019-03-20 16:24:49 3633

原创 hive sql去重--sql取最近一条记录

hivesql在使用中会经常 碰到去除重复数据的操作,一般来说一个关键字distinct就可以解决,但是distinct的使用场景限制比较多,它是对所选取的所有字段进行比对,只要有一个字段的值不相同就为非重复记录,例如select distinct id, namefrom table字段较少的情况下就没问题,能够找出id、name都不同的所有记录...

2019-03-08 15:33:36 11211 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除