2018年11月_玉羽凌风

12月 11月 10月 09月 08月 07月 06月 05月 01月

原创 hive 中解析json

hive中解析json常用的方式按效率由低到高有三种：regexp_extract get_json_object json_tupledemo数据：set hivevar:person={"name":"amos","sex":"man","age":32};1.regexp_extract 解析，这种方式很不友好，需要数据有固定的格式select regexp_ext...

2018-11-30 15:13:05 1348

原创查看hadoop本地库

hadoop checknative -a

2018-11-28 11:46:05 741

转载 Cookie详解

cookie简介1. 定义cookie是由服务器发送给客户端（浏览器）的小量信息。2. 作用cookie是键值对形式存储的少量信息，那它有什么作用呢？我们知道，平时上网时都是使用无状态的HTTP协议传输出数据，这意味着客户端与服务端在数据传送完成后就会中断连接。这时我们就需要一个一直保持会话连接的机制。在session出现前，cookie就完全充当了这种角色。也就是，cookie的小...

2018-11-25 17:15:53 249

原创 spark 迁移数据

有时候我们经常会用到以下场景，比如说将各种各样的文件从一个地方复制到另外一个地方，类似于hadoop 的dstcp功能，当然我们可以通过各种hdfs或者s3命令，以下的demo就是通过spark去实现类似这样的功能val source=""val target=""val data=sc.binaryFiles(source)data.foreach(x =>{ ...

2018-11-20 14:59:44 1120

转载 CI持续集成系统环境--Gitlab+Gerrit+Jenkins完整对接

先贴个图，后面慢慢补充：ref:https://www.cnblogs.com/kevingrace/p/5651447.html

2018-11-18 22:55:21 472

原创 SPARK 数据本地化（spark.locality.wait）

1.概念：task在执行前都会获取数据的分区信息进行分配，总是会优先将其分配到它要计算的数据所在节点，尽可能的减少网络传输2.过程：一般会默认3s,重试5次的去分配，一旦超时失败，将会选择一个比上一个本地级别差的级别再一次分配，如果发生了数据传输，那么task首先通过blockmanager获取数据，如果本地没有数据，则通过getRemote方法从数据所在节点的blockmanager获取数据...

2018-11-18 12:27:27 6573

转载 yarn架构及 client提交任务过程讲解

一.yarn的整体架构二.任务提交过程1. Client向RM发出请求2. RM返回一个ApplicationID作为回应3. Client向RM回应Application Submission Context（ASC）。ASC包括ApplicationID、user、queue，以及其他一些启动AM相关的信息，除此之外，还有一个Container Launch Conte...

2018-11-17 22:44:12 459

原创 APP产品的数据分析体系

在当前的互联网企业中，我们经常提到数据驱动，那么具体如何做好数据驱动，是产品部门，运营部门和数据部门相互协作相互支持共同面对的问题，主要的目标说白了就是拉新促活提留存。要通过数据进行驱动，那么必须要有分析指标，无论是产品的功能迭代还是运营活动的推广评估都需要数据指标去衡量。常用的APP指标主要包含五大层面：用户规模分析，参与度分析，渠道分析，功能分析，用户属性分析。市场上很多移动统计...

2018-11-17 22:19:34 5879

原创 scala.MatchError: Null (of class scala.reflect.internal.Types$TypeRef$$anon$6)

scala语法中，若遇到一个rdd转成df时，当rdd中有null时，可能会遇到以下异常：scala.MatchError: Null (of class scala.reflect.internal.Types$TypeRef$$anon$6)遇到这种异常的原因主要是scala中并不知道要将null转换成何种类型，因此可采用以下两种方案解决：1.强制转换：null.asInstanc...

2018-11-09 17:09:28 3310 1