数据开发interview

数仓分层的原理、架构、用途 rf模型细节,模型搭建 抛开现有的大数据平台(猛犸)如何部署模型 大数据为什么会有数据倾斜,如何优化? python 进行etl的细节 ---------------------------- hadoop HA的原理和流程 fileimage和edit文件原...

2019-08-09 17:22:48

阅读数 53

评论数 0

数据仓库与数据中台(onedata)整理

干货:解码OneData,传说中的阿里数据中台是如何练成的? https://yq.aliyun.com/articles/44991 阿里首次披露中台战略:OneData的统一数据标准和实时数据分析是核心 https://yq.aliyun.com/articles/31765?spm=a...

2019-08-05 18:00:13

阅读数 11

评论数 0

TF-IDF

特征工程中用到了tf-idf,数据是游戏内行为数据、event_name为用户行为、 select A.advertising_id, CONCAT(A.event_name,'_tfidf'), tf*idf as tf_idf from ( ...

2019-07-02 16:52:50

阅读数 21

评论数 0

线性模型

主要是先看了西瓜书上的线性模型的内容 参考: 求解系数的常见方法: 最小二乘法:https://www.cnblogs.com/pinard/p/5976811.html 梯度下降法:http://www.cnblogs.com/pinard/p/5970503.html 过拟合...

2019-05-22 16:11:51

阅读数 10

评论数 0

决策树

决策树是一种基于概率分布的分类回归模型,在我们平时写if else这种类似代码时其实也是一种决策树,只不过是一种基于规则的决策树,所以该算法具有很好的可解释性。 决策树的一个主要核心就是基于什么算法来建立这棵树,主要算法有ID3、C4.5和CART等,算法的核心就是基于什么准则来选取建树的特征,...

2019-05-20 15:44:32

阅读数 15

评论数 0

国家代码_英文名_中文名_与北京时差数据

Angola 安哥拉 AO 244 -7 Afghanistan 阿富汗 AF 93 -3 Albania 阿尔巴尼亚 AL 355 -7 Algeria 阿尔及利亚 DZ 213 -8 Andorra 安道尔共和国 AD 376 -8 Anguilla 安圭拉岛 AI 1264 -12 Anti...

2019-04-12 11:41:20

阅读数 629

评论数 0

hive表格字段错位解决办法(源文件为json)

hive表格可以直接解析json文件、甚至是json文件的压缩包,用json文件解析表格直接建表会很方便,如图: 但是如果json的value中有多个逗号的话,那些不是以json格式作为源文件格式的表格去读取json表格的数据的时候会导致数据列错位,因为默认的text表格默认是以逗号作为分隔符的...

2019-04-11 14:36:04

阅读数 287

评论数 0

udf获取json中所有的key

代码如下: package ***.com.json_udf; import net.sf.json.JSONObject; import org.apache.hadoop.hive.ql.exec.UDF; import java.util.Iterator; /** * crea...

2019-03-28 11:04:01

阅读数 79

评论数 0

udf计算事件发生时间序列特征

使用该udf函,可获得不同时间跨度的连续事件,以及对应区间长度的均值、方差 输入是事件发生时间的列表、输出是事件发生的一系列数值包括均值、方差等等。 代码如下: package ***.****; import org.apache.hadoop.hive.ql.exec.UDF; i...

2019-03-28 10:22:28

阅读数 69

评论数 0

python替换字符串中的逗号

hive处理文本数据时需要指定分隔符,一般来说都是用逗号来做分隔,当某个字段的内容是字符串时,特别是有"{}"双引号括起来的json那种,hive处理时会直接将某个字段中的字符串内容中逗号也当成分隔符来处理,造成hive表格字段内容的异常,这里就需要用将字符串中的逗号替换掉。代...

2019-03-21 15:03:46

阅读数 440

评论数 0

shell 循环遍历

代码: #!/bin/bash hour_first=("0" "1" "2") hour_second=("0" "1" "2" "3" "...

2019-03-21 11:29:09

阅读数 125

评论数 0

shell 实现变量累加

shell操作中偶尔也会用到全局变量累加,用来计数等用途,代码如下: #!/bin/bash count=0 #每次累加1 count=$((${count} + 1))

2019-03-21 11:22:43

阅读数 701

评论数 0

linux shell通过http协议获取数据并上传hdfs

#!/bin/bash source ./common.config d_h_m=`date +%Y-%m-%d_%H:%M:%S` day_and_hour=`date -d "${timespan}" +"%Y-%m-%d-%H"` today=`d...

2019-03-20 18:23:12

阅读数 148

评论数 0

python获取邮件内容(邮件内容为html)

用python获取邮件内容比较简单,直接用现成的imap和pop3包即可,但是有时候邮件的内容不是plainText而是html甚至是一个url链接,原本的操作流程是点击url获取内容(比如csv等等)。 我这边的需求是从html里的众多url中找到包含所需文件的url并将文件的内容保存到本地。...

2019-03-20 17:02:26

阅读数 928

评论数 0

python 画折线图并通过邮件转发

业务上很多时候需要将结果数据以图表形式呈现、以达到直观高效的效果、另外还能观察业务结果的走向和趋势。 目前如果不使用很多大厂的数据可视化产品,可以选用zeepline或者其他工具、但考虑到很多时候在制作图表时还要涉及到数据的计算和处理、以及图表的保存转发等等、所以这里使用python来完成。 ...

2019-03-20 16:24:49

阅读数 200

评论数 0

hive sql去重--sql取最近一条记录

hivesql在使用中会经常 碰到去除重复数据的操作,一般来说一个关键字distinct就可以解决,但是distinct的使用场景限制比较多,它是对所选取的所有字段进行比对,只要有一个字段的值不相同就为非重复记录,例如 select distinct id, name...

2019-03-08 15:33:36

阅读数 385

评论数 2

c语言使用libcurl库以及docker打包方案

       最近有一个棘手的问题,涉及到数据安全的考量,原先非常方便的使用python进行http服务的代码需要改成c语言来实现,我的方案是直接用c调用libcurl的库来实现,这里面遇到不少问题,后来出于不同的linux环境通用的原因又使用了docker来打包运行,下面就是详细内容。   ...

2019-01-21 16:14:53

阅读数 90

评论数 0

K-means

kmeans背景原理以及工作流程介绍: https://github.com/apachecn/AiLearning/blob/dev/blog/ml/10.k-means%E8%81%9A%E7%B1%BB.md#k-means-%E5%B7%A5%E4%BD%9C%E6%B5%81%E7%A...

2018-12-04 16:51:30

阅读数 70

评论数 0

SVD

《机器学习实战》一书中的svd部分可以用来辅助阅读 有位网友的《机器学习实战》算法理解,还不错 https://github.com/haidawyl/MLinAction   github文字介绍地址: https://github.com/apachecn/AiLearning/bl...

2018-11-16 16:40:17

阅读数 57

评论数 0

PCA

github上有个人工智能的开放库、我先从机器学习开始学习 内容与《机器学习实战》这本书相关 学习地址: https://github.com/apachecn/AiLearning PCA: https://github.com/apachecn/AiLearning/blob/dev/...

2018-11-13 16:11:08

阅读数 57

评论数 1

提示
确定要删除当前文章?
取消 删除