自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 fulme的执行流程

fulme的执行流程fulme是一个日志采集工具,例如当我们想要采集每个页面的埋点日志的时候我们可以用fulme日志采集工具,他可以监听一个端口或者一个目录他会将这个目录中左右的变化个更新记录下来首先我们需要编写一个配置文件先要编辑一歌配置文件exec-m-log.conf#配置三个组件 a1--我们的任务名a1.sources = s1 a1.channels = c1a1....

2020-02-28 18:28:36 230

原创 MLlib之朴素贝叶斯数学原理到现实问题编程

MLlib之朴素贝叶斯数学原理到现实问题编程1.样本数据:+-------+------+-------+-----+----+-------+| name | job | income| age | sex| label |+-------+------+-------+-----+----+-------+|张飞 |老师 |中 |青年 |男 |出轨 ||赵云...

2020-02-21 16:31:57 269 1

原创 sqarkSQL中的UDF用户自定义函数理解及应用

sqarkSQL中的UDF用户自定义函数理解及应用sqarksql不是万能的有一些功能无法实现所以我们需要自定义函数例如 sqarksql中的 concat_ws(",",“A”,“B”)=>将两个字段合并成一个字段中间用,隔开输入一行返回一行的就叫做udf输入一行返回多行的就叫做udtf输入多行返回一行的就叫做udaf例如需求:你输入一个id让他给你返回一个省市区,在sq...

2020-02-21 15:50:38 369

原创 MLlib之KNN算法实例

KNN算法实例knn算法的思想:邻近算法,或者最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表(近朱者赤近墨者黑)。求距离公式:曼哈顿距离欧几里得距离需求:样本数据,label,f1,f2,f3,f4,f50,10,20,30,40,300,1...

2020-02-21 13:27:55 529

原创 MLlib之线性代数的矩阵在程序算法中的应用理解

线性代数的矩阵在程序算法中点的应用理解矩阵的理解:矩阵就是一套数学运算地封装语言,一个矩阵乘一个数,就是这个矩阵里面的数据都乘以这个数.所谓的矩阵系数矩阵.就是将矩阵系数的每一行矩阵转置之后的每一列矩阵X:(封装好的向量X)向量X(X中的数字为X的特征)X[30,165,60,2000]多个特征组合成一起就是X的矩阵C[30,165,60,2000][29,170,66,300...

2020-02-21 11:41:51 272

原创 MLlib之欧几里得距离的通俗理解

欧几里得距离的通俗理解在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。使用这个距离,欧氏空间成为度量空间。相关联的范数称为欧几里得范数。较早的文献称之为毕达哥拉斯度量。下图为x(x1,x2…xn)点到y(y1,y2,y3…yn)点的距离...

2020-02-19 22:11:41 308

原创 spark广播变量

spark广播变量广播变量的宽泛理解:例如就像你有10个汉字不知道念什么,你需要查字典,来一个汉字查一次字典写出拼音,最终10个汉字和拼音查询完毕,输出运行结果程序结束,但是如果说只给你半本字典呢?就会存在有的汉字用这半本字典查不到的风险.从而导致数据异常,所以就出现了广播变量这项技术,将所有的部分字典整合成一个完整的字典进行查询,从而保证数据的正常输出.再简单点理解就是有5个executo...

2020-02-18 21:33:41 173 1

原创 idmp计算任务shell脚本创建路径全过程

线上部署思路全过程1.预处理a.准备geohash地理位置字典(很长时间设置一遍)b.id-mapping用户的唯一标识是每天都要去做的!–在hdfs中创建文字典文件夹hdfs dfs -mkdir -p /doit12/dicts/area_dicts/–将字典文件上传hdfs dfs -put /root/geo_dict.parquet /doit12/dicts/area_d...

2020-02-16 23:58:06 494

原创 idmapping(用户唯一标识)真实数据第二天数据生成

idmapping(用户唯一标识)第二天数据生成/** *思想逻辑:(必须整明白!!!) * 我们是要考虑第二天的数据进来了 * 在拿去跟第一天的数据一起进行计算 * 我们需要改的地方就是在构造图的地方添加昨天的点集合和边集合 * * 1.将昨天的字典解析成点集合,边集合, * 2.将今天的点集合,边集合union到昨天的点边集合 * 3.用union之后的点边集...

2020-02-15 19:32:23 2370

原创 idmapping(用户唯一标识)真实数据第一天数据生成

idmapping(用户唯一标识)真实数据第一天数据生成/** * 处理真实数据 * 1.创建spark环境 * 2.导入数据 * 3.处理数据:我们只用到一个applog的日志数据,web和wx_App的数据也是一样的数据处理! * a.解析json * b.生成tuple * 4.保存结果 * 5.关流 */object idmapping_taba...

2020-02-15 19:30:22 2102

原创 拉链表的具体逻辑

拉链表的具体逻辑业务数据==========–6.1 业务表6.1,o1,u1,创建6.1,o2,u2,创建6.1,o3,u2,创建============–6.2 业务表6.1,o1,u1,支付6.1,o2,u2,创建6.1,o3,u2,支付6.2,o4,u3,创建6.2,o5,u4,创建===============–6.3 业务表6.1,o1,u1,支付6....

2020-02-13 23:43:30 647

原创 idmp用户唯一标识图计算模拟演示

idmp用户唯一标识需求出现原因:现在一般网站所有账号登陆,账号就是用户的唯一标识但是部分网站也存在一些以游客模式进行浏览消费的事件,这个时候就需要利用**图计算(graphx)**的方法计算出用户的唯一标识.图计算逻辑:将所有数据中产生的的 id,imsi,mac等等所有编码汇总起来形成点集合,将不同行数但是点集合相同的编码次数>=阈值的不同行数据被计算为同一个用户,并且打...

2020-02-12 20:08:44 867

原创 数仓项目中geohash字典的构建(下)

数仓项目中geohash字典的构建(下)剩下将经纬转成geohash码mysql弄不了只能用spark了/***将sql中写好的经纬度字段在spark中生成geohash编码预备:在子模块中传入geohash的依赖1.读取mysql中geohasg/tmp 表格2.使用GeoHash.geoHashStringWithCharacterPrecision(lat,lng,5)算法...

2020-02-12 01:10:10 288

原创 数仓项目中geohash字典的构建(上)

数仓项目中geohash字典的构建(上)–先将自己的全国县市字典表调整成扁平化的结构的表–源表 t_md_areas–目标表 geohash–源表样例:`id` `areaname` `parentid`(父编号) `shortname` `level`(级别) `flag` `wgs84_lng` `wgs84_lat` `gcj02_lng` `gcj02_lat` `bd09_...

2020-02-12 01:01:34 284

原创 Sqoop版本不兼容的问题

– 遇到错误,找不到hive.HiveConf…直接将hive安装目录中的lib中的hive-common-2.3.5.jar 拷贝到sqoop的lib中然后测试,如果通过,则恭喜你!!!!你人品爆棚!– 如果人品不行,按下列步骤,一步步照搬!!!九九八十一难!按正常流程先安装sqoop解压,修改sqoop-env.shexport HADOOP_COMMON_HOME=/opt/a...

2020-02-10 21:18:53 1364 1

原创 Sqoop的安装步骤

Sqoop的安装步骤1)上传解压缩安装包到指定目录因为之前hive只是安装在hadoop3机器上,所以sqoop也同样安装在hadoop3机器上[hadoop@hadoop3 ~]$ tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C apps/(2)进入到 conf 文件夹,找到 sqoop-env-template.sh,修...

2020-02-10 21:17:36 167

原创 hdfs进入进入安全模式怎样退出

hdfs进入进入安全模式怎样退出原因:Caused by: org.apache.hadoop.hdfs.server.namenode.SafeModeException:Cannot create directory /user/hive/tmp/root/93a3a33a-e36d-4594-9eb0-cb33c2b92f4e. Name node is in safe modehd...

2020-02-10 12:18:50 1296

原创 linux中将系统时间写入到硬件时间

使用date -s修改过时间,可是每次开机后时间都不对。 貌似还是有规律的,总是会比windows系统时间慢两个小时左右。原因分析:网上查资料后发现,linux系统时间和硬件时间不一致引起的。解决方法:查看系统时间命令:hwclock[root@doit01 ~]# hwclock Sun 09 Feb 2020 07:40:06 PM CST -0.751492 seconds...

2020-02-09 19:48:48 5988

原创 linux上如何删除文件名为乱码的文件

linux上如何删除文件名为乱码的文件[root@doit01 ~]# lltotal 8-rw-------. 1 root root 1675 Nov 10 05:33 ???[3~-rw-r--r--. 1 root root 393 Nov 10 05:33 ???[3~.pub今天在服务器上看到两个文件名为乱码的文件,你想删掉他,但是你复制他的乱码名字却提示找不到这个文...

2020-02-09 18:39:06 204

原创 linux中对文件权限的概况

linux中对文件权限的概况drwxrwxrwx: 这段标识总长度为10位(10个‘-’),第一位表示文件类型,如该文件是文件(用-表示),如该文件是文件夹(用d表示),如该文件是连接文件(用l表示),后面9个按照三个一组分,第一组:用户权限,第二组:组权限,第三组:其他权限。每一组是三位,分别是读 r ,写 w,执行 x,这些权限都可以用数字来表示:r 4, w 2 , x 1。如果没有其中...

2020-02-09 17:52:11 622

原创 linux时间同步设置

linux时间同步设置1.下载安装软件yum -y install ntp2.添加供应商,DNS地址nameserver 114.114.114.114nameserver 8.8.8.83.执行同步时间命令:ntpdate time1.aliyun.com4.修改时区输入交互命令tzselect5.选择 Please select a continent or oc...

2020-02-09 17:00:34 130

原创 用spark写wordcount案例

用spark写wordcount案例大体流程读取本地数据 计算完将结果写在本地 .collect().foreach().println1.创建一个SparkContext(spark的本地模式环境)2.创建RDD(包工头)3.调用RDD的transformation(转换)方法4.调用Action(行动)5.释放资源代码://创建spark环境:val conf: Spa...

2020-02-09 14:54:28 228

原创 linux常用命令

netstat -nltp | grep 3306监听这个端口是否在线netstat -nltp | grep 3306赋予所有权限

2020-02-07 22:20:58 71

原创 将sql语句线上部署脚本

将sql语句线上部署脚本#!/bin/bash############################################## author: hunter.d# date : 2020-02-01# desc : sql计算任务dwd层流量事件明细执行脚本# source: ods_app_log # dest : dwd_apl_glb_...

2020-02-07 15:50:39 261

原创 项目预处理线上部署全过程

线上部署1.预处理a.准备geohash地理位置字典(很长时间设置一遍)b.id-mapping用户的唯一标识是每天都要去做的!–在hdfs中创建文字典文件夹hdfs dfs -mkdir -p /doit12/dicts/area_dicts/–将字典文件上传hdfs dfs -put /root/geo_dict.parquet /doit12/dicts/area_dicts/...

2020-02-07 15:46:39 243

原创 写shell脚本的几个知识点

写shell脚本的几个知识点首先将notepad++的语言改成shell格式1.判断传入参数的个数#如果你传入的参数个数 大于2 为true,则打印你传入的前三个参数#如果为false则打印你设定的那句话’your chuan de dan shu bu gou’vi test.shif [ $# -gt 2 ]thenecho $1echo $2echo $3elseec...

2020-02-07 00:20:15 155

原创 数仓项目在idea中的项目目录

数仓项目在idea中的项目目录1.idea(可以装一些.xml的文件)2.commons(公共使用的例如常用号的Util(工具))3.data(数据)4.dataware(数据仓库)5.olap_web(在线连接分析平台)6.recommend(推荐介绍拓展)7.userprofile(用户的配置文件)...

2020-02-06 14:43:19 164

原创 数据仓库项目的整体框架分层

数据仓库项目的整体框架分层数仓项目最主要的就是分层一般都会分为四层:ODS层:操作数据(最原始的数据)层 —OD贴源层DWD层:数仓明细层(将会原始数据明细化) —DWD明细层DWS层:数仓汇总层(将明细表轻聚合成宽表) —DWS宽表层A...

2020-02-06 13:38:01 1605

原创 SQL中with cube,with rollup和grouping set 高阶聚合函数的理解和使用

数据name course score小红,sql,85小红,c#,90小明,sql,93小明,c#,82小李,sql,88小李,c#,0建表create table s(name string,course string,score int)row format delimited fields terminated by ',';load data local i...

2020-02-04 23:55:30 4803 1

原创 OLAP联机分析处理技术

OLAP联机分析处理(On Line Analytic Processlng)本质:是一种软件技术.意思:是一种数据处理技术,专门设计用于分析复杂的分析操作.**侧重:**给予高层管理人员的决策支持.特点:快速,灵活,处理大量数据的复杂查询,处理结果直观易懂.原则:1.提供多维的业务视图("维"是OLAP存在的核心概念)2.满足灵活的交互分析(面向决策分析需要及时响应查询需求的变更)...

2020-02-04 23:48:36 490

原创 hive中lead将下一行移动当前和lag函数将上一行移动到当前的使用

hive中lead和lag函数的使用导入数据select * from bus ;+-------+-------------+| name | orderdate |+-------+-------------+| jack | 2017-01-01 || jack | 2017-02-03 || jack | 2017-04-06 || jack | 20...

2020-02-04 00:46:35 2783 2

原创 hive中关于date的三个函数

hive中关于date的三个函数传入数据数据select * from pro;+---------+-------------+-------------+| uid | 首登 | 末登 |+---------+-------------+-------------+| guid01 | 2018-02-28 | 2018-03-02 ...

2020-02-03 22:27:01 2964

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除