数仓技术架构&采集同步

1 数据同步工具

datax

也有集群模式了,现在性能应该还好。

sqoop

就是调度了map任务
集群加机器了记得要在数据库那边加入白名单
在这里插入图片描述

Flume

几十上百台日志服务器的话,直接往hdfs上写也不现实,一般会做两层flume,第二层放个三两台再往hdfs写。
一般会后面布kafka,实时离线都从kafka消费,保证数据统一。
在这里插入图片描述
注意下inuseprefix就是文件在写但是没写好的时候,加上 这个 点 的前缀,隐藏掉,不然hive查的时候,本来在这个tmp文件查到数了,后面你这个文件又没了,就报错。
再一个就是设置下文件的切断时间,大小,不然来一条就存一个,很多小文件,之前的经验也是设置一个小时或者128MB双重切割的。
在这里插入图片描述

2 调度系统

Oozie

与hadoop、hive、spark有版本依赖关系,注意jar包冲突
可以时间触发,还可以数据触发

azkaban在报警、失败重启方面比oozie差一些

oozie的封装

在这里插入图片描述
也可以写shell命令上传jar包,运行spark任务
在这里插入图片描述

3 数据通道案例

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
flume-kafka-实时计算 这个玩意能实时?

4 数据采集与同步

业务数据已经有了,不用太操心;行为数据,埋点、采集策略还是得关注
在这里插入图片描述

4.1 行为数据埋点设计

4.1.1 方法

pc端一般用cookieid(存在cookie里的一个标识数据)来标识客户,清cookie就没了。
在这里插入图片描述

cid是全局唯一的,pc手机pad啥的都算上,uid在表里是可以重复的,就是多屏用户的打通
c1上登录了u1,后面u2也用这个设备了,那这个cid就要变成c2,只要没有新的uid登录进来,再后面是c2登录进来或者没有登录态的就都算到c2的行为,保证行为有归属。
在这里插入图片描述
webh5抓浏览信息方便,app抓设备信息方便
在这里插入图片描述

推荐服务端采集,前端行为拿不到的话可以js请求后台
在这里插入图片描述
打通行为和业务:一般就是通过cust_no关联,完了再去相应的时间去找,很不方便。
==>搞一个类似session_id的东西,在行为数据和业务数据里面都有,这样就好关联了。
在这里插入图片描述

4.1.2 案例

需求:
在这里插入图片描述
格式:
在这里插入图片描述
搞一个pageid,在app搞不到url的时候用的,wifi位置啥的也都带着,如果只有app启动的时候上报一次,那后面变化了就抓不到了。
在这里插入图片描述
1 启动事件:app安装、使用列表,通讯录,设备位置信息等
在这里插入图片描述
2 列表页:
普通的就抓下url相关和设备相关,如果涉及到曝光计费的话,还要加上曝光产品,这里也分ajax和分页两种情况。
这里的事件类型应该是view
在这里插入图片描述
分页的:
在这里插入图片描述
ajax
在这里插入图片描述
3 详情页
详情页分click事件和view事件,点击了页面是不一定会加载的,从这里也能一定程度优化产品。
内容里面有商品id、商家id、点了什么位置等
在这里插入图片描述
详情浏览:
在这里插入图片描述
4 主页
主页主要考虑sourceid,看下用户是怎么来的,通过什么渠道来的,对公司的渠道推广业务有影响的。
app也是有source的,比如营销短信里的短链接=>h5=>app
在这里插入图片描述
5 banner位的点击:
这块关注的是点了什么位置(第几个),目的地是哪个url
在这里插入图片描述

4.2 埋点数据上报采集

在这里插入图片描述
这里处理的地方一边推到kafka,同时也要在本地写文件,保证数据不会丢失。
另一种方案就是先写flume再推kafka,这样就是牺牲了一些实时性能。
在这里插入图片描述

4.3 数仓数据处理

在这里插入图片描述
在这里插入图片描述

4.3.1 落地hive ods表设计

分启动事件和普通行为事件
在这里插入图片描述
在这里插入图片描述

4.3.2 bdw层,用户标识体系,多屏数据打通,数据降维

用cid关联那张映射表,补充一下uid为空的数据,存入bdw层,_i表示incre每日增量。
在这里插入图片描述

降维:
=>在推送到kafka之前,如果可能的话,java程序里面就提前处理一些公用的字段,比如ip解析成省市区,
=>agent解析成相应的字段再发kafka

关于页面访问时长的计算:同用户同session相邻页面访问时间差
在这里插入图片描述在这里插入图片描述

4.3.3 edw层,通用统计计算,公用数据层

做一些能满足日常需求的轻聚合的表,比如用户会话页面级别的统计等
有需要可以在这里适当降维,就是加进来一些维度信息
在这里插入图片描述

4.3.4 实时计算这边能用到的,就落地存储

4.4 业务数据

4.4.1 埋点

唯一自增id,有创建和修改时间,
在这里插入图片描述

4.4.2 同步策略

在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值