ETL的简单理解

ETL的简单理解

ETL(数据仓库技术) E(Extract抽取)T(Transform转换)L(load加载)
DW(数据仓库)
DSS(决策支持系统)
OLAP(在线分析处理)
DM(数据挖掘)
BI(商业智能)

ETL数据仓库技术
实时计算指标:
我们的实时项目之中需要分许哪些指标
流量分析(新增,pv(浏览量),uv(网站独立访客),事件分析(浏览,包括,点赞,评论,分享,关注))
活动分析(拉新活动,寻宝(曝光,点击,参与,优惠,),呼唤朋友(曝光,点击,生成二维码,扫码进入注册页),优惠券(曝光,领取,使用,优惠金额))
销售分析(下单,支付成功,支付失败,支付渠道,各种各样的维度)

测流输出(side outputs)
功能
1.拆分数据
2.获取迟到的数据

我们既要做离线的也要做实时的
当数据入洪水般涌来,我们需要用到kafka来将数据控制住,因为kafka就是为海量数而生的,
kfka支持高并发高吞吐,这这方面kafka比hdfs还要强!!!
1.我们先用flume将数据采集到kafka里面去做实时运算,
2.我们还想做离线的就继续用flume将kafka传入hdfs中,

公司面试描述 kafka:
(老版本)我们原来flume使用agent级联方式,解决了一些问题老保证数据安全高效,
(新版本)但是从flume1.7版本之后,我们采用了flume的kafkachannal直接把数据落到
kafka里边,不想flume向蜘蛛网一样在很多台机器上搞flume比较浪费资源,

实时的ETL处理离线数据落地到hdfs中

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值