数据仓库概念和项目架构

最近跟着尚硅谷做一个数据仓库项目,想以此项目来检验自己过去这段时间学习大数据技术的成果并以此提升自己,通过文章的方式记录自己做项目的过程,在项目中遇到的问题及解决过程,我都会记录在文章中,希望同时能帮到更多有需要和一起学习的朋友们,同时非常感谢尚硅谷非常慷慨地免费分享学习教程,想要教程的朋友们也可以去尚硅谷官网领取哦!

  • 数据仓库概念
    先来看教程的定义:
    在这里插入图片描述
    再来说说我自己的理解:
    数据仓库就是存储了非常大的数据量的一个仓库。首先,数据从哪来?数据来源可以是业务数据或者是用户行为数据。业务数据就是在网站或者app上和登录、订单、商品、支付相关的数据;用户行为数据就是用户和app或者是网站交互产生的数据,例如点击、浏览、搜索等动作。数据仓库通过采集这些数据回来,把数据存储到数据仓库。接下来就可以对数据进行分析,可以用来做报表、用户画像、推荐系统、风控等操作,分析之后的结果可以帮助企业提供决策。

  • 项目架构
    项目架构图:
    在这里插入图片描述
    数据流程图:
    在这里插入图片描述
    由于我缺乏真是的app或者网站数据,所以日志数据只能通过代码进行生成。数据生成后直接给Flume采集。
    我采用的集群式Apache版的,3台虚拟机,各2核3g内存,集群的配置情况如下表格:
    在这里插入图片描述
    集群配置情况如下:
    在这里插入图片描述

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值