数仓
文章平均质量分 97
欧叶冲冲冲
新的bug已经出现,我们怎能停滞不前
展开
-
【大数据】数仓5.0_数仓运行环境准备➕ODS&DIM层部署
🔨Hive引擎简介:Hive引擎包括默认MR、Tez、Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行(生态好组件多): Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行(相比来说快一点)🔨兼容性说明:官网下载的Hive3.1.3和Spark3.0.0默认是不兼容的。原创 2023-10-24 21:59:38 · 352 阅读 · 0 评论 -
【大数据】数仓5.0_数仓建模设计理论
数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的:工作流定时调度器如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;原创 2023-10-18 20:14:56 · 409 阅读 · 0 评论 -
【大数据】数仓5.0_业务采集➕数据同步策略(数仓环境搭建完成)
紧接上一篇👉点击前往数仓准备工作🔨电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品都是存储在后台的管理系统中的当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。🔨电商的主要业务流程。原创 2023-10-13 21:38:46 · 799 阅读 · 0 评论 -
【大数据】数仓5.0准备工作
🔨数据仓库是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。🔨数据仓库的输入数据通常包括:业务数据(响应要快)、用户行为数据和爬虫数据等业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在 MySQL、Oracle 等数据库中用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。原创 2023-09-24 23:21:45 · 690 阅读 · 0 评论