大数据学习---数据仓库概述2

1 表的分类

维度建模中的表类型

事实表
维度表
事务事实表
周期快照事实表
累计快照事实表

1.1事实表

一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等
在这里插入图片描述

1.2维度表

一般是指对应一些业务状态,代码的解释表。也可以称为码表
通常使用维度对事实表中的数据进行统计、聚合运算
在这里插入图片描述

1.3事务事实表

随着业务不断产生的数据,一旦产生不会再变化,如交易流水、操作日志、出库入库记录
![在这里插入图片描述](https://img-blog.csdnimg.cn/b092ed9c1a314d579b5dc7243fd9cafe.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAbm93b3JsZGxpbmc=,size_20,color_FFFFFF,t_70,g_se,x_16

1.4周期快照事实表

随着业务周期型的推进而变化,完成间隔周期内的度量统计,如年、季度累计
使用周期+状态度量的组合,如年累计订单数,年是周期,订单总数是量度
在这里插入图片描述

1.5累计快照事实表

记录不确定周期的度量统计,完全覆盖一个事实的生命周期,如订单状态表
通常有多个时间字段,用于记录生命周期中的关键时间点
只有一条记录,针对此记录不断更新
在这里插入图片描述
累计快照事实表的实现:
方案1:
使用日期分区表,全量数据记录,每天的分区存储昨天全量数据与当天增量数据合并的结果
数据量大会导致全量表膨胀,存储大量永远不更新的冷数据,对性能影响比较大
适用于数据量少的情况

方案2:
使用日期分区表,推测数据最长生命周期,存储周期内数据;周期外的冷数据存储到归档表
需要保留多天的分区数据,存储消耗依然很大

方案3:
使用日期分区表,以业务实体的结束时间分区,每天的分区存放当天结束的数据;设计一个时间非常大的分区,如9999-12-31,存放截止当前未结束的数据
已结束的数据存放到相应分区,存放未结束数据的分区,数据量也不会很大,ETL性能好
无存储浪费,数据全局唯一
业务系统可能无法标识业务实体的结束时间,可以使用其他相关业务系统的结束标志作为此业务系统的结束,也可以使用最长生命周期时间或前端系统的数据归档时间

1.6拉链表

拉链表记录每条信息的生命周期,用于保留数据的所有历史状态
拉链表将表数据的随机修改方式,变为顺序追加

在这里插入图片描述

2 ETL策略

2.1 全量同步

数据初始化装载一定使用全量同步的方式
因为业务、技术原因,使用全量同步的方式做周期数据更新,直接覆盖原有数据即可

2.2 增量同步

传统数据整合方案中,大多采用merge方式(update+insert)
主流大数据平台不支持update操作,可采用全外连接+数据全量覆盖方式
——如果担心数据更新出错,可以采用分区方式,每天保存最新的全量版本,保留较短周期。
在这里插入图片描述

3 任务调度

3.1为什么需要任务调度?

解决任务单元间的依赖关系
自动化完成任务的定时执行

3.2常见任务类型

Shell 用于启动数据仓库的一些组件 如采集组件
Java程序、MapReduce程序 用于数据清洗的一些任务
SQL脚本 用于数据处理的一些任务
在这里插入图片描述

3.3常见调度工具

Azkaban
Oozie
在这里插入图片描述
相较于Oozie,Azkaban的功能比较强大,易用性好,在企业中应用较多。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据(Big Data)是指规模庞大、复杂度高且难以用传统数据处理方法进行捕捉、管理和处理的数据集合。它通常具有以下三个特征: 数据量大:大数据指的是数据集的规模非常庞大,远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。 复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 处理速度快:大数据处理要求在短时间内处理和分析大规模的数据。传统的数据处理方法往往无法满足实时或近实时处理的需求。 大数据的出现主要是由于以下几个因素的影响: 数据的爆发性增长:随着互联网的普及和各种传感器、设备的广泛应用,数据的产生和积累呈现爆发式增长的趋势。 新型数据源的涌现:除了传统的结构化数据,越来越多的非结构化和半结构化数据源涌现,例如社交媒体数据、日志文件、传感器数据、地理位置数据等。 技术的进步:大数据处理的技术工具和技术方法得到了快速发展,例如分布式计算、云计算、并行处理、机器学习和人工智能等技术的应用,使得大数据的存储、管理和分析变得可行和高效。 大数据的处理和分析可以带来许多潜在的好处,包括更深入的洞察力、更准确的决策支持、更精细的个性化服务、更高效的资源利用和创新等。在各个领域,如商业、医疗、金融、交通、科学研究等,大数据正发挥着重要的作用,并为我们带来了新的机遇和挑战。
大数据时代数据挖掘与分析 讲师 杨庆跃 2015.8.11 目录 一、导入:移动互联网、云计算、物联网 二、什么是大数据 三、大数据应用现状与应用热点 四、数据分析与挖掘概述 六、聚类分析--客户分群 五、关联分析--交叉销售与提升销售 七、分类分析--客户流失预测 八、回归与时间序列--业务指标预测 九、电信行业大数据应用现状与案例 数据、信息、知识 数据 对现实世界中客观事物的符号表示,未经 加工 可以是数值数据,也可以是非数值数据, 如声音、图像等 信息 信息是含有一定量商务信息和意义的数据, 是经过提炼、加工和集成的数据。 有价值的数据 数据 VS 信息 ? 数据 VS 信息 ? 59.2 43.9 75.4 11.0 26.0 15.0 24.6 23.8 120.9 11.7 8.9 11.8 25.4 4.5 13.5 0.1 18.3 6.1 0.5 1.0 5.8 1.3 0.0 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 0.0 20.0 40.0 60.0 80.0 100.0 120.0 140.0 上海 江苏 浙江 安徽 福建 江西 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 北方 北京 网络能力 用户数 实占率 2003年1—5月 中国电信 36.25% 中国移动 27.26% 中国网通 18.66% 中国联通 16.80% 铁通公司 1.03% 用户数增长率% 资本支出收入比% 中国移动 中国电信 中国网通 中国联通 5.9 12.3 17.0 36.3 2003上半年 2002全年值 知识 知识把信息提到更高的层次 "可以辅助我们作出决策或采取行动的有 很高价值的一种信息形态" "行动的力量" 数据分析是为了产生知识 提升的层次 信息 知识 数据 管 理 者 关 注 度 低 高 最原始的数值 有价值的数据 用于解决问题的信息 为什么进行数据分析与挖掘? 产品体系丰富 数据分析 数据挖掘 效益/业绩压力 经营管理复杂 竞争日趋激烈 数据分析的发展历程 –分析对象:以产品为主 –数据源:统计报表 –维度:单一维度 –手段:统计分析 –工具:excel –分析对象:增加客户、套餐 –数据源:数据仓库 –维度:多维度 –手段:统计分析 –工具:excel、 brio 、spss等 –分析对象:以客户、套餐为主 –数据源:数据仓库 –维度:更多维度 –手段:统计分析、数据挖掘 –工具:excel、 BO、Cognos、 spss 、 Modeler等 阶段1:固定报表 阶段2:多维报表 阶段3:数据挖掘 数据分析的三个阶段 收集数据时的几点注意事项 数据的时效性 数据的正确性 数据的真实性 数据的统计口径 对数据分析人员的素质要求 审美能 力 系统思 维 了解业 务 熟悉数 据 擅长统 计 软件操 作 正确沟 通 表达能 力 强化和发展分析技巧和水平,并以恰当的方式展现出来。 什么是商务智能? 商务智能(Business Intelligence,BI) – 帮助组织提高决策能力和运营能力的概念、方 法、过程以及软件的集合。 商务智能技术 三个核心技术 – 数据仓库Data Warehouse – 联机分析处理OLAP – 数据挖掘Data Mining 其他: – 数据可视化 – 计算机网络与Web技术 – 云计算 – 大数据 数据挖掘基本概念 "啤酒"和"尿布" 一则广为流传的案例:啤酒和尿布的故事 – 美国加州某个超市连锁店发现: 在下班后前来购买婴儿尿布的顾客多数是男性, 他们往往也同时购买啤酒。 – 处理:重新布置了货架,啤酒类商品、婴儿尿布、土豆片之 类的佐酒小食品、男士们日常生活用品就近布置。 – 结果:上述几种商品的销量几乎马上成倍增长。 塔吉特:比父亲更早知道女儿怀孕 发生在全美第二大零售商塔吉特的故事 – 一位男性顾客到一家塔吉特店中投诉,商店竟然给他还在读 书的女儿寄婴儿用品的优惠券。 – 真相:塔吉特通过对孕妇的消费习惯进行一次次的测试和数 据分析,得出了一些非常有用的结论:孕妇在怀孕头三个月 过后会购买大量润肤露;在头 20周,孕妇会补充如钙、镁、 锌等营养素;除了购买洗手液和毛巾以外,还突然开始大量 采购无味肥皂,说明预产期要来了 数据挖掘定义 数据挖掘是识别数据中有效的、新颖的、潜在有 用的和最终可被理解的模式(知识)的过程。 数据分析工具概览 存储层 展现层 分析层 用户级 部门级 企业级 BI级 统计分析工具SPSS Statistics SPSS是专业的通用统计软件包,兼有数据管理、统计分析、 统计绘图和统计报表功能, SPSS统计分析软件具有下列特点 – 安装简单 – 操作简单 – 无需编程 –
尚硅谷是一家知名的IT培训机构,提供了丰富的大数据学习资源和课程。以下是基于尚硅谷提供的大数据学习路线的建议: 1. 基础知识:开始学习前,建议先掌握Java编程语言和数据库基础知识,这些对于后续学习大数据技术非常有帮助。 2. 大数据基础:尚硅谷提供了《大数据基础入门》课程,该课程包含了大数据技术的概述、Hadoop生态系统、HDFS分布式文件系统等基础内容。 3. 分布式计算:学习《Hadoop生态系统》课程,深入了解Hadoop的核心组件,如MapReduce、HDFS、YARN等,并掌握基本的Hadoop集群搭建和调优技巧。 4. 数据仓库与数据湖:学习数据仓库与数据湖》课程,了解数据仓库和数据湖的概念、架构和设计原则,以及常用的数据仓库工具和技术。 5. 大数据实时计算:学习大数据实时计算》课程,掌握Spark、Flink等实时计算框架的使用,了解流式计算和批处理计算的特点和应用场景。 6. 数据分析与挖掘:学习大数据分析与挖掘》课程,掌握常用的数据分析和挖掘工具和算法,如机器学习、数据挖掘、推荐系统等。 7. 数据可视化与报告:学习《数据可视化与报表工具》课程,了解Tableau、Power BI等可视化工具的使用,学会将数据分析结果以直观的方式呈现。 尚硅谷还提供了大量的实战项目和案例,可以帮助学员将所学知识应用于实际场景中。此外,他们还提供了一对一的辅导和讨论群,可以与老师和其他学员交流和分享经验。 以上是基于尚硅谷提供的资源和课程所建议的大数据学习路线,你可以根据自己的实际情况和兴趣进行选择和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值