数据分析师应该了解的数据湖

数据湖

数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。

这是AWS给出的解释。

看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。比如电商网站的访问日志(埋点的时候是以JSON存储),物联网终端设备实时发送的数据等原始数据直接存储在数据仓库的ODS层。

数据湖为什么火了

做数据仓库已经有ODS数据了,那么怎么突然大家都在提数据湖了?

真正的原因在于数据分析和机器学习这两年成为了主流,可以看看现在的招聘网站,很多招聘数据分析师和算法工程师的岗位,笔者所在城市尤为明显。15年的时候大家都在建立各自的大数据平台,那时候你懂点Hadoop,已经很了不起了。现在各个大数据平台已经建设成熟,逐步为业务服务,越来越多的公司需要利用大数据服务于业务,提升变现能力。

基于大数据建设的数据仓库往往是各个维度的聚合数据,大多服务于传统的报表分析。而机器学习往往需要使用到原始数据,另外很多机器学习用到的也不至于格式化数据,用户的评论,图像等都可以应用到机器学习中。

为什么要有数据湖

在这里插入图片描述

可以看下上面的这个组织架构图。数据湖的存在更多的是改变部门的组织架构,毕竟现在大部分公司都更注重业务分析的价值。

传统企业的数据团队被当做IT体系,整天要求提数。现在,数据团队只需要负责提供简单易用的工具,业务部门直接进行数据的使用。这也就是人人具备数据分析能力(人人都是数据分析师)。

数据湖 vs 数据仓库

在这里插入图片描述

这是AWS给出的对比,还是比较中肯的。

传统的数据仓库工作方式是集中式的:业务人员给需求到数据团队,数据团队根据要求加工、开发成维度表,供业务团队通过BI报表工具查询或者业务分析系统展示。

数据湖是开放、自助式的:开放数据给所有人使用,数据团队更多是提供工具、环境供各业务团队使用,业务团队进行开发、分析。

和数据仓库不同的是,以前数据仓库都是先设计schema,然后灌入数据。数据湖的schema是随用随生成,随着分析场景不同而不同。关于数据湖的技术实现方面可以了解下 delta lake这个项目(我司的平台部分功能在delta lake这个项目出来之前已经实现了一些功能)。

数据湖对于数据分析师来说对数据的操控性更强,但是要求也更高,不光懂业务,懂sql,懂数据,还要懂大数据处理技术,每个人都在处理自己需要的数据,会造成很多冗余数据存储和计算资源浪费,无法形成共性的可复用的数据层,这方面数仓是有益的补充。数据湖并不是为了颠覆数据仓库,是为了满足数仓无法满足的数据需求,二者是互补的。

在这里插入图片描述

大数据开发工程数据分析师和ETL工程是在大数据领域中扮演不同角色的重要职位。 大数据开发工程主要负责设计、开发和维护大数据平台和系统,使其能够高效地存储、处理和管理海量的数据。他们通常具备扎实的编程能力和深入的分布式系统知识,能够使用各种工具和技术,如Hadoop、Spark等,来处理和分析大规模数据。大数据开发工程能够帮助企业构建强大的数据基础设施,提供高效的数据处理能力,为数据分析师提供所需的数据支持。 数据分析师主要专注于从大数据中提取有价值的信息和洞察,以支持业务决策和战略规划。他们通过使用统计学和分析工具,如Python、R等,将数据转化为可用的见解和趋势,以帮助企业了解市场趋势、用户行为、产品性能等。数据分析师需要具备扎实的数学和统计学知识,能够熟练使用各种数据分析和可视化工具,并有良好的沟通能力,能够向非技术人员解释分析结果。 ETL工程负责将数据从不同的数据源提取、转换和加载到数据仓库或数据湖中,以支持后续的数据分析和业务需求。他们需要理解业务需求,设计和实现数据抽取、清洗和转换的流程,确保数据的质量和一致性。ETL工程需要熟悉ETL工具和技术,如Informatica、Talend等,以及数据库和数据仓库的设计和优化。他们与大数据开发工程数据分析师密切合作,提供高质量的数据供应给数据分析师和其他业务用户使用。 综上所述,大数据开发工程数据分析师和ETL工程在大数据领域中各司其职,协同合作,为企业提供全面的数据解决方案和洞察。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据社

码字不易,谢谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值