使用 E-MapReduce 构建云上数据湖

最新推荐文章于 2023-11-21 15:40:08 发布

Apache Spark中国社区

最新推荐文章于 2023-11-21 15:40:08 发布

阅读量554

点赞数

文章标签：大数据分布式编程语言 hadoop 数据库

本文链接：https://blog.csdn.net/weixin_45906054/article/details/108162620

版权

原视频链接：https://www.slidestalk.com/AliSpark/EMapReduce191196?video

编辑：杨仲鲍，北京海致星图科技有限公司服务端开发工程师，大数据爱好者，Spark 中文社区志愿者

截屏2020-08-21 下午5.01.41.png

首先介绍一下阿里云飞天大数据平台(简称飞天平台)，飞天平台由AI-PAI（机器学习和深度学习的平台）和大数据平台组成。除 EMR 之外，还有像 MaxCompute，DataHub，实时计算，图计算等不同的计算引擎

如上图所示，橙色部分为阿里云自研的计算引擎/平台，灰色部分为对接开源生态的一个计算引擎/平台。EMR为飞天平台内开源的重要组成部分。

今天主做三个部分的介绍
1.数据湖介绍

2.EMR数据湖方案

3.客户实践案例

数据湖

数据湖在15年被提出，最近两三年变的异常火爆，在Gartner的魔力象限中数据湖属于非常有投资和探索价值的技术。

那数据湖是什么呢？之前我们使用数据仓库来管理结构化数据，在Hadoop兴起后，大量的非结构化、结构化数据被统一存储到HDFS上，但随着数据的积累可能会出现部分数据在采集时并没有合适的应用场景，所以我们可能会对其先进行存储，等到业务有需要了，我们再去进一步的进行开发和挖掘。

在数据量不断增长的情况下，我们可以用像OSS ，HDFS等对象存储来做统一式的存储。同时我们可能会面不同计算场景的选择，比如说Ad hoc查询，离线计算，实时计算，以及机器学习，深度学习的场景。在不同的计算场景下，还需要面临不同引擎的选择，在不同的场景下要统一监控、授权、审计、账号体系一系列的工作。

截屏2020-08-21 下午5.04.15.png

第一部分是数据获取(图中最左边的框框)，主要用于采集关系型数据库。日志用户点击流到统一的存储里去，使用不同的计算服务对数据进行加工和计算，同时把计算结果应用于AI分析平台进行机器学习或深度学习，最终将结果用于业务，使用搜索、源数据管理等能力使数据达到增值的效果。数据除计算和存储外，还需要一系列的管控和审计的手段。

截屏2020-08-21 下午5.05.08.png

大数据技术诞生已有10 多年了，最开始大家就在自己的IDC上搭建开源软件。随着业务的不断增长，数据快速的积累，业务波动非常快，可能一下子就出现了爆发性的业务。

线下IDC采购周期非常长，很难以满足计算资源随着业务快速增长的需求，同时业务存在高峰低谷的，白天业务的计算任务可能比较少(大部分为Ad hoc查询)，到了晚上可能就要扩容出一些资源进行离线报表计算。这种情况在IDC模式就出现了算力匹配难的局面。

大概在五六年前，就已经有大量的企业开始迁移上云，在业务数据不断增长的时候，企业可以快速添加实例，通过云供应链的能力满足业务增长需求。如果在云上自建Hadoop集群或者EMR也会存在一些问题，因为本质上都是用hdfs，随着数据的增长存储成本会线性的增长。同时在云上使用本地盘时，其运维流程非常复杂的。

对于大规模集群(几百台几千台的集群)，坏盘是一个常规事件，如何去处理这种常规事件，也是一个非常有挑战的事情，因此逐渐演化成了围绕OSS为核心的这种数据湖架构。借助OSS的分层存储的能力，可以实现不同的数据，有不同的存储方式和消耗成本。同时我们知道HDFS的NameNode在HA场景下的运维是一个非常复杂的事情，当集群规模突破100台之后&#

最低0.47元/天解锁文章

Apache Spark中国社区

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
使用 E-MapReduce 构建云上数据湖

原视频链接：https://www.slidestalk.com/AliSpark/EMapReduce191196?video编辑：杨仲鲍，北京海致星图科技有限公司服务端开发工程师，...
复制链接

扫一扫