开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

前言

在过去的20年时间,大数据技术蓬勃发展,从最开始大公司内部的秘密武器,到现在广泛作用于几乎所有行业。通过使用大数据技术分析存量和实时的数据,能够更加全面清晰地洞察商业的本质。在商业节奏日益加快和发展越来越迅猛的今天,越来越多的企业意识到大数据分析的价值,并投入了大量的时间人力等资源。与此同时,从早期的简单报表,到搜广推(搜索广告推荐)的个性化需求,再到最近异常火爆的人机智能交互技术 ChatGPT,大数据应用对算力的要求呈指数级增长。如何以更低的成本、更加稳定地提供更高的算力,成为大数据行业需要探索和解决的核心问题。

另一方面,为了满足企业不断增长的大数据处理需求,从早期的 Hadoop、Hive,到 Spark、Presto、Flink,再到近几年火爆的数据湖、OLAP,涌现出了多种多样的大数据技术。虽然很多大数据技术都是开源的,可以通过网络获取到一些技术指南、最佳实践等,但是依旧缺乏从集群整体维度和数据处理全链路来分析和提升大数据栈“效能”的有效方法。

可观测性最早起源于应用服务,旨在随时了解整个应用栈中发生的情况。通过在网络、基础设施和应用程序中收集、关联、聚合和分析数据,以便深入了解系统的行为、性能和运行状况。可观测性可以用“观测-判断-优化-再观测”这一闭环来简单解释。可观测性是提升应用效率的基础和关键,但在大数据集群方面一直缺乏实践,这主要是由前述大数据技术的多样性和复杂性导致的。在本篇文章中,我们将介绍大数据集群领域所需的可观测性,实践大数据集群可观测所需要的条件和面临的挑战,以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。

大数据可观测性介绍

当我们提及大数据的时候,脑中会浮现出各种技术,从 Kafka 到 HDFS、OSS,再到 YARN 和目前发展更好的 Kubernetes,还有上层的各种计算引擎如 Spark,Flink 和 Tez 等,甚至是深度学习和 OLAP 等业务相关技术。

尽管大数据技术纷繁复杂,我们可以把大数据各种技术自顶向下分为如下几层:计算引擎,资源调度层,存储等几个维度。由这些相互独立又互相关联的子系统一起构建了整体的大数据系统,为企业的大数据平台提供基础设施。

大数据的可观测性指的就是通过指标采集,元数据采集等技术获取到上述各个系统的洞察数据,而不是简单的指标罗列。大数据可观测的结果能够为企业带来如下价值:

  • 通过资源分析与建议,辅助用户不断的优化,带来更合理的资源利用和更健康的集群使用
  • 通过问题提示和异常提醒,减轻开发与运维人员的工作量,为企业大数据开发带来更高的效率
  • 通过及时的规则分析、根因分析等,快速的定位大数据集群问题,减少集群因为故障带来的恢复时间

大数据可观测性场景分析

尽快前面提到,大数据可观测性可以为我们带来诸多好处,但现实情况是,很少有企业能够在大数据领域做好可观测性,甚至大部分企业还没有涉足这一领域。我们简单地分析一下大数据可观测性的使用场景。

我们先看一下企业中使用大数据应用的一个基本构成,通常企业中使用大数据的人群可以被分为如下几类:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值