开源大数据可观测性方案实践 - 助力集群运维智能化、便捷化

阿里云云栖号

于 2023-03-13 13:50:27 发布

阅读量723

点赞数

分类专栏：云栖号技术分享文章标签：大数据开源运维云计算阿里云

本文链接：https://blog.csdn.net/yunqiinsight/article/details/129492526

版权

前言

在过去的20年时间，大数据技术蓬勃发展，从最开始大公司内部的秘密武器，到现在广泛作用于几乎所有行业。通过使用大数据技术分析存量和实时的数据，能够更加全面清晰地洞察商业的本质。在商业节奏日益加快和发展越来越迅猛的今天，越来越多的企业意识到大数据分析的价值，并投入了大量的时间人力等资源。与此同时，从早期的简单报表，到搜广推（搜索广告推荐）的个性化需求，再到最近异常火爆的人机智能交互技术 ChatGPT，大数据应用对算力的要求呈指数级增长。如何以更低的成本、更加稳定地提供更高的算力，成为大数据行业需要探索和解决的核心问题。

另一方面，为了满足企业不断增长的大数据处理需求，从早期的 Hadoop、Hive，到 Spark、Presto、Flink，再到近几年火爆的数据湖、OLAP，涌现出了多种多样的大数据技术。虽然很多大数据技术都是开源的，可以通过网络获取到一些技术指南、最佳实践等，但是依旧缺乏从集群整体维度和数据处理全链路来分析和提升大数据栈“效能”的有效方法。

可观测性最早起源于应用服务，旨在随时了解整个应用栈中发生的情况。通过在网络、基础设施和应用程序中收集、关联、聚合和分析数据，以便深入了解系统的行为、性能和运行状况。可观测性可以用“观测-判断-优化-再观测”这一闭环来简单解释。可观测性是提升应用效率的基础和关键，但在大数据集群方面一直缺乏实践，这主要是由前述大数据技术的多样性和复杂性导致的。在本篇文章中，我们将介绍大数据集群领域所需的可观测性，实践大数据集群可观测所需要的条件和面临的挑战，以及阿里云EMR 产品如何通过 EMR Doctor 实现大数据可观测并向用户提供相关能力。