
【大数据&云计算】
文章平均质量分 92
离线批处理、实时流处理、数据湖知识体系
小小工匠
show me the code ,change the world
展开
-
BDCC - 数据集成领域的主流中间件_ Apache SeaTunnel vs Flink CDC vs DataX vs Apache Sqoop vs Apache Flume
Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品,支持海量数据的离线及实时同步。SeaTunnel 产品实现了高可靠性、集中管理、可视化监控等一体的数据集成统一平台。原创 2023-12-29 21:45:00 · 8675 阅读 · 1 评论 -
从传统云架构到云原生生态体系架构的演进
随着科技的不断发展,云计算领域也经历了巨大的变革。这一演进的核心焦点是从传统云架构过渡到云原生生态体系架构,这个过程在过去的几年里已经发生了显著变化。本文将深入探讨这一演进过程,以及它对企业和技术生态系统的影响。从传统云架构到云原生生态体系架构的演进代表了云计算领域的一次深刻变革。它带来了更好的性能、效率和可维护性,有助于满足不断变化的市场需求。随着技术的不断发展,云原生生态体系架构将继续演进,为未来的创新提供更多的机会。在这个快速变化的领域,不断学习和适应是至关重要的。原创 2023-10-23 20:45:00 · 10023 阅读 · 0 评论 -
现代化日志解决方案 PLG (Promtail +Loki + Grafana )
Promtail、Loki 和 Grafana 是一组开源工具,通常一起使用,用于帮助监控、收集、存储和可视化日志和指标数据的现代化日志解决方案。原创 2023-10-14 10:30:00 · 9384 阅读 · 0 评论 -
BDCC - 闲聊数据仓库的架构
其主要功能是保存结果数据,为外部系统提供查询接口,基于数据仓库的数据为企业提供增值应用,并将数据仓库的数据应用于企业决策、报表、分析、控制等领域。与传统的 ETL不同,ELT将数据的处理和加工过程转移到了数据仓库中,利用数据仓库的数据计算能力和分布式处理能力来处理和转换数据。总结来说,ETL 和 ELT 的主要区别在于数据转换和加载的顺序。ODS(Operational Data Store):操作数据存储,主要用于存放实时的、操作性的数据,通常是来自不同源系统的数据,用于支持企业的业务操作和实时查询。原创 2023-08-27 06:15:00 · 11048 阅读 · 0 评论 -
BDCC - Lambda VS Kappa
Lambda架构和Kappa架构都是用于处理大数据的架构模式。Lambda架构使用了批处理和流处理两种不同的处理方式来处理数据。数据首先通过流处理层进行实时处理,然后再通过批处理层进行离线处理,最后将两种处理结果合并起来得到最终的结果。Lambda架构的优点是可以同时处理实时和历史数据,并且可以保证数据的一致性,但是需要维护两套不同的代码和基础设施。Kappa架构则只使用流处理来处理数据,将所有数据都视为实时数据进行处理。这样可以简化架构,并且可以实现更低的延迟和更高的吞吐量。原创 2023-05-07 21:02:58 · 19652 阅读 · 0 评论 -
BDCC- 数据湖体系
因为数据湖组件实现了批流一体的存储,再通过批流一体的计算引擎,把数据写入到第三方的结果数据库中,从而提供 API 或者其它的服务的能力,去构建湖仓一体。去访问数据湖的方式,变成了调用 Trino SQL 的 API,然后由计算引擎层决定是用 Spark 引擎或 Velox 引擎去执行,对计算引擎的选择更加智能,这样做会更加公平。比如已经有了 Hive 的数仓存储体系,再引入数据湖的格式,并实现了通过 Hive 对数据湖进行读和写,这种方式就叫做仓外挂湖。有不同的并发控制,例如保证读取和写入之间的一致性。原创 2023-04-23 07:00:00 · 20993 阅读 · 0 评论