Lambda Architecture-大数据处理系统经典架构解析

本文链接：https://blog.csdn.net/ybdesire/article/details/70148923

Lambda架构(LA)由Nathan Marz提出,旨在满足鲁棒性、负载支持与线性扩展的需求。LA采用双路径处理方式,一路存储原始数据(BatchView),另一路进行大数据处理(RealtimeView),最终通过合并两者结果完成查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

什么是LA

Lambda架构，是Nathan Marz根据自己在Twitter的分布式数据处理系统经验，提出的通用数据处理架构。

LA的提出，主要是为了满足3点需求：

LA的高层架构见下图。

这里写图片描述
理解LA，要从5个关键点来讲（包括了3层结构）。

（1）所有进入系统的数据，都会被分发到批处理层（batch layer）和快速处理层（speed layer）。
（2）批处理层（batch layer）有两个作用：
- 管理master的数据（raw数据）：比如用HDFS来存储
- 为数据转换为批处理视图做预处理
（3）服务层（serving layer）用于加载和实现数据库中的批处理视图，以便用户能查询。
（4）快速处理层（speed layer）用于处理新数据和服务层更新造成的高延迟补偿。
（5）任何query的答案，都能通过合并批处理视图和实时视图的结果来获得。

讲的有点复杂，通俗化一下，LA的设计思想就是：

LA架构并没有指定其中的具体组件，下面举例说明怎么借助LA来设计系统。

下面是一个基于LA设计的日志分析系统。

这里写图片描述

两路数据，一路经HDFS存储，到Batch View，可以获得LOG数据的原始信息。另一路经Spark深度处理/挖掘后，到Realtime View，可以获得故障信息。任何一个query，就可以将Batch View和Realtime View结合，就能得到最终结果。

一致性（Consistency），说的是每一个更新成功后，分布式系统中的所有节点，都能读到最新的信息。即所有节点相当于访问同一份内容，这样的系统就被认为是强一致性的。LA架构满足C。
可用性（Availability），是每一个请求，都能得到响应。请求只需要在一定时间内返回即可。LA架构也满足A。
分区容错性（Partition tolerance），是说在网络中断，消息丢失的情况下，系统照样能够工作。LA并没有做复杂的硬件架构设计，不满足P。

所以LA是一个CA系统。