编者注:文中超链接如果不能访问可以点击“阅读原文”访问本文原页面;想更多了解Apache Kafka、Apache Pulsar、Apache Spark和其他数据技术的内容,请关注2020年3月15至18日举办的Strata圣何塞数据大会。
随着企业自己不断增长的系统和设备上产生越来越多的数据,消息和事件流的解决方案(特别是Apache Kafka)已经得到了广泛采用。在过去一年里,我们一直在跟踪Apache Pulsar(Pulsar)的进展。它是一个由Yahoo贡献的知名度较低但功能强大的开源解决方案。Pulsar被设计成可以智能地处理、分析和传送来自不断扩展的服务和应用里产生的数据。因此它非常适合多个先进的数据平台。Pulsar也被设计成可以减轻与复杂的分布式系统相关的运维负担。
谁对Pulsar感兴趣?Streamlio的CEO Kathik Ramasamy非常大度地分享了最近这个项目首页的访问者的地理信息数据。
在几千名访问者中,33%来自美洲,36%来自亚太地区,27%来则是来自欧洲、中东和非洲地区。
虽然到目前为止,Apache Kafka是最流行的发布/订阅模式的解决方案。但是在过去一年里,我们已经发现有多家公司在使用Pulsar。事实证明,Pulsar的一些特性是这些企业所重视的,包括:
多层架构:由服务层(由broker来协调消息的接收、存储、处理和传递)、存储层(用Apache BookKeeper节点持久化消息)和处理层(通过Pulsar函数和Pulsar SQL)组成。
高性能和可扩展性:Yahoo已经使用Pulsar多年了,每天处理两百多万个主题里超过1000亿条的消息。Pulsar可以支持超过百万的主题,同时还能保证高吞吐量和低延迟的性能。
很容易增加存储和服务而不必重新平衡整个集群:多层架构允许存储可以被独立地增加。同时也允许服务和存储层的扩展不需要停机。
支持流行的消息模式:包括发布/订阅消息和消息队列。
多租户:一个Pulsar集群就可以支持整个企业,允许每个团队都有单独的命名空间和容量。
持久性(无数据丢失):数据被复制多份并同步到磁盘。
跨区域复制:开箱即用地支持地理上分布的应用。Pulsar支持跨集群的数据复制的不同模式。
前一代的消息系统主要专注于移动数据,而像Pulsar这样的新框架增加了数据处理功能,这些功能对于将数据提供给分析和人工智能应用至关重要。随着互联设备的激增、5G的来临和机器学习以及人工智能越来越重要,这都要求企业构建能耐够获取、处理和传输大量数据流的基础设施。而且企业对能实时完成这些任务的需求也在增加。好消息是核心的数据管理、处理、传输和调度的关键模块也在持续被改进。自动化的技术将能持续地降低运维的负担。
相关内容:
Jesse Anderson的《用Pulsar的功能降低运维开销》
《一张简单的幻灯片:谁对Spark NLP感兴趣?》
《就一张图表明:研究人员喜爱PyTorch和TensorFlow》
Tyler Akidau的《Streaming 101》和《Streaming 102》
《Apache Kafka和对于生产级机器学习系统的四个挑战》
Jay Kreps的《从零开始够搭建Apache Kafka》
Karthik Ramasamy《架构设计和构建端到端的流式应用》
《对软件开发而言机器学习意味着什么》
Ben Lorica是O’Reilly Media公司的首席数据科学家,同时也是Strata数据会议和O’Reilly人工智能会议的内容日程主管。他曾在多种场景下应用商业智能、数据挖掘、机器学习和统计分析技术,这些场景包括直销、消费者与市场研究、定向广告、文本挖掘和金融工程。他的背景包括在投资管理公司、互联网初创企业和金融服务公司就职。
Jesse Anderson是Big Data Institute的数据工程师、创意工程师和管理总监。Jesse向企业雇员提供大数据培训,包括Apache Kafka、Apache Hadoop和Apache Spark等尖端技术。他为企业(从创业公司到财富100强公司)培训了几千名的员工,交给它们成为数据工程师的技能。他被公认为是该领域的专家,并因其新颖的教学实践而受到广泛认可。Jesse在O’Reilly和Pragmatic Programmers出版了著作,并被华尔街日报、CNN、BBC、NPR、Engadget和Wired等著名媒体报道。你可以在Jesse-Anderson.com上了解有关Jesse的更多信息。
This article originally appeared in English: "One simple chart: Who is interested in Apache Pulsar?".