https://risingwave.com/

绍 RisingWave 是一款开源分布式 SQL 流数据库,致力于大幅降低流计算使用门槛与复杂度。RisingWave 已为全球近百家企业构建新一代流处理与分析平台。

  • 博客(71)
  • 收藏
  • 关注

原创 RisingWave 中文用户文档上线,阅读更高效!

为满足广大中文社区用户、开发者及流处理技术爱好者的需求,RisingWave 用户文档中文社区版今天上线了!中文版文档的推出,旨在为广大用户提供更便捷、高效的阅读体验,帮助大家深入理解并有效使用 RisingWave,发挥其更多的潜力。

2024-02-08 10:50:33 386

原创 重新定义流计算:第三代流处理系统 RisingWave 的 2024 年展望

流处理技术在过去的 20 年里经历了从学术概念到商业应用的演变。流处理系统从无到有,我们见证了从第一代数据流管理系统如 IBM System S、Oracle CQL、Esper 等,到第二代基于 MapReduce 思想发展出的分布式流计算平台,如 Apache Spark Streaming、Apache Flink 等,再到如今的第三代云原生流处理系统,如 RisingWave。这一发展标志着流处理技术的普及和简化,已成为众多行业中不可或缺的关键技术。

2024-01-04 17:18:27 996

原创 新手必看流数据库 RisingWave 入门教程来啦!

在这份教程中,我们将带你一步步学习 RisingWave 的基础知识,并引导你逐步进阶,成为RisingWave 的高级玩家。通过阅读本教程,我们希望读者能够上手尝试 RisingWave,掌握更多技能以应对实时数据处理中的各种挑战。

2023-11-20 11:26:28 261 1

原创 深入了解 RisingWave(三)性能相关的主要指标

RisingWave 作为一个领先的分布式架构 SQL 流式数据库,能简单、高效、可靠地处理流数据。本文列举了 RisingWave Grafana 看板上显示的一些重要指标,了解这些指标有助于诊断潜在问题。

2024-07-23 16:26:12 560

原创 流式数据库 |RisingWave 的架构、容错、数据持久化

RisingWave 是一个分布式架构的 SQL 流式数据库,能简单、高效、可靠地处理流数据。本文将为大家分享其架构、容错性和数据持久化。

2024-07-18 22:57:29 863

原创 流式数据库|RisingWave 关键概念、术语一览

RisingWave 是一个分布式架构的 SQL 流式数据库,能简单、高效、可靠地处理流数据。为方便大家了解和使用 RisingWave,本文整理了相关核心概念和术语,供参考。

2024-07-16 16:09:47 946

原创 深度|不同数据系统中的“一致性”(Consistency)含义的区别

数据系统能否实现“强一致性”是当下产品选择的一个重要考量因素,但我们需要先弄清楚数据库、分布式系统、流处理引擎等不同数据系统中一致性需求究竟有何不同。

2024-07-11 17:03:44 785

原创 RisingWave 用例:流式 ETL、实时分析、事件驱动应用

流式数据库 RisingWave 非常适用于流式 ETL、实时分析和事件驱动应用。本文将分析 RisingWave 如何支持这些场景,并给出具体案例。

2024-07-11 16:06:49 525

原创 用流式数据库解决「自动化检测服务器性能异常」难题

对 DevOps 团队来说,检测大量服务器的性能异常并尽快响应一直是个挑战,而流式系统在这种情况下很有帮助。本教程将分享如何使用 RisingWave 自动化地从系统性能指标流中检测异常。

2024-07-09 17:03:21 635

原创 流式数据库 RisingWave「Demo」:直播指标实时分析

直播是目前最为流行的娱乐形式之一,本教程将分享如何使用开源流式数据库 RisingWave 监控直播指标。我们为本教程设置了一个演示集群,以便大家可以轻松尝试。

2024-07-04 18:22:35 839

原创 流处理系统对比:RisingWave vs ksqlDB

本文将从架构、部署与可扩展性、Source 和 Sink、生态系统与开发者工具几个方面比较 ksqlDB 和 RisingWave 这两款领先的流处理系统。

2024-07-02 14:53:48 627

原创 流式数据库笔记|从 0 开始离线安装 RisingWave 集群

RisingWave 是一款开源的分布式流处理数据库,旨在帮助用户降低实时应用的开发成本。本文分为三个部分: 离线环境如何用 yum 安装软件,离线环境安装 k8s 安装 helm,离线环境安装 RisingWave,可以按需使用 ):

2024-06-28 14:46:37 619

原创 RisingWave 用户定义函数 (二): Rust x WebAssembly

Rust UDF 非常适合编写计算密集型逻辑,其通过编译到 WebAssembly 实现隔离性,同时保持高性能。在这篇文章中,我们将介绍 RisingWave Rust UDF 的设计与实现。

2024-06-27 16:20:42 656

原创 实践|用流式数据库 RisingWave 最大化停车场利用率

作为一个流式数据库,RisingWave 可以最大化停车场的利用率。本文中,我们将介绍使用 RisingWave 实时监控停车位利用情况的两个场景,并探讨如何优化 RisingWave 的性能。

2024-06-25 15:13:08 757

原创 走近数据变更捕获(CDC):定义、优势和用例

数据变更捕获(CDC)是一种捕捉数据变更的技术。它能实时监控数据源(如数据库、应用系统等)中数据的增、删、改等变化,并记录下这些变更信息。与传统批处理方式相比,CDC 实现了近乎实时的数据集成和同步,使企业能够随时掌握最新信息,从而基于数据做出及时决策。

2024-06-25 15:08:49 1021

原创 技术内幕|在流式数据库 RisingWave 中实现 Sink 与上游物化视图解耦

但同时,由于 RisingWave 中可以基于物化视图创建物化视图,类似的问题还可能出现在上下游的物化视图中,上游的物化视图会受下游的物化视图影响。因此,当下游的外部系统出现抖动时,Sink 可能会需要比较长的时间才能把 Barrier 之间的数据处理完,而因为上述的全局 Checkpoint 机制,物化视图会受到 Sink 影响,其数据需要等 Sink 将数据处理完后才能进行 Checkpoint ,甚至在下游外部系统不可用的时候,整个系统将会无法完成 Checkpoint ,进入不可用的状态。

2024-06-24 14:50:58 947

原创 “流处理引擎” RisingWave 的三种经典交互方式

作为流数据库,RisingWave 在大数据生态中通常扮演着流处理引擎的角色。它从各种数据源读取数据,并将其写入不同的目的地。在此过程中,RisingWave 清洗、转换和聚合数据,最终得出计算的结果。在这篇 blog 中,我们首先介绍与 RisingWave 交互的两种最常见的方法及其优缺点。然后,我们将引入一种专为 PostgreSQL 用户准备的与 RisingWave 交互的新形式。

2024-06-24 14:42:08 809

原创 实时数据处理革命:从传统数据栈到新一代流处理解决方案

十年前的大数据运动强调数据的体量、速度和多样性,但传统技术如 Hadoop 主要解决数据体量问题,未能广泛应用于实时数据处理。新一代流处理系统如 RisingWave 和 Materialize 结合流处理引擎和传统数据库的优势,使用 SQL 作为标准 API,并包含内置存储层,简化了部署和管理,提高了实时数据处理能力。

2024-06-21 13:10:26 669

原创 RisingWave 1.9 发布!新增 Snowflake sink 连接器

RisingWave1.9 版本正式发布!此次带来了许多重要更新,例如:优化了许多上游和下游连接器、新增了 Snowflake sink 连接器、弃用此前的`s3`连接器,转为指定 AWS S3 source 连接器为`s3_v2`等。此外,本版本还新增了许多实用的 SQL 命令和函数,例如创建订阅功能等。一起来了解本次更新的主要亮点吧!

2024-06-20 18:39:09 694

原创 使用 RisingWave 和 Redash 处理和可视化实时数据

本文中,通过简单几步,我们将 RisingWave 与 Redash 集成。Redash 提供了广泛功能创建高级可视化图表和综合看板,而 RisingWave 则提供了强大的数据处理、转换和分析能力。此外,RisingWave 还具备更多丰富的集成可选,您可以轻松将其连接到消息系统,从而构建一个完整的流处理管道。

2024-05-22 15:08:05 633

原创 RisingWave 用户定义函数 (一) :概览

用户定义函数(User Defined Function,以下简称 UDF)是数据系统中的常见功能。它允许用户使用各种语言定义自己的函数,作为内置函数的补充,以实现各种定制化执行逻辑。通过 UDF,我们可以将多个已有函数组合起来形成新函数,简化查询逻辑;也可以使用 Python 等语言编写代码,借用其它语言的生态,填补 SQL 语言和内置函数表达能力的不足;除了纯计算以外,我们还可以调用外部系统 API,将外部服务集成到统一的数据处理管线中。可以说,UDF 的存在极大提升了数据处理系统的灵活性和扩展性。

2024-05-16 17:07:31 897

原创 使用 WarpStream、RisingWave 和 Grafana 进行实时网站监控

本文介绍了能够整合 RisingWave、WarpStream 和 Grafana 的实时网站监控系统。整个系统的设置过程清楚简单,要监控每个指标,您只需要在 RisingWave 中创建一个物化视图并在 Grafana 中进行可视化。上文展示的分析仅作为示例,为您提供灵感。如果您的数据点已经准备就绪,并提供必要的数据,可以尝试更复杂的分析和转换逻辑。欢迎您的进一步探索,如有任何问题或需要帮助,请随时联系我们。

2024-05-16 17:04:29 714

原创 1.8 发布!新增 Iceberg Source 和 MongoDB CDC 连接器

过去要从 RisingWave 摄取 MongoDB 的 CDC 数据,需要设置一个包括 Debezium 连接器的管道(用于 MongoDB 跟踪数据库变更并将其记录到 Kafka Topic 中)和一个 Kafka 连接器(用于连接到 RisingWave)。上个月的 1.7 版本新增了对其他语言 UDF 的支持,本月的新版本则继续改进了 UDF 的功能。在确保 etcd 的向后兼容的同时, 此次更新将为您带来 PostgreSQL、MySQL 和 SQLite 的技术预览,作为元数据存储的新选项。

2024-04-10 12:21:39 815

原创 基于 RisingWave 和 ScyllaDB 构建事件驱动应用

RisingWave 可在事件发生时即时处理事件数据,其内置的 ScyllaDB 连接器可实时将处理后的数据导出到 ScyllaDB。设想一下电子商务中的个性化推荐场景,通过连接点击流和产品目录流,我们可以实时分析用户的偏好并提供个性化推荐。以上是一个简单的用例示范,除此之外,使用 RisingWave,您可以轻松地过滤、连接和转换流数据,轻松表达复杂的转换逻辑。结合 RisingWave 的流处理功能和 ScyllaDB 的高性能 NoSQL 数据库,可为构建事件驱动应用和数据管道提供有效的解决方案。

2024-04-10 12:16:35 2222

原创 使用 RisingWave、NATS JetStream 和 Superset 进行实时物联网监控

本文逐步介绍了如何利用 NATS JetStream、RisingWave 和 Superset 构建实时物联网监控解决方案。以上三个系统的设置过程简单省力,资源效率高且具有强大的可扩展性,是实时物联网应用的理想组合。通过三者的无缝集成,不到一小时即可创建一个实时物联网看板。简而言之,这展示了物联网设备背景下 NATS JetStream、RisingWave 和 Apache Superset 在工业流程中的无缝集成,并通过可视化和看板实现了实时分析和监控。

2024-04-03 11:21:08 768

原创 RisingWave 在品高股份 Bingo IAM 中的应用

RisingWave是一个极具创新性的分布式 SQL 流数据库,我们对 RisingWave 的核心技术实力深感赞赏并看好其长远发展潜力。RisingWave给我们带来了一系列强大的能力,为我们面临的诸多需求和挑战提供了优秀有效的解决方案。在使用过程中,我们深感到 RisingWave 流处理的高效和简单,也切实体会到 RisingWave ”流处理平民化”的使命。未来我们将持续深入探索 RisingWave 在品高云应用支撑平台研发中的不同应用场景,期待借助其创新的能力,优化并提升我们的技术架构与服务能力

2024-04-03 11:19:38 994 1

原创 基于 RisingWave 和 ScyllaDB 构建事件驱动应用

在构建事件驱动应用时,人们面临着两大挑战:1)低延迟处理大量数据;2)实现流数据的实时摄取和转换。结合 RisingWave 的流处理功能和 ScyllaDB 的高性能 NoSQL 数据库,可为构建事件驱动应用和数据管道提供有效的解决方案。

2024-03-28 14:16:44 1786

原创 基于 RisingWave 和 Kafka 构建实时网络安全解决方案

​本教程介绍了如何使用 RisingWave 和 Kafka 构建实时威胁检测系统。使用 RisingWave 和 Kafka 分别进行流处理和数据传输,可为实时威胁检测提供强大的基础设施。通过在 RisingWave 中创建物化视图,可以高效查询和分析流数据,而 Kafka 则确保了系统不同组件之间的可靠数据传输。如果有兴趣深入了解,可从该GitHub 仓库获取本教程的完整代码,查看所有必要的脚本和配置。

2024-03-19 17:20:28 585

原创 基于 RisingWave 和 StarRocks 的实时打宽及分析解决方案

RisingWave 采用存算分离架构,实现了高效的复杂查询、瞬时动态扩缩容以及快速故障恢复,并助力用户极大地简化流计算架构,轻松搭建稳定且高效的流计算应用。在实时性要求低的场景,用户可以基于 StarRocks 完成离线分析,而当实时性无法满足的时候,用户就可以基于 RisingWave 的大宽表开发物化视图。在实时打宽这一场景里,RisingWave 能够在较低的机器成本下,利用存算分离的能力,无需调优技巧,来支撑一个过去难以维护的 Join 链路。RisingWave 旨在提供的就是这样的能力。

2024-03-18 18:20:33 927

原创 一行代码极速部署:打造面向开发者的流计算平台

作者:Yingjun Wu 在2021年初,我创立了,目标是推广流计算技术的普及。在过去的三年中,我不断的向市场布道RisingWave,希望RisingWave能够在流计算这一市场中占有一席之地。经过坚持不懈的努力,如今,RisingWave已被数百家企业采用,这些企业遍布多个领域,包括一些世界顶尖的金融交易、制造业、安全、航空航天等行业的公司。为大型企业提供优质服务总是能够令人感到兴奋。然而,与此同时,我始终在思考一个问题:为什么总是大公司?为什么不是中小型企业或者个人?

2024-03-15 11:41:04 863

原创 使用 Debezium 和 RisingWave 对 MongoDB 进行持续分析

RisingWave 能够很好地解析由 Debezium 提取的 MongoDB 变更流。它的云原生存储使其可连接多个 MongoDB 集合,并创建可被其他服务使用的统一流。同时,RisingWave 支持 JSONB,可轻松处理 MongoDB 文档,为实时数据处理挑战提供了强大的解决方案。

2024-02-28 11:45:23 835

原创 RisingWave 中 Iceberg 连接器的重构与优化策略

RisingWave 对 Iceberg 的原生支持能为用户带来许多益处。通过集成 Iceberg v2 的高级功能,RisingWave 提高了效率和稳定性。这让 RisingWave 用户能够最大限度地发挥数据潜力,并从数据湖架构中提取有价值的见解。此次更新使用户能够充分利用 RisingWave 和 Iceberg 的优势,从而激发更多可能性。

2024-02-23 14:29:07 915

原创 基于 RisingWave、Instaclustr 和 Apache Superset 对维基百科实时监控

在这篇博文中,我们介绍了一种流处理解决方案,用于实时监控维基百科中不同贡献者对多篇文章的编辑情况。我们从维基百科 API 中提取数据,并将其传输到部署在 Instaclustr 云中的 Kafka Topic。然后,我们在 RisingWave 创建了 Source 以摄取 Kafka 数据,并创建物化视图进行处理分析。为了更具体直观地展示所得信息,我们又利用 Superset 的强大功能对结果进行可视化,生成各类图表和综合看板。至此,我们即可全面且动态地了解维基百科的编辑情况。

2024-02-20 19:05:44 898

原创 流式 dbt:RisingWave 流计算的正确打开方式

dbt 是现代数据栈中的 Git,它原理简单易上手,但所提供的能力却覆盖了数据仓库构建流程的方方面面。随着实时数据仓库的普及,越来越多的用户开始青睐 dbt + RisingWave 的组合。RisingWave 降低了实时数据处理的门槛,而 dbt 则让数据团队的组织协作变得更加方便。

2024-02-06 13:35:04 835

原创 RisingWave 助力乾象投资打造实时监控平台

经过对 RisingWave 深入学习与实践,乾象已成功将 RisingWave 应用到实盘交易生产环境,并实现了稳定运行。RisingWave 提供了强大的可靠性、可扩展性、高效连接、出色的可观察性以及杰出的客户支持,解决了乾象此前在系统业务上的一些痛点,为实时监控平台提供了更好的解决方案。接下来,RisingWave 将继续致力于流批一体的实现,在未来,RisingWave 既可以实时处理从各种数据源流入的数据,也能对存储在数据湖中的大规模数据进行高效分析,提升用户数据分析和处理能力,以助力企业适应不断

2024-02-01 15:18:49 842

原创 流数据库是否可以被认为是计算引擎+数据库组合?

RisingWave 采用存算分离架构,实现了高效的复杂查询、瞬时动态扩缩容以及快速故障恢复,并助力用户极大地简化流计算架构,轻松搭建稳定且高效的流计算应用。独立的数据库很显然不适合做内部状态存储,因为频繁跨系统数据访问会造成巨大开销,对流处理系统这类对延迟敏感的系统来说并不可取。想要模拟出层级物化视图,用户需要在流处理引擎与数据库之外,再引入如 Kafka 等消息队列,来实现物化视图与物化视图之间的消息传递;,用户使用多套系统的体验与使用一套系统的体验有相当大的差距。RisingWave中文开源社区。

2024-01-30 13:39:28 359

原创 RisingWave 物化视图使用场景:订单数据看板

而例子中用户输入的时间范围是任意的,我们不可能针对每个范围查询都创建一个物化视图,因此我们需要两个步骤:1. 将订单表按一定的可复用时间粒度进行预聚合,我们可以按分钟,小时或者天级别对订单表进行支付金额预聚合,并通过物化视图物化结果。而当天的实时支付金额查询也会变得非常简单,因为 RisingWave 的物化视图是实时更新的,所以我们直接对 orders_total_price_per_day 查询当天时间范围的数据即可获得实时数据。我们可以在分钟级别的物化视图之上,再聚合一个小时级别的维度。

2024-01-30 13:33:01 1828

原创 RisingWave 多流 Join 实现高效实时数据打宽

RisingWave 是一个云原生 SQL 流式数据库,并针对流处理 Join 做了大量状态管理、复用、以及性能优化。本文介绍了 RisingWave 的 Join 的使用场景,流处理 Join 的基本原理,以及 Join 状态的特点。同时介绍了如何使用 Watermark 来控制 Join 状态的大小。RisingWave 提供 Symmetric Hash Join、Interval Join、Temporal Join、Delta Join 等面向用户的 Join Features。

2024-01-26 17:01:09 919

原创 RisingWave 存储引擎优化:更高的性能与更低的成本

除了查询性能以外,成本也是数据库所关注的重点。对于 AWS S3 这样的存储后端来说,除了存储数据按照大小每月固定收费以外,IO 操作按照次数收费。因此,除了优化性能以外,如何利用 S3 的高吞吐高延迟的特征,尽可能提高 S3 的使用效率来降低成本,也是我们优化存储系统的重要方向之一。接下来我们会根据查询计划的不同更加精确地选择 IO 策略来进一步提高处理速度,以及基于本地磁盘作为二级缓存来进一步提高命中率,减少对 S3 的访问频率。

2024-01-25 18:08:34 787

原创 用 Rust 过程宏魔法简化 SQL 函数实现

在这种模型下,一个表(Table)的数据按列分割,每一列的数据连续存储在一个数组(Array)中。只不过,它的编译时和运行时代码是物理分开的,相比 Zig 的体验没有那么统一,但是效果几乎一样。在函数求值时,我们首先把每个输入参数对应的数据列合并成一个 RecordBatch,然后依次读取每一行的数据,作为参数调用函数,最后将函数返回值压缩成一个数组,作为最终返回结果。相比 trait + 声明宏的解决方案,过程宏中的 “过程式” 风格为我们提供了极大的灵活性,一揽子解决了之前提到的全部问题。

2024-01-19 19:26:15 912

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除