Flink 流批一体在小米的实践

本篇内容主要分为四个部分:

  1. 小米的大数据发展演变

  2. 流批一体的平台建设

  3. 流批一体应用场景

  4. 未来规划

一、小米的大数据发展演变

  • 2019 年之前,小米的实时计算主要以 SparkStreaming 为主,少部分 Storm,离线计算以 Spark 为主。

  • 2019 年,开始接入 Flink,并广泛应用于信息流搜索推荐、广告实时样本、实时 ETL 等场景,逐步替换了原来的 SparkStreaming 作业,得益于 Flink 框架的各种优秀特性,我们在作业的正确性,实时性,资源使用效率方面都有较大提升。

  • 2020 年,开始接入使用 FlinkSQL,并广泛用于实时数仓的建设和实时 ETL 作业的开发。FlinkSQL 的实时数仓将数据链路由 T+1 降低到了秒级。

  • 2021 年,开始接入数据湖 Iceberg,基于 Flink 和 Iceberg 来构建流批一体的实时数仓解决方案,并在小米内部的部分业务进行了落地,证明流批一体在赋能业务、提升作业开发效率、简化链路节省资源的方面是可行的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Flink 批流一体编程实践可以通过 Table/SQL API 和 DataStream/DataSet API 两种方式来实现。下面将分别介绍这两种方式的实现方法。 1. Table/SQL API 实现批流一体编程实践 Table/SQL API 是 Flink 提供的一种基于 SQL 的编程接口,可以将流处理和批处理统一起来。通过 Table/SQL API,用户可以使用 SQL 语句来操作流和批数据,从而实现批流一体的编程。 下面是一个使用 Table/SQL API 实现批流一体编程的示例代码: ```python from pyflink.table import StreamTableEnvironment, BatchTableEnvironment, EnvironmentSettings # 创建流处理环境 stream_env = StreamExecutionEnvironment.get_execution_environment() stream_env.set_parallelism(1) stream_table_env = StreamTableEnvironment.create(stream_env) # 创建批处理环境 batch_env = ExecutionEnvironment.get_execution_environment() batch_env.set_parallelism(1) batch_table_env = BatchTableEnvironment.create(batch_env) # 创建表 stream_table_env.execute_sql("CREATE TABLE source_table (id INT, name STRING) WITH ('connector' = 'kafka', 'topic' = 'source_topic', 'properties.bootstrap.servers' = 'localhost:9092', 'format' = 'json')") batch_table_env.execute_sql("CREATE TABLE sink_table (id INT, name STRING) WITH ('connector' = 'jdbc', 'url' = 'jdbc:mysql://localhost:3306/test', 'table-name' = 'sink_table', 'username' = 'root', 'password' = '123456', 'driver' = 'com.mysql.jdbc.Driver')") # 执行查询 result_table = stream_table_env.sql_query("SELECT id, name FROM source_table WHERE id > 10") result_table.insert_into("sink_table") # 执行作业 stream_table_env.execute("job_name") ``` 在上面的示例代码中,我们首先创建了一个流处理环境和一个批处理环境,然后分别使用 StreamTableEnvironment 和 BatchTableEnvironment 创建了对应的表环境。接着,我们使用 execute_sql() 方法创建了一个输入表和一个输出表,并使用 sql_query() 方法执行了一个查询操作,最后使用 insert_into() 方法将查询结果插入到输出表中。最后,我们使用 execute() 方法执行了整个作业。 2. DataStream/DataSet API 实现批流一体编程实践 除了 Table/SQL API,Flink 还提供了 DataStream/DataSet API 来实现批流一体编程。通过 DataStream/DataSet API,用户可以使用相同的 API 来操作流和批数据,从而实现批流一体的编程。 下面是一个使用 DataStream/DataSet API 实现批流一体编程的示例代码: ```python from pyflink.common.serialization import SimpleStringSchema from pyflink.datastream import StreamExecutionEnvironment from pyflink.datastream.connectors import FlinkKafkaConsumer from pyflink.dataset import ExecutionEnvironment # 创建流处理环境 stream_env = StreamExecutionEnvironment.get_execution_environment() stream_env.set_parallelism(1) # 创建批处理环境 batch_env = ExecutionEnvironment.get_execution_environment() batch_env.set_parallelism(1) # 创建数据源 stream_source = FlinkKafkaConsumer('source_topic', SimpleStringSchema(), {'bootstrap.servers': 'localhost:9092'}) batch_source = batch_env.from_elements([(1, 'a'), (2, 'b'), (3, 'c')]) # 执行流处理 stream_env.add_source(stream_source).filter(lambda x: int(x.split(',')[0]) > 10).print() # 执行批处理 batch_source.filter(lambda x: x[0] > 1).print() # 执行作业 stream_env.execute('job_name') ``` 在上面的示例代码中,我们首先创建了一个流处理环境和一个批处理环境,然后分别使用 FlinkKafkaConsumer 和 from_elements() 方法创建了对应的数据源。接着,我们使用 filter() 方法对数据进行过滤,并使用 print() 方法输出结果。最后,我们使用 execute() 方法执行了整个作业。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

米朵儿技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值