Flink使用(详细教程)

Flink开发大致分为四步骤:Environment、Source、Transform、Sink
新建maven项目,添加pom依赖:

    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-scala_2.11</artifactId>
      <version>1.7.2</version>
    </dependency>

    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-streaming-scala_2.11</artifactId>
      <version>1.7.2</version>
    </dependency>

    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-connector-kafka_2.11</artifactId>
      <version>1.7.2</version>
    </dependency>

    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-java</artifactId>
      <version>1.7.2</version>
    </dependency>
    
    <dependency>
      <groupId>org.apache.flink</groupId>
      <artifactId>flink-streaming-java_2.11</artifactId>
      <version>1.7.2</version>
    </dependency>

1、Environment

Flink Job在提交执行计算时,需要首先建立和Flink框架之间的联系,也就指的是当前的flink运行环境,只有获取了环境信息,才能将task调度到不同的taskManager执行。而这个环境对象的获取方式相对比较简单。

// 批处理环境
val env = ExecutionEnvironment.getExecutionEnvironment
// 流式数据处理环境
val env = StreamExecutionEnvironment.getExecutionEnvironment

2、Source

Flink框架可以从不同的来源获取数据,将数据提交给框架进行处理, 我们将获取数据的来源称之为数据源。

2.1 从内存读取数据

一般情况下,可以将数据临时存储到内存中,形成特殊的数据结构后,作为数据源使用。这里的数据结构采用集合类型是比较普遍的。

import org.apache.flink.streaming.api.scala._

object SourceTest {
   
  def main(args: Array[String]): Unit = {
   
    //创建环境
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    //从内存中读取(使用集合类型)
    val stream1: DataStream[String] = env.fromCollection(List(
      "hello java",
      "hello flink",
      "hello XML",
      "hello spark",
      "hello scala",
      "hello flume",
      "hello kafka",
      "hello storm",
      "hello mysql",
      "hello Linux",
      "hello python",
      "hello HTML",
      "hello javascript"
    ))
	
    //打印
    stream1.print()

    //启动流
    env.execute("demo")
  }
}

在这里插入图片描述
输出结果前面的数字代表的是处理的线程,默认是调用所有线程处理,如果只想启用2个线程处理,可以设置并行度:env.setParallelism(2)。关于设置并行度,除了刚开始就设置并行度以外,其实每一步转化操作都可以设置并行度,如下:

val resultDataStream: DataStream[(String, Int)] = inputDataStream
      .flatMap(_.split(" ")).setMaxParallelism(2)
      .map((_, 1)).setParallelism(3)
      .keyBy(0)
      .sum(1).setParallelism(2)
resultDataStream.print().setParallelism(1)

虽然可以这样设置,但我们一般不会这样做,既然有那么多线程资源可以使用,我们为什么不全部使用呢。假如我们需要将打印结果写入文件,如果并行度大于1,会打印出线程和尖括号,这时候就可以在打印时设置并行度为1,如:resultDataStream.print().setParallelism(1),此时打印出来的结果就没有线程和尖括号了。

2.2 从文件中读取数据

通常情况下,我们会从存储介质中获取数据,比较常见的就是将日志文件作为数据源。

import org.apache.flink.streaming.api.scala._

object SourceFile {
   

  def main(args: Array[String]): Unit = {
   
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    //从文件中读取
    val fileDS: DataStream[String] = env.readTextFile("input/data.txt")

    //打印
    fileDS.print()
    //启动
    env.execute("demo2")

  }
}
  • 在读取文件时,文件路径可以是目录也可以是单一文件。
  • 路径可以是绝对路径,也可以是相对路径。如果采用相对文件路径,会从当前系统参数user.dir中获取路径。
    • 如果在IDEA中执行代码,那么系统参数user.dir自动指向项目根目录。
    • 如果是standalone集群环境,默认为集群节点根目录。
  • 路径可以是本地文件路径(如示例)也可以是分布式系统路径,如HDFS
 val fileDS: DataStream[String] =env.readTextFile( "hdfs://hadoop20:9000/test/data.txt")

在这里插入图片描述

假如读取的是HDFS上的文件,

2.3 kafka读取数据

Kafka作为消息传输队列,是一个分布式的,高吞吐量,易于扩展地基于主题发布/订阅的消息系统。在现今企业级开发中,Kafka 和 Flink成为构建一个实时的数据处理系统的首选。

import java.util.Properties
import org.apache.flink.streaming.api.scala._
import org.apache.flink.api.common.serialization.SimpleStringSchema
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer
import org.apache.kafka.clients.consumer.ConsumerConfig

object SourceKafka {
   
  def main(args: Array[String]): Unit = {
   
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    
    val prop = new Properties()
    prop.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.136.20:9092")
    prop.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"flink-kafka-demo")
    prop.setProperty(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG,"org.apache.kafka.common.serialization.StringDeserializer")
    prop.setProperty(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,"org.apache.kafka.common.serialization.StringDeserializer")
    prop.setProperty(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"latest")

    val kafkaDS: DataStream[String] = env.addSource(
      new FlinkKafkaConsumer[String](
        "kafkaflinkTopic",   		//kafka的topic
        new SimpleStringSchema(),
        prop)
    )
    
    kafkaDS.print()
    env.execute("kafkaFlinkDemo")
  }
}

2.4 从端口读取数据

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.datastream.DataStreamSource
import org.apache.flink.streaming.api.scala._


object SocketFile {
   
  def</
  • 12
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Flink 使用 .so(Shared Object)文件是一种将本地代码集成到 Flink 程序中的方式,因为 Flink 本身是 Java 程序,无法直接调用本地方法。本文将介绍如何在 Flink使用 .so 文件。 ## 1. 编写 C++ 代码并生成 .so 文件 首先,我们需要编写 C++ 代码并将其编译成 .so 文件。假设我们要编写一个简单的 C++ 程序,实现两个数相加的功能: ```c++ #include <iostream> using namespace std; extern "C" { int add(int a, int b) { return a + b; } } ``` 此处我们使用了 `extern "C"` 声明,表示使用 C 语言的函数名命名规则,这样就可以在 Java 中通过 JNI 调用该函数。 接下来,我们需要编译生成 .so 文件。这里以 Linux 系统为例,使用以下命令编译: ``` g++ -shared -fPIC add.cpp -o libadd.so ``` 其中,`-shared` 表示生成共享库;`-fPIC` 表示编译成位置独立的代码,方便在不同的进程中共享;`add.cpp` 是我们编写的 C++ 代码文件名;`libadd.so` 是生成的 .so 文件名。 ## 2. 将 .so 文件放入 Flink 项目中 将生成的 .so 文件放入 Flink 项目的某个目录中,例如 `src/main/resources` 目录下。 ## 3. 使用 JNA 调用 .so 文件 接下来,我们需要使用 JNA(Java Native Access)库来调用 .so 文件中的函数。JNA 是一个 Java 库,它允许 Java 代码调用本地(非 Java)方法和库。 首先,在 Flink 项目中添加 JNA 依赖: ```xml <dependency> <groupId>net.java.dev.jna</groupId> <artifactId>jna</artifactId> <version>5.6.0</version> </dependency> ``` 然后,在 Flink 程序中使用 JNA 调用 .so 文件中的函数: ```java import com.sun.jna.Library; import com.sun.jna.Native; public class NativeAdd { public interface Add extends Library { int add(int a, int b); } public static void main(String[] args) { Add add = Native.load("add", Add.class); System.out.println(add.add(1, 2)); } } ``` 代码中,我们定义了一个 `Add` 接口,继承自 `Library` 接口,其中定义了 `add` 方法,用于调用 .so 文件中的 `add` 函数。 `Native.load("add", Add.class)` 方法加载 .so 文件,并返回一个 `Add` 接口的实现类。然后,我们就可以使用该实现类的 `add` 方法调用 .so 文件中的 `add` 函数。 ## 4. 在 Flink 任务中使用 .so 文件 最后,我们可以在 Flink 任务中使用 .so 文件了。假设我们的 Flink 任务需要计算两个数的和,我们可以将上面的 `NativeAdd` 类的代码稍作修改,变成以下形式: ```java import com.sun.jna.Library; import com.sun.jna.Native; public class NativeAdd implements MapFunction<Tuple2<Integer, Integer>, Integer> { public interface Add extends Library { int add(int a, int b); } @Override public Integer map(Tuple2<Integer, Integer> value) throws Exception { Add add = Native.load("add", Add.class); return add.add(value.f0, value.f1); } } ``` 在 Flink 任务中,我们实现了 `MapFunction` 接口,并重写了 `map` 方法。在 `map` 方法中,我们加载 .so 文件,并调用其中的 `add` 函数计算两个数的和。 以上就是使用 .so 文件的详细教程。需要注意的是,在使用 .so 文件时,需要保证 .so 文件与运行 Flink 程序的操作系统和 CPU 架构一致。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值