flink的流处理的source

最新推荐文章于 2023-09-20 20:30:44 发布

panxuej_shenx

最新推荐文章于 2023-09-20 20:30:44 发布

阅读量495

点赞数

本文链接：https://blog.csdn.net/xwcj3/article/details/119223177

版权

flink的流处理的source

输入数据集DataSource
Flink 中你可以使用 StreamExecutionEnvironment.getExecutionEnvironment 创建流处理的执行环境
Flink 中你可以使用 StreamExecutionEnvironment.addSource(source) 来为你的程序添加数据来源。
Flink 已经提供了若干实现好了的 source functions，当然你也可以通过实现 SourceFunction 来自定义非并行的
source或者实现 ParallelSourceFunction 接口或者扩展 RichParallelSourceFunction 来自定义并行的
source。
Flink在流处理上的source和在批处理上的source基本一致。大致有4大类：
基于本地集合的source（Collection-based-source）
基于文件的source（File-based-source）- 读取文本文件，即符合 TextInputFormat 规范的文件，并将其作为字符
串返回
基于网络套接字的source（Socket-based-source）- 从 socket 读取。元素可以用分隔符切分。
自定义的source（Custom-source）

本地集合数据

package com.ccj.pxj.heima.stream.source

import org.apache.flink.streaming.api.scala._

import scala.collection.mutable
import scala.collection.mutable.{ArrayBuffer, ListBuffer}

/**
 *作者：pxj
 *日期：20221-07-28
 */
object StreamingDemoFromCollectionSource {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    val datas: DataStream[String] = env.fromElements("sprk,kafka,hive")
    datas.print()
    println("---------")

    val datas1: DataStream[(String, Int)] = env.fromElements(("spark", 1), ("hive", 1), ("flink", 1))
    datas1.print()
    println("----------")
    val data: DataStream[String] = env.fromCollection(Array("hive", "hadoop"))
    println(data)
    val buffdata: DataStream[String] = env.fromCollection(ArrayBuffer("hive", "hadoop"))
    buffdata.print()
    val listData = env.fromCollection(List("spark", "flink"))
    listData.print()
    //5.用List创建DataStream
    val buffdatalist = env.fromCollection(ListBuffer("spark", "flink"))
    buffdatalist.print()
//    //6.用Vector创建DataStream
val vectorData = env.fromCollection(Vector("spark", "flink"))
    vectorData.print()
    //7.用Queue创建DataStream
    val QUEUE = env.fromCollection(mutable.Queue("spark", "flink"))
    QUEUE.print()
    //8.用Stack创建DataStream
    val ds8: DataStream[String] = env.fromCollection(mutable.Stack("spark", "flink"))
    ds8.print()
    //9.用Stream创建DataStream（Stream相当于lazy List，避免在中间过程中生成不必要的集合）
    val ds9: DataStream[String] = env.fromCollection(Stream("spark", "flink"))
    ds9.print()
    //10.用Seq创建DataStream
    val ds10: DataStream[String] = env.fromCollection(Seq("spark", "flink"))
    ds10.print()
    //11.用Set创建DataStream(不支持)
    //val ds11: DataStream[String] = senv.fromCollection(Set("spark", "flink"))
    //ds11.print()
    //12.用Iterable创建DataStream(不支持)
    //val ds12: DataStream[String] = senv.fromCollection(Iterable("spark", "flink"))
    //ds12.print()
    //13.用ArraySeq创建DataStream
    val ds13: DataStream[String] = env.fromCollection(mutable.ArraySeq("spark", "flink"))
    ds13.print()
    //14.用ArrayStack创建DataStream
    val ds14: DataStream[String] = env.fromCollection(mutable.ArrayStack("spark", "flink"))
    ds14.print()
    //15.用Map创建DataStream(不支持)
    //val ds15: DataStream[(Int, String)] = senv.fromCollection(Map(1 -> "spark", 2 -> "flink"))
    //ds15.print()
    //16.用Range创建DataStream
    val ds16: DataStream[Int] = env.fromCollection(Range(1, 9))
    ds16.print()
    //17.用fromElements创建DataStream
    val ds17: DataStream[Long] = env.generateSequence(1, 9)
    ds17.print()
    env.execute(this.getClass.getName)


  }

}

基于文件的source

Flink的流处理可以直接通过 readTextFile()
方法读取文件来创建数据源,方法如下:

package com.ccj.pxj.heima.stream.source
import org.apache.flink.streaming.api.scala._
object DataSourceFlie {
  def main(args: Array[String]): Unit = {
    val senv: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val datsst: DataStream[String] = senv.readTextFile("hdfs://192.168.25.60:9000//wc/output")
    datsst.print()
    senv.execute("pxj")
  }
}

基于网络套接字的source

上面两种方式创建的数据源一般都是固定的.如果需要源源不断的产生数据,可以使用socket的方式来获取数据,通过调
用 socketTextStream() 方法
示例
编写Flink程序，接收 socket 的单词数据，并以空格进行单词拆分打印。
步骤
1.获取流处理运行环境
2.构建socket流数据源，并指定IP地址和端口号
3.对接收到的数据进行空格拆分
4.打印输出
5.启动执行
6.在Linux中，使用 nc -lk 端口号监听端口，并发送单词

package com.ccj.pxj.heima.stream.source
import org.apache.flink.streaming.api.scala._
object SocketSource {
  def main(args: Array[String]): Unit = {
    val senv: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val dats: DataStream[String] = senv.socketTextStream("192.168.25.60", 12345)
    dats.map(_.split(" ")).print()
    senv.execute("pxj")
  }
}

自定义source

我们也可以通过去实现 SourceFunction或者它的子类 RichSourceFunction 类来自定义实现一些自定义的source，Kafka创建source数据源类FlinkKafkaConsumer010 也是采用类似的方式。
自定义数据源
示例:
自定义数据源, 每1秒钟随机生成一条订单信息(
订单ID、用户ID 、订单金额、时间戳 )
要求:
随机生成订单ID（UUID）
随机生成用户ID（0-2）
随机生成订单金额（0-100）
时间戳为当前系统时间
开发步骤:
1.创建订单样例类
2.获取流处理环境
3.创建自定义数据源循环1000次随机构建订单信息上下文收集数据每隔一秒执行一次循环
4.打印数据
5.执行任务

package com.ccj.pxj.heima.stream.source
import java.util.UUID
import java.util.concurrent.TimeUnit
import org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}
import org.apache.flink.streaming.api.scala._
import scala.util.Random
object StreamFlinkSqlDemo {
  def main(args: Array[String]): Unit = {
    // 1. 获取流处理运行环境
    val senv: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    // 2. 创建一个自定义数据源
    val orderRuslt: DataStream[Order] = senv.addSource(new RichSourceFunction[Order] {
      override def run(ctx: SourceFunction.SourceContext[Order]): Unit = {
        for (i <- 0 until (1000)) {
          //随机生成订单ID（UUID）
          val id: String = UUID.randomUUID().toString
          //随机生成用户ID（0-2）
          val userId = Random.nextInt(3)
          //随机生成订单金额（0-100）
          val money = Random.nextInt(101)
          //时间戳为当前系统时间
          val timestamp: Long = System.currentTimeMillis()
          //收集数据
          ctx.collect(Order(id, userId, money, timestamp))
          //          每隔1秒生成一个订单
          TimeUnit.SECONDS.sleep(1)
        }
      }
      override def cancel(): Unit = ???
    })
     orderRuslt.print()
    senv.execute("pxj")
    
  }
}
case class Order(id: String, userId: Int, money: Long, createTime: Long)

使用MySQL作为数据源

上面我们已经使用了自定义数据源和Flink自带的Kafka source，那么接下来就模仿着写一个从 MySQL 中读取数据的
Source。

相关依赖
<!-- 指定mysql-connector的依赖 -->
<dependency>
     <groupId>mysql</groupId>
     <artifactId>mysql-connector-java</artifactId>
     <version>5.1.38</version>
</dependency>

开发步骤
1.自定义Source,继承自RichSourceFunction
2.实现run方法
1.加载驱动
2.创建连接
3.创建PreparedStatement
4.执行查询
5.遍历查询结果,收集数据
3.使用自定义Source
4.打印结果
5.执行任务

package com.ccj.pxj.heima.stream.source
import java.sql.{Connection, DriverManager, PreparedStatement, ResultSet}
import org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}
import org.apache.flink.streaming.api.scala._
object DataSource_mysql {
  def main(args: Array[String]): Unit = {
    val senv: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
//    设置并行度
    senv.setParallelism(1)
    //    添加自定义MySQL数据源
    val datas: DataStream[User] = senv.addSource(new MySqlSource)
    datas.print()
    senv.execute("pxj")
  }
}
class MySqlSource extends RichSourceFunction[User]{
  override def run(ctx: SourceFunction.SourceContext[User]): Unit = {
//    加载MySQL驱动
    Class.forName("com.mysql.jdbc.Driver")
    // 2. 链接MySql
    val connection: Connection = DriverManager.getConnection("jdbc:mysql:///flink", "root", "1314520")
//    创建PreparedStatement
     var sql="select * from user"
    val ps: PreparedStatement = connection.prepareStatement(sql)
    //    执行SQL查询
    val queryRequest: ResultSet = ps.executeQuery()
//    遍历结果
    while (queryRequest.next()){
      val id: Int = queryRequest.getObject("id").toString.toInt
      val username: String = queryRequest.getObject("username").toString
      val password: String = queryRequest.getString("password")
      val name: String = queryRequest.getString("name")
      //收集数据
      ctx.collect(User(id,username,password,name))
    }
  }
  override def cancel(): Unit = ???
}
case class User(id:Int,username:String,password:String,name:String)
User(1,zhangsan,11111,张三)
User(2,lis,222,李四)

作者：pxj
日期：2021-07-29 23:21:59
你若安好便是晴天

panxuej_shenx

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
flink的流处理的source

flink的流处理的source输入数据集DataSourceFlink 中你可以使用 StreamExecutionEnvironment.getExecutionEnvironment 创建流处理的执行环境Flink 中你可以使用 StreamExecutionEnvironment.addSource(source) 来为你的程序添加数据来源。Flink 已经提供了若干实现好了的 source functions，当然你也可以通过实现 SourceFunction 来自定义非并行的sourc
复制链接

扫一扫