Flink创建数据源的各种方式--Java和scala实现

最新推荐文章于 2024-08-05 21:36:31 发布

ylqdh

最新推荐文章于 2024-08-05 21:36:31 发布

阅读量984

点赞数

分类专栏： BigData 文章标签： flink

本文链接：https://blog.csdn.net/weixin_43802014/article/details/103976349

版权

本文详细介绍了Flink创建数据源的方法，包括读取文件（如text、csv、压缩文件及递归读取文件夹）和使用Java、Scala集合。内容参考自Flink官方文档，为理解大数据处理中的数据输入打下基础，后续将探讨Flink的算子操作。

摘要由CSDN通过智能技术生成

在上一篇博客<各种大数据框架处理流程>，我们可以知道：大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种，这篇博客就来介绍一下Flink创建数据源，也就是输入的各种方式。
以下内容，均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/batch/#data-sources
主要有以下几种方式：

读文件(包括本地文件和HDFS文件)
* text文件
* csv文件
* 压缩文件
* 递归地读文件夹
从集合 (Java和scala中的集合)
这两种方式又有不同的变化，比如读文件又可以读普通的text文件，csv文件或者压缩文件。

scala API

package ylqdh.bigdata.flink.test

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.configuration.Configuration

/**
  * @Author ylqdh
  * @Date 2020/1/13 14:41
  *  Scala api 方式创建数据集
  */
object DataSourceApp {
   
  def main(args: Array[String]): Unit = {
   
    val env = ExecutionEnvironment.getExecutionEnvironment

//    fromCollection(env)
    textFile(env)
//    fromCSV(env)
//    RecuDir(env)
  }

  // 从text文件创建数据集,压缩文件也可以直接读
  // 支持的压缩格式有：deflate,gz,gzip,bz2,xz
  def textFile(env:ExecutionEnvironment): Unit = {
   
    val filePath = "file:///C:\\data\\scalaCode\\HelloWorld.gz"   // 路径可以指定到文件名，也可以是文件夹,但文件夹下还有文件夹就读不到了
    env.readTextFile(filePath).print()
  }

  // 递归地读文件夹里的文件
  def RecuDir(env:ExecutionEnvironment): Unit =</

最低0.47元/天解锁文章

ylqdh

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Flink创建数据源的各种方式--Java和scala实现

      在上一篇博客<各种大数据框架处理流程>，我们可以知道：大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种，这篇博客就来介绍一下Flink创建数据源，也就是输入的各种方式。      以下内容，均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apac...
复制链接

扫一扫

专栏目录