Flink创建数据源的各种方式--Java和scala实现

本文详细介绍了Flink创建数据源的方法,包括读取文件(如text、csv、压缩文件及递归读取文件夹)和使用Java、Scala集合。内容参考自Flink官方文档,为理解大数据处理中的数据输入打下基础,后续将探讨Flink的算子操作。
摘要由CSDN通过智能技术生成

      在上一篇博客<各种大数据框架处理流程>,我们可以知道:大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种,这篇博客就来介绍一下Flink创建数据源,也就是输入的各种方式。
      以下内容,均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/batch/#data-sources
      主要有以下几种方式:

  • 读文件(包括本地文件和HDFS文件)
    * text文件
    * csv文件
    * 压缩文件
    * 递归地读文件夹
  • 从集合 (Java和scala中的集合)
    这两种方式又有不同的变化,比如读文件又可以读普通的text文件,csv文件或者压缩文件。

scala API

package ylqdh.bigdata.flink.test

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.configuration.Configuration

/**
  * @Author ylqdh
  * @Date 2020/1/13 14:41
  *  Scala api 方式创建数据集
  */
object DataSourceApp {
   
  def main(args: Array[String]): Unit = {
   
    val env = ExecutionEnvironment.getExecutionEnvironment

//    fromCollection(env)
    textFile(env)
//    fromCSV(env)
//    RecuDir(env)
  }

  // 从text文件创建数据集,压缩文件也可以直接读
  // 支持的压缩格式有:deflate,gz,gzip,bz2,xz
  def textFile(env:ExecutionEnvironment): Unit = {
   
    val filePath = "file:///C:\\data\\scalaCode\\HelloWorld.gz"   // 路径可以指定到文件名,也可以是文件夹,但文件夹下还有文件夹就读不到了
    env.readTextFile(filePath).print()
  }

  // 递归地读文件夹里的文件
  def RecuDir(env:ExecutionEnvironment): Unit =</
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值