Flink创建数据源的各种方式--Java和scala实现

本文详细介绍了Flink创建数据源的方法,包括读取文件(如text、csv、压缩文件及递归读取文件夹)和使用Java、Scala集合。内容参考自Flink官方文档,为理解大数据处理中的数据输入打下基础,后续将探讨Flink的算子操作。
摘要由CSDN通过智能技术生成

      在上一篇博客<各种大数据框架处理流程>,我们可以知道:大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种,这篇博客就来介绍一下Flink创建数据源,也就是输入的各种方式。
      以下内容,均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/batch/#data-sources
      主要有以下几种方式:

  • 读文件(包括本地文件和HDFS文件)
    * text文件
    * csv文件
    * 压缩文件
    * 递归地读文件夹
  • 从集合 (Java和scala中的集合)
    这两种方式又有不同的变化,比如读文件又可以读普通的text文件,csv文件或者压缩文件。

scala API

package ylqdh.bigdata.flink.test

import org.apache.flink.api.scala.ExecutionEnvironment
import org.apache.flink.configuration.Configuration

/**
  * @Author ylqdh
  * @Date 2020/1/13 14:41
  *  Scala api 方式创建数据集
  */
object DataSourceApp {
   
  def main(args: Array[String]): Unit = {
   
    val env = ExecutionEnvironment.getExecutionEnvironment

//    fromCollection(env)
    textFile(env)
//    fromCSV(env)
//    RecuDir(env)
  }

  // 从text文件创建数据集,压缩文件也可以直接读
  // 支持的压缩格式有:deflate,gz,gzip,bz2,xz
  def textFile(env:ExecutionEnvironment): Unit = {
   
    val filePath = "file:///C:\\data\\scalaCode\\HelloWorld.gz"   // 路径可以指定到文件名,也可以是文件夹,但文件夹下还有文件夹就读不到了
    env.readTextFile(filePath).print()
  }

  // 递归地读文件夹里的文件
  def RecuDir(env:ExecutionEnvironment): Unit =</
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: flink-1.14.3-bin-scala_2.12 是Apache Flink的一个版本,它是一个基于分布式数据流处理的开源平台。Flink提供了高效的流处理和批处理能力,支持各种数据源和格式,具有高可用性、可伸缩性、易于使用和开发的特点。 其中,1.14.3代表这个版本是Apache Flink的第1.14.3个稳定版本,其中包含了性能优化、改进和新功能。Scala_2.12表示在这个版本中使用了Scala编程语言的2.12版本,这意味着这个版本支持Scala编程。 在flink-1.14.3-bin-scala_2.12中,最重要的新功能之一是针对Apache Kafka的完整支持。此外,还支持更优秀的可伸缩性,提供了更多的API变更和改进等。它还提供了一些改进,例如在任务重启时恢复状态,提高了批处理的性能和吞吐量。 总之,flink-1.14.3-bin-scala_2.12是一个高效、可伸缩、易于使用和开发的分布式数据流处理平台,支持流处理和批处理,被广泛用于企业级数据处理和实时数据分析。 ### 回答2: Flink-1.14.3-bin-scala_2.12是一个 Apache Flink 的软件发行版,主要针对 Scala 2.12 版本进行构建。Apache Flink是一个分布式流处理引擎,支持批量和流式数据处理和分析,并提供高可用性、可扩展性和容错性等特性。Flink-1.14.3-bin-scala_2.12是Apache Flink最新的稳定版本,其中包含了许多新的特性、改进和修复了一些前版本中存在的问题。在Flink-1.14.3-bin-scala_2.12中,采用了新的caching机制来提高性能,支持Kinesis Video Streams、Kudu、Flink SQL等新的特性,同时也优化了Flink Web Dashboard和Flink SQL Client的用户体验。Flink-1.14.3-bin-scala_2.12的使用需要一定的编程经验,可以使用JavaScala或Python进行开发。此版本对于需要处理大规模数据的企业或个人提供了有力的支持,可以提高数据处理效率和准确性,同时也降低了使用成本和复杂度。 ### 回答3: Flink是一个大数据处理框架,其最新版本是flink-1.14.3。该版本支持Scala 2.12编程语言,并附带可执行二进制文件,文件名为“flink-1.14.3-bin-scala_2.12”。 该文件中包含了Flink的代码和相关依赖库,用户可以直接下载该文件并解压缩后即可开始使用Flink框架进行大数据处理。用户只需要将自己的程序代码打包成JAR文件,并提交给Flink集群运行,Flink就会自动管理和调度任务,实现高效的分布式计算。 该版本中包含了许多新的功能和改进,例如增强的流式数据处理能力、更简洁的API、更快的数据处理速度等。此外,该版本还修复了许多已知的问题和Bug,提高了Flink的稳定性和性能表现。 总之,flink-1.14.3-bin-scala_2.12是Flink框架的最新版本,其包含了许多有用的功能和改进,用户可以下载并使用该版本来进行高效的大数据处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值