【Flink实战系列】Flink 的分布式缓存使用

最新推荐文章于 2023-06-17 21:45:14 发布

JasonLee实时计算

最新推荐文章于 2023-06-17 21:45:14 发布

阅读量1.4k

点赞数

分类专栏： Flink 实战系列文章标签： flink 分布式缓存

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/94590808

版权

Flink 实战系列专栏收录该内容

69 篇文章 474 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

本文详细介绍了Flink的分布式缓存功能，将其与Apache Hadoop和Spark的广播进行对比，并提供了Scala和Java版本的示例代码，展示了如何注册和访问缓存文件以计算单词出现次数。通过缓存，Flink能够将静态数据高效地分发到所有工作节点。

摘要由CSDN通过智能技术生成

Flink 提供了一个分布式缓存，类似于Apache Hadoop，可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件，如字典或机器学习的回归模型。

缓存的工作原理如下。程序在其作为缓存文件的特定名称下注册本地或远程文件系统（如 HDFS 或 S3）的文件或目录 ExecutionEnvironment。执行程序时，Flink 会自动将文件或目录复制到所有工作程序的本地文件系统。用户函数可以查找指定名称下的文件或目录，并从 worker 的本地文件系统访问它。

其实分布式缓存就相当于 spark 的广播,把一个变量广播到所有的 executor 上,也可以看做是 Flink 的广播流,只不过这里广播的是一个文件.

分布式缓存使用如下：

注册中的文件或目录 ExecutionEnvironment。


val env = ExecutionEnvironment.getExecutionEnvironment

// register a file from HDFS
env.registerCachedFile("hdfs:///path/to/your/file", "hdfsFile")

// register a local executable file (script, executable, ...)
env.registerCachedFile("file:///path/to/exec/file", "localExecFile", true)

// define your program and execute
...
val input: DataSet[String] = ...
val result: DataSet[Integer] = input.map(new MyMapper())

了解本专栏

超级会员免费看

JasonLee实时计算

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
【Flink实战系列】Flink 的分布式缓存使用

Flink提供了一个分布式缓存，类似于Apache Hadoop，可以在本地访问用户函数的并行实例。此函数可用于共享包含静态外部数据的文件，如字典或机器学习的回归模型。缓存的工作原理如下。程序在其作为缓存文件的特定名称下注册本地或远程文件系统（如HDFS或S3）的文件或目录ExecutionEnvironment。执行程序时，Flink会自动将文件或目录复制到所有工作程序的本地文件系统。用户函...
复制链接

扫一扫