数据终端 Sink
API
1.ds.print 直接输出到控制台
2.ds.printToErr() 直接输出到控制台,用红色
3.ds.collect 将分布式数据收集为本地集合
4.ds.setParallelism(1).writeAsText("本地/HDFS的path",WriteMode.OVERWRITE)
注意
在输出到path的时候,可以在前面设置并行度,如果
并行度>1,则path为目录
并行度=1,则path为文件名
代码演示
package xx.xxxxx.flink.sink;
import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.core.fs.FileSystem;
import java.util.List;
/**
* DataSet API 批处理中数据终端:基于文件Sink
* 1.ds.print 直接输出到控制台
* 2.ds.printToErr() 直接输出到控制台,用红色
* 3.ds.collect 将分布式数据收集为本地集合
* 4.ds.setParallelism(1).writeAsText("本地/HDFS的path",WriteMode.OVERWRITE)
*
* 注意: 在输出到path的时候,可以在前面设置并行度,如果
* 并行度>1,则path为目录
* 并行度=1,则path为文件名
*/
pu