Flink 的侧输出 和一个流拆分成多个流

1. Flink 侧输出流

官网 :https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/datastream/side_output/

1.1 理解

 侧输出流就是将问题数据或者 不符合条件的数据进行输出到数据库中或者打印出来, 就形成一个正确的流和一个不符合条件的流。

1.2 实例

   案例:  判断 输入的字符串是否等于 "big"  如果等于big  就输入到  主输出流  否则将抛出异常
package com.wudl.flink.stream;

import org.apache.flink.api.common.functions.RichMapFunction;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;

import static org.apache.hadoop.yarn.webapp.hamlet.HamletSpec.Media.print;

/**
 * @author :wudl
 * @date :Created in 2021-11-28 17:56
 * @description: Flink 的测输出流
 * @modified By:
 * @version: 1.0
 */

public class Flink_SideOutput {

    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<String> dsStream = env.socketTextStream("192.168.1.130", 9999);
        OutputTag<String> outputTag = new OutputTag<String>("number") {
        };
        SingleOutputStreamOperator<String> process = dsStream.process(new ProcessFunction<String, String>() {
            @Override
            public void processElement(String s, Context ctx, Collector<String> collector) throws Exception {

                // 判断 输入的字符串是否等于 "big"  如果等于big  就输入到  主输出流  否则将抛出异常
                   try {
                       if (s.equals("big")) {
                           collector.collect(s);
                       }else
                       {
                           throw new Exception();
                       }
                   }catch (Exception e)
                   {
                     //  e.printStackTrace();
                       ctx.output(outputTag,s);
                   }
            }
        });

        // 打印主流
        process.print("打印主流 ----->");
        //  打印错误的的流或者是 不符合条件的流
        process.getSideOutput(outputTag).print("侧输出流----->");
        env.execute();

    }

}

1.3结果

在这里插入图片描述

3. Flink 使用侧输出流把一个流拆成多个流

Flink 12 以后官方建议我们使用多侧输入流来输出

3.1实例:

 根据输入的数据 进行条件判断然后输入到不同的侧输入流中。
package com.wudl.flink.stream;

import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.LocalStreamEnvironment;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.ProcessFunction;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;

/**
 * @author :wudl
 * @date :Created in 2021-11-28 18:41
 * @description: 使用侧输出流把一个流拆成多个流   flink 12 以后建议 多个流的输出用侧输入流
 * @modified By:
 * @version: 1.0
 */

public class Flink_SideOutputTwo {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<String> socketTextStream = env.socketTextStream("192.168.1.130", 9999);
        OutputTag<Integer> outputTag6 = new OutputTag<Integer>("number6-10") {
        };

        OutputTag<Integer> outputTag10 = new OutputTag<Integer>("number10") {
        };

        SingleOutputStreamOperator<Integer> process = socketTextStream.process(new ProcessFunction<String, Integer>() {
            @Override
            public void processElement(String s, Context cxt, Collector<Integer> out) throws Exception {
                int number = Integer.parseInt(s);
                if (number < 5) {
                    out.collect(number);
                } else if (number > 5 && number < 10) {
                    cxt.output(outputTag6, number);
                } else {
                    cxt.output(outputTag10, number);
                }
            }
        });
        process.print(" 主流-------->");
        process.getSideOutput(outputTag6).print("侧输入流--  大于5 小于10 的数据---");

        process.getSideOutput(outputTag10).print("侧输入流--  大于10 的数据---");

        env.execute();


    }

}

3.2 结果

在这里插入图片描述
********************************************************** 应用的实例***********************************************************************

4. flink 侧输入流的实例应用

案例: 通过开窗将迟到的数据输出到侧输入流中 , 
package com.wudl.flink.stream;

import com.wudl.flink.bean.WaterSensor;
import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.functions.MapFunction;

import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.functions.windowing.ProcessWindowFunction;
import org.apache.flink.streaming.api.windowing.assigners.TumblingEventTimeWindows;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.streaming.api.windowing.windows.TimeWindow;
import org.apache.flink.util.Collector;
import org.apache.flink.util.OutputTag;

import java.time.Duration;

/**
 * @author :wudl
 * @date :Created in 2021-11-28 19:01
 * @description:Flink 侧输入流应用实例
 * @modified By:
 * @version: 1.0
 */

public class Flink_SideOutput_Examples {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(1);

        DataStreamSource<String> stringDataStreamSource = env.socketTextStream("192.168.1.130", 9999);
        SingleOutputStreamOperator<WaterSensor> map = stringDataStreamSource.map(new MapFunction<String, WaterSensor>() {
            @Override
            public WaterSensor map(String s) throws Exception {
                String[] split = s.split(",");
                return new WaterSensor(split[0], Long.valueOf(split[1]), Integer.parseInt(split[2]));
            }
        });

        // 创建产生水印策略
        WatermarkStrategy<WaterSensor> wms = WatermarkStrategy.<WaterSensor>forBoundedOutOfOrderness(Duration.ofSeconds(3))
                .withTimestampAssigner(new SerializableTimestampAssigner<WaterSensor>() {
                    @Override
                    public long extractTimestamp(WaterSensor element, long recordTimestamp) {
                        return element.getTs() * 1000;
                    }
                });


        SingleOutputStreamOperator<String> process = map.assignTimestampsAndWatermarks(wms).keyBy(WaterSensor::getId)
                .window(TumblingEventTimeWindows.of(Time.seconds(5)))
                .allowedLateness(Time.seconds(3))
                .sideOutputLateData(new OutputTag<WaterSensor>("side_1") {
                })
                .process(new ProcessWindowFunction<WaterSensor, String, String, TimeWindow>() {
                    @Override
                    public void process(String key, Context context, Iterable<WaterSensor> elements, Collector<String> out) throws Exception {
                        String msg = "当前key: " + key + " 窗口: [" + context.window().getStart() / 1000 + "," + context.window().getEnd() / 1000 + ") 一共有 "
                                + elements.spliterator().estimateSize() + "条数据" +
                                "watermark: " + context.currentWatermark();

                        out.collect(context.window().toString());
                        out.collect(msg);
                    }
                });


        process.print("主输出流---->");
        process.getSideOutput(new OutputTag<WaterSensor>("side_1"){}).print("侧输出流-------->");

        env.execute();

    }
}

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 好的,以下是一个Java代码示例,可以使用Flink从HDFS读取多个文件: ``` import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.api.java.io.TextInputFormat; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.core.fs.Path; public class HDFSReader { public static void main(String[] args) throws Exception { // 创建Flink执行环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); // 设置HDFS文件路径 Path filePath1 = new Path("hdfs://localhost:9000/path/to/first/file"); Path filePath2 = new Path("hdfs://localhost:9000/path/to/second/file"); // 使用TextInputFormat从HDFS读取文件内容 TextInputFormat inputFormat = new TextInputFormat(filePath1); TextInputFormat inputFormat2 = new TextInputFormat(filePath2); // 读取文件内容 env.readFile(inputFormat, filePath1.toString()) .union(env.readFile(inputFormat2, filePath2.toString())) .flatMap((String line, Collector<Tuple2<String, Integer>> out) -> { // 对每行数据进行处理 String[] tokens = line.toLowerCase().split("\\W+"); for (String token : tokens) { if (token.length() > 0) { out.collect(new Tuple2<>(token, 1)); } } }) .groupBy(0) .sum(1) .print(); } } ``` 在这个示例中,我们创建了一个`ExecutionEnvironment`对象,该对象是Flink程序的核心部分,用于执行计算。我们然后指定了多个HDFS文件的路径,并使用`TextInputFormat`来读取文件内容。然后我们使用`readFile`方法从每个文件中读取数据,使用`union`方法将所有数据合并为一个数据集,然后使用`flatMap`方法将每行数据转换为一个元组,其中元组包含单词和计数器1。然后我们使用`groupBy`方法按单词对数据进行分组,并使用`sum`方法计算每个单词出现的次数。最后,我们使用`print`方法打印结果。 ### 回答2: 使用Flink读取HDFS上多个文件的Java代码如下: ```java import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.core.fs.Path; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; import org.apache.flink.api.java.DataSet; public class ReadMultipleFilesFromHDFS { public static void main(String[] args) throws Exception { // 创建环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); // 设置Hadoop配置,指定HDFS路径 env.getConfig().setGlobalJobParameters(org.apache.flink.configuration.Configuration.fromArgs(args)); // 从HDFS上读取多个文件 DataSet<String> text = env.readTextFile("hdfs://path/to/directory/*.txt"); // 对读取的数据进行处理 DataSet<String> result = text.flatMap((String line, Collector<String> out) -> { String[] words = line.split(" "); for (String word : words) { out.collect(word); } }).groupBy("word").sum(1); // 打印结果 result.print(); } } ``` 在代码中,`ExecutionEnvironment`用于批处理,而`StreamExecutionEnvironment`用于处理。根据实际需求选择适合的环境。`readTextFile`方法用于从HDFS上读取文本文件,可以使用通配符来处理多个文件。读取的文件内容会存储在`DataSet`中,按行处理后可以对数据进行各种操作,如拆分、过滤、聚合等。最后,通过调用`print`方法将结果输出。当需要将结果存储到HDFS中时,可以使用`writeAsTextFile`等方法。 ### 回答3: 使用Flink读取HDFS上的多个文件可以使用`TextInputFormat`和`readFile`方法来实现。下面是一个示例的Java代码: ``` import org.apache.flink.api.java.io.TextInputFormat; import org.apache.flink.core.fs.Path; import org.apache.flink.streaming.api.datastream.DataStream; import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment; public class FlinkReadHDFSFiles { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置Hadoop配置,指定HDFS文件系统 env.getConfig().setBoolean("fs.hdfs.hadoopconf", true); // 设置要读取的HDFS文件路径 String hdfsPath = "hdfs://localhost:9000/path/to/files/"; // 创建TextInputFormat,并指定要读取的文件路径 TextInputFormat inputFormat = new TextInputFormat(new Path(hdfsPath)); // 使用readFile方法读取HDFS上的多个文件,返回一个DataStream DataStream<String> dataStream = env.readFile(inputFormat, hdfsPath); // 对DataStream进行相应的操作,如打印结果等 dataStream.print(); // 执行Flink任务 env.execute("Flink Read HDFS Files"); } } ``` 注意事项: 1. 需要将`hadoop-common`和`hadoop-hdfs`的依赖添加到项目的`pom.xml`文件中。 2. 需要根据实际情况修改HDFS的配置信息,如HDFS的地址和待读取的文件路径。 3. 可以根据具体需求对`dataStream`进行相应的操作,例如进一步处理数据或将结果输出到其他存储系统。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值