Apache Spark:SparkStream创建Receiver来实现模拟无边界流操作

当前版本:spark 2.4.6

1. 声明

当前内容主要为学习和使用SparkStream来实现流的操作,主要为使用自定的Receiver来模拟无限流的处理,当前内容参考官方文档

  1. 由于socket编写复杂且file读取需要hadoop的文件,本着简单的目的所以找到了自定义的接受流
  2. queueStream队列方式的,只能使用一次,且不可以使用线程方式一致加数据,queue数据修改并不会让流继续计算!!!

Receiver流,主要通过onStart来启动,且存储数据使用store方式存放数据到RDD中,onStop表示流停止

2. 基本demo

public static void main(String[] args) {

	SparkConf conf = new SparkConf().setAppName("spark stream test").setMaster("local[*]");
	// Durations.seconds(1)设置时间为1秒每次的执行
	// new Duration(5000);表示5秒间隔
	
	JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(5));
	JavaSparkContext sparkContext = jsc.sparkContext();
	sparkContext.setLogLevel("ERROR");
	SparkSession sparkSession = new SparkSession(sparkContext.sc());
	// operation
	
	receiverStream(jsc);
	jsc.start();
	try {
		jsc.awaitTermination();
		sparkSession.close();
		jsc.close();
	} catch (InterruptedException e) {
		// TODO Auto-generated catch block
		e.printStackTrace();
	}
}
private static void receiverStream(JavaStreamingContext jsc) {
		Receiver<String> receiver = new Receiver<String>(StorageLevel.MEMORY_ONLY()) {
			@Override
			public void onStart() {
				// TODO Auto-generated method stub
				System.out.println("start....");
				String[] names= {"admin","guest","user"};
				while(true) {
					int len = (int)(Math.random()*10+1);
					List<String> dataList=new ArrayList<String>(len);
					for (int i = 0; i < len; i++) {
						int index = (int)(Math.random()*names.length);
						String name = names[index];
						dataList.add(name);			
					}
					// 
					System.out.println("生产数据:"+len);
					store(dataList.iterator());
					try {
						Thread.sleep(3000L);
					} catch (InterruptedException e) {
						// TODO Auto-generated catch block
						e.printStackTrace();
					}
				}
				
			}

			@Override
			public void onStop() {
				System.out.println("shutdown....");	
			}
		};
		// 这里就可以一直输出数据了实现了无限流,其他操作参看JavaRDD的操作
		jsc.receiverStream(receiver).countByValue().print();
	}

接受流通过定义3秒钟产生一次数据并通过store方式存放数据到策略中(这里指内存),然后当前流统计print是按照每5秒输出一次

3.执行结果

在这里插入图片描述
测试成功!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值