在windows本地 进行测试,发送socket包到spark streaming。少了netcat这个工具还真不方便。
Unix-like系统都会有netcat这个小工具,windows环境下需要自己下载安装,linux(没有研究,有需要的话自己看看);
1.下载netcat for windows
相关安装网址:https://zhidao.baidu.com/question/331471988734101885.html;
2.windows键+R,输入cmd,在命令提示符中输入nc后按回车即可!
3.运行eclipse中的用spark streaming写的java文件;
import java.util.Arrays;
import java.util.Iterator;
import org.apache.spark.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import scala.Tuple2;
public class NetworkWordCount {
public static void main(String[] args) {
// 创建一个local StreamingContext,包含2个工作线程,并将批次间隔设为1秒
// master至少需要2个CPU核,以避免出现任务饿死的情况
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount");
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1));
// 创建一个连接到hostname:port的DStream,如:localhost:9999
JavaReceiverInputDStream<String> lines = jssc.socketTextStream("localhost", 9999);
JavaDStream<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
@Override
public Iterator<String> call(String x) {
System.out.println(Arrays.asList(x.split(" ")).toString());
return (Iterator<String>) Arrays.asList(x.split(" "));
}
});
// 对每一批次中的单词进行计数9
JavaPairDStream<String, Integer> pairs = words.mapToPair(s -> new Tuple2<>(s, 1));
JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey((i1, i2) -> i1 + i2);
// 将该DStream产生的RDD的头十个元素打印到控制台上
wordCounts.print();
// 启动流式计算
jssc.start();
// 等待直到计算终止
try {
jssc.awaitTermination();
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
4.再在命令提示符中执行 nc -L -p 9999 -v ;手工输入的数据;