spark
zahuali
这个作者很懒,什么都没留下…
展开
-
spark Java 取样算子(sample,takesample)
sample 和takesample 区别sample 参数中获取的是数据的比例takesample 参数中 获取的是取样的个数代码ArrayList<Integer> list1 = new ArrayList<Integer>(); list1.add(1); list1.add(2); list1.add(3); list1.add(4); list1.add(3); lis原创 2020-05-14 14:09:26 · 437 阅读 · 0 评论 -
spark Java 数据合并的算子(union ,intersection subtract cartesian )
spark中的常用算子 以图中为例以下以代码展示distinct 算子 去重ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); list.add(3); JavaRDD<Integer> paralleliz原创 2020-05-14 11:38:46 · 843 阅读 · 0 评论 -
spark Java filter算子的使用
filter 起到过滤的作用直接上代码ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); list.add(3); JavaRDD<Integer> parallelize = sc.parallelize(list原创 2020-05-13 17:37:19 · 967 阅读 · 0 评论 -
spark Java flatmap算子的使用
将函数应用于 RDD 中的每个元素,将返回的迭代器的所有内容构成新的 RDD。通常用来切分单词flatmap 输入是一输出是多直接上代码输入是文件 文件内容是flume sd hadoop hbase kylin hdfs hadoop sd sd flume hdfsString logFile = "D:\\ab.txt";SparkConf conf = new SparkConf().setMaster("local").setAppName("TestSpark");JavaSpa原创 2020-05-13 17:23:16 · 848 阅读 · 0 评论 -
spark Java map算子和maptopair算子的使用
map算子 会出现一对一的结果将函数应用于 RDD 中的每个元素,将返回值构成新的 RDD直接上到代码ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); list.add(3); JavaRDD<Integer> p原创 2020-05-13 16:55:45 · 1764 阅读 · 0 评论 -
spark Java aggregate算子的使用
aggregate 是一个聚合算子 可以用来 求和 求平均数据等//多个分区 ArrayList<Integer> list = new ArrayList<Integer>(); list.add(1); list.add(2); list.add(3); list.add(4); JavaRDD<Integer> parallelize = sc.parallelize(list,2原创 2020-05-13 11:15:36 · 601 阅读 · 0 评论 -
spark wordcount及常用算子
1 Javawordcount 直接上代码public class Testwordcount { private static final Pattern SPACE = Pattern.compile(" ");//定义分割的类型 public static void main(String[] args) { String logFile = "D:\\ab.txt"; SparkConf conf = new SparkConf().setMast原创 2020-05-12 11:06:49 · 204 阅读 · 0 评论