- 博客(4)
- 收藏
- 关注
原创 git安装以及idea配置关联
Git是一个分布式版本控制工具,越来越多的开发者都开始使用git来管理代码。下面就来介绍下Windows上如何安装git客户端工具,idea中如何关联git使用工具/原料gitidea方法/步骤1百度搜索git,一般第一个或第二个就是git官网下载地址,进入下载页面之后选择Windows版本2下载的exe文件,双击运行,下一步,选择一个安装目录,目录最好不要有中文,然后下一步,选择组件,如果使用T...
2018-05-30 12:23:18 482
原创 sparkstreaming多consumer消费kafka报错问题
版本: sparkstreaming 2.2 kafka 0.10sparkstreaming 集成kafka后(Direct模式),同一个groupid下的多个spark-streaming consumer消费kafka中的数据时,会报错。(如何重现问题:把sparkstreaming集合kafka的程序,运行两次即可)报错如下:该主题下的数据不能访问。问题剖析:假定消费主题为he...
2018-05-25 11:05:47 4426 7
原创 Spark算子讲解
1:Zip算子def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]将两个RDD做zip操作,如果当两个RDD分区数目不一样的话或每一个分区数目不一样的话则会异常。例如:val rdd1 = sc.parallelize(Array(1,2,3,4,5,6),2)val rdd2 = sc.parallelize(Ar...
2018-05-11 23:57:16 283
原创 键值对的算子讲解 PairRDDFunctions
1:groupByKeydef groupByKey(): RDD[(K, Iterable[V])]根据key进行聚集,value组成一个列表,没有进行聚集,所以在有shuffle操作时候避免使用概算子,会增大通信数据量。需要考虑进行一个本地的Combiner,所以可以直接使用reduceByKeycala> p.collectres15: Array[(Int, Int)] = Arr...
2018-05-11 23:55:57 681
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人