自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 git安装以及idea配置关联

Git是一个分布式版本控制工具,越来越多的开发者都开始使用git来管理代码。下面就来介绍下Windows上如何安装git客户端工具,idea中如何关联git使用工具/原料gitidea方法/步骤1百度搜索git,一般第一个或第二个就是git官网下载地址,进入下载页面之后选择Windows版本2下载的exe文件,双击运行,下一步,选择一个安装目录,目录最好不要有中文,然后下一步,选择组件,如果使用T...

2018-05-30 12:23:18 482

原创 sparkstreaming多consumer消费kafka报错问题

版本: sparkstreaming 2.2 kafka 0.10sparkstreaming 集成kafka后(Direct模式),同一个groupid下的多个spark-streaming consumer消费kafka中的数据时,会报错。(如何重现问题:把sparkstreaming集合kafka的程序,运行两次即可)报错如下:该主题下的数据不能访问。问题剖析:假定消费主题为he...

2018-05-25 11:05:47 4426 7

原创 Spark算子讲解

1:Zip算子def zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]将两个RDD做zip操作,如果当两个RDD分区数目不一样的话或每一个分区数目不一样的话则会异常。例如:val rdd1 = sc.parallelize(Array(1,2,3,4,5,6),2)val rdd2 = sc.parallelize(Ar...

2018-05-11 23:57:16 283

原创 键值对的算子讲解 PairRDDFunctions

1:groupByKeydef groupByKey(): RDD[(K, Iterable[V])]根据key进行聚集,value组成一个列表,没有进行聚集,所以在有shuffle操作时候避免使用概算子,会增大通信数据量。需要考虑进行一个本地的Combiner,所以可以直接使用reduceByKeycala> p.collectres15: Array[(Int, Int)] = Arr...

2018-05-11 23:55:57 681

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除