- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 BigData进阶--Spark的RDD操作
在上篇博文中已经讨论过Spark的RDD和DataFrame,这篇就来探究一下RDD集的具体操作。 Spark中RDD是一个不可变的分布式对象集合,每个RDD都被分成多个分区,这些分区运行在集群中的不同节点上。用户可以通过两种方式来创建RDD集合:读取外部数据集和在驱动器程序里分发驱动器程序中的对象集合(比如list和set)。创建完成后,RDD支持转化操作和行为操作,通俗的来讲,就是将R
2017-12-26 18:09:35 740
原创 BigData进阶--Spark中的函数与符号
刚接触spark不久,整理一些常用的方法与大家分享: 1.Character.isDigit() 判断是否为数字 2.Character.isLetter(): 判断是否为字母 3.ToList.takeWhile(x=>x != B): takeWhile的判断结果是Boolean,只要x值不等于B,则继续取;否则停止取元素的操作 4.map函数:
2017-12-26 18:08:14 1241
原创 BigData进阶--细说RDD,DataFrame,Dataset的区别
在spark中有重要的组件SparkContext和SQLContext,在读取数据文件时我们可以通过这两个组件进行不同形式的读取,比如: val conf = new SparkConf().setMaster("local").setAppName("testRead") val sc = new SparkContext(conf) val readFile = sc.textFil
2017-12-26 18:06:10 3730 2
高级软考真题(17.11-19.05).zip
2019-12-19
hadoop/bin文件
2017-10-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人