Spark
Spark 学习过程的总结
朱古力...
这个作者很懒,什么都没留下…
展开
-
09 DStream 的创建
DStream 的创建文章目录DStream 的创建1. 文件输入源1.1 注意事项1.2 读取 HDFS 目录下的文件2. RDD 队列3. 自定义数据源4. Kafka 数据源1. 文件输入源1.1 注意事项监控的⽂件夹内的所有⽂件必须有相同的数据集格式 。监控的⽬录下创建的⽂件必须是移动或者重命名得到的,如果修改已经存在的⽂件的内容则⽆法被监控到。⼀旦⽂件创建成功, 则不能去更改,所以, 如果在⽂件内追加内容, 追加的数据是不能被 Spark Streaming 读到的。streami原创 2020-05-27 17:41:53 · 296 阅读 · 0 评论 -
08 Dstream 入门:WordCount
Dstream 入门:WordCount需求: 使用 netcat 工具向 9999 端口不断发送数据,通过 Spark Streaming 读取端口数据并统计不同单词出现的次数。在项目中添加依赖:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2原创 2020-05-27 15:04:05 · 137 阅读 · 0 评论 -
07 Spark SQL 之 DataSet
Spark SQL 之 DataSet文章目录Spark SQL 之 DataSet1. 创建 DataSet2. RDD 和 DataSet 的交互2.1 从 RDD 到 DataSet2.2 从 DataSet 到 RDD3. DataFrame 和 DataSet 之间的交互3.1 从 DataFrame 到 DataSet3.2 从 DataSet 到 DataFrame1. 创建 DataSet使用样例类的序列得到 DataSet。scala> case class Person原创 2020-05-26 20:41:04 · 120 阅读 · 0 评论 -
06 Spark SQL 之 DataFrame
Spark SQL 之 DataFrame文章目录Spark SQL 之 DataFrame1. 创建 DataFrame1.1 通过 `Spark` 的数据源创建1.2 通过已知的 `RDD` 来创建1.3 通过查询一个 `Hive` 表来创建2. DataFrame 语法风格2.1 SQL 语法风格2.2 DSL 语法风格2.3 RDD 和 DataFrame 的交互2.3.1 从 `RDD` 到 `DataFrame`2.3.2 从 DataFrame 到 RDD1. 创建 DataFrame1原创 2020-05-26 20:40:08 · 130 阅读 · 0 评论 -
05 Spark:RDD行动算子
RDD 行动算子文章目录RDD 行动算子1. reduce(func)2. collect3. count()4. take(n)5. first6. takeOrdered(n, [ordering])7. aggregate(zeroValue)(seqOp, comOp)8. fold9. saveAsTextFile(path)10. saveAsSequenceFile(path)11. saveAsObjectFile(path)12. countByKey()13. foreach(func原创 2020-05-26 16:44:26 · 441 阅读 · 0 评论 -
04 Spark:RDD转换算子之Key-Value类型
RDD转换算子之Key-Value类型文章目录RDD转换算子之Key-Value类型1. partitionBy(partitioner)2. reduceByKey(func, [numTasks])3. groupByKey()4. aggregateByKey(zeroValue)(seqOp, comOp, [numTasks])5. foldByKey(zeroValue)(func)6. combineByKey[C]7. sortByKey8. mapValues9. join(otherD原创 2020-05-26 15:50:43 · 680 阅读 · 0 评论 -
03 Spark:RDD转换算子之双Value类型
RDD的转换算子之双Value类型文章目录RDD的转换算子之双Value类型1. union(otherDataSet)2. subtract(otherDataSet)3. intersection(otherDataSet)4. cartesian(otherDataSet)5. zip(otherDataSet)1. union(otherDataSet)作用: 求并集,对源 RDD 和参数 RDD 求并集之后返回一个新的 RDD。示例:scala> val rdd1 = sc原创 2020-05-26 11:05:21 · 218 阅读 · 0 评论 -
02 Spark:RDD转换算子之单Value类型
RDD的转换算子之单Value类型文章目录RDD的转换算子之单Value类型1. map(func)2. mapPartitions(func)3. mapPartitionsWithIndex(func)4. flatMap(func)5. glom6. groupBy(func)7. filter(func)8. sample(withReplacement, fraction, seed)9. distinct([numTasks])10 coalesce(numPartitions, shuffl原创 2020-05-26 10:13:33 · 257 阅读 · 0 评论 -
01 第一个 Spark 程序:WordCount
第一个 Spark 程序:WordCount1. 使用 Spark-shell准备数据:创建文件夹 input,以及 Words.txt 文件[zgl@hadoop101 spark-2.1.1]$ mkdir input[zgl@hadoop101 input]$ vim Words.txt在文件中输入数据:hello sparkhello scalahello world进入 spark-shell[zgl@hadoop101 spark-2.1.1]$ bin/spar原创 2020-05-25 16:48:36 · 204 阅读 · 0 评论