
Spark
Spark
yigg
追逐成功的路上只有逆风
展开
-
Spark学习(1)- 入门
目录:Spark简介 Spark特点 Spark环境搭建 Spark简单使用 idea创建sprak项目 Spark运行模式 Spark基础架构一.Spark简介1.官网:http://spark.apache.org/2.Spark是什么Spark系统是分布式批处理系统和分析挖掘引擎 Spark是AMP LAB贡献到Apache社区的开源项目,是AMP大数据栈的...原创 2019-02-28 18:08:52 · 672 阅读 · 0 评论 -
Spark学习(2)-Spark数据集与编程模型
目录:RDD介绍 Spark核心介绍 - RDD Spark核心介绍 - 分区 Spark核心介绍 - 宽依赖和窄依赖 Spark核心介绍 - Transformation 和 Action Spark发布一.RDD介绍Spark 核心的概念是Resilient Distributed Dataset (RDD),弹性分布式数据集:一个可并行操作的有容错机制的数据集合。...原创 2019-03-02 10:53:48 · 415 阅读 · 0 评论 -
Spark学习(3)-Spark SQL(1)
目录:Spark SQL发展历程 Spark SQL性能 DateFrame介绍 Spark RDD SQL 简单使用一.Spark SQL发展历程1.hive 到shark 再到spark sql 的演变2.hive on spark(hive集成spark,计算效率提高,而不是仅仅依赖mapreduce)3.spark sql实现...原创 2019-03-04 00:36:40 · 408 阅读 · 0 评论 -
Spark学习(4)-Spark SQL(2)
目录:Spark SQL 使用 反射推断模式 用户自定义模式 两者对比 Spark SQL 数据源一.反射推断模式1.使用反射推断模式的原因上一章在读取一个json的时候,对json文件的内容有没有要求? 文件内容必须是一个json格式的,就需要用到"字段名称":"值", spark sql将字段名称作为了dataFrame的schema。 如果我们要操作...原创 2019-03-04 17:27:50 · 285 阅读 · 0 评论 -
Spark学习(5)- Spark Streaming
目录:Spark Streaming简介 概述 工作原理 离散流 DStreams Spark Streaming架构及运行流程 Spark Streaming编程一.Spark Streaming简介1.概述:官方网站Spark Streaming是一个构建在Spark之上,是Spark四大组件之一 是Spark系统中用于处理流式数据的分布式流式处理框架...原创 2019-03-05 00:26:49 · 664 阅读 · 0 评论 -
Spark学习(6)- Spark Streaming整合Flume
流程:创建maven项目 引入相应的依赖 编写代码:pull(拉)方式 或者push(推)方式 发布pull方式 import java.net.InetSocketAddress import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.storage.St...转载 2019-03-09 13:33:41 · 251 阅读 · 0 评论 -
Spark学习(7)- Spark Streaming整合Kafka
流程:创建maven项目 引入相应的依赖 编写代码 发布第一种方式:KafkaUtils.createDstream方式(基于kafka高级Api-----偏移量由zk保存)import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.streaming.{Seconds, StreamingC...转载 2019-03-09 13:34:25 · 258 阅读 · 0 评论