分布式
阿毛33
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记一:运行流程
最近在看《图解Spark:核心原理与技术实践》,为了便于自己温故而知新,已经检验理解是否到位,以下是记录的学习笔记。 我的一般学习思路是首先学会用,再来深入学习。所以,首先由Spark的运行流程切入: 一、运行流程 从Spark的运行流程入手,学习了解Spark的核心组成。下面是Spark的一个基本运行流程 整个过程包括:提交作业、划分调度阶段(78)、提交调度阶段(9)、提交执行任务(101...原创 2019-03-04 00:11:23 · 212 阅读 · 0 评论 -
Spark学习笔记二:核心原理
1. 消息通信原理 Spark启动消息通信:启动过程主要是进行Master与Worker之间的通信 Worker节点向Master发送注册消息 Master处理完后,返回注册成功(失败)消息 若成功,则Worker定时发送心跳消息给Master Spark运行时消息通信: 应用程序的SparkContext向Master发送应用注册消息 Master给该应用分配Executor Ex...原创 2019-03-04 00:24:14 · 223 阅读 · 0 评论 -
Spark学习笔记三:开发环境配置安装
在了解基本原理后,配置一个Spark开发环境,便于之后的学习。 这部分网上有很多教程,这里贴一个参考 MAC版:https://blog.csdn.net/u013384984/article/details/79680967 另外,除了单机环境的配置,在实际开发应用中会涉及到分布式部署的方式 Standalone 自带完整服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。 没有任何单...原创 2019-03-04 00:33:52 · 209 阅读 · 0 评论 -
Spark学习笔记四:算子
一、什么是算子 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作(transformation和action) transformation不触发提交作业;action出发SparkContext提交Job作业 二、常用算子不完全归纳 Transformation转换操作 基础转换操作 map、mapPartitions、mapPartitionsWithIndex disti...原创 2019-03-04 00:54:12 · 390 阅读 · 0 评论 -
Spark学习笔记五:组件篇
一、Spark Mlib 数据类型 本地向量 Local Vector:密集型、稀疏型 标签点 Labeled Point Mlib中的矩阵其实是向量型的RDD 本地矩阵 Local Matrix 分布式矩阵:分布式存储在一个或多个RDD。将一个分布式矩阵转换为另一个不同格式的需要Shuffle 行矩阵:RDD[Vector] 行索引矩阵:RDD[IndexedRow] 三元组矩阵:RDD[M...原创 2019-03-04 10:01:05 · 236 阅读 · 0 评论