Spark
hsiehchou
这个作者很懒,什么都没留下…
展开
-
Spark Core
Spark Core Spark生态圈: Spark Core : RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib :协同过滤,ALS,逻辑回归等等 –> 机器学习 Spark Graphx : 图计算 一、Spark Core 1、什么是Spark?特点 https://spark.apache.org/ Apache...原创 2019-04-08 14:00:03 · 333 阅读 · 0 评论 -
Spark SQL
一、Spark SQL 基础 1、什么是Spark SQL 2、为什么学习Spark SQL 3、核心概念:表(DataFrame DataSet) 4、创建DataFrame 5、操作DataFrame 6、操作DataSet 7、Spark SQL 中的视图 二、使用数据源 1、使用load函数、save函数 2、Parquet文件 3、json文件 4、JDBC 5、使用Hive...原创 2019-04-12 19:58:59 · 521 阅读 · 0 评论 -
Spark Streaming基础
Spark Streaming 流式计算框架,类似于Storm 常用的实时计算引擎(流式计算) 1、Apache Storm:真正的流式计算 2、Spark Streaming :严格上来说,不是真正的流式计算(实时计算) 把连续的流式数据,当成不连续的RDD 本质:是一个离散计算(不连续) 3、Apache Flink:真正的流式计算。与Spark Streaming相反 把离散的数据...原创 2019-04-19 21:44:23 · 257 阅读 · 0 评论 -
Spark 调优
Spark 调优 问题:只要会用就可以,为什么还要精通内核源码与调优? Spark 性能优化概览: Spark的计算本质是,分布式计算 所以,Spark程序的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者内存 CPU、网络带宽,是运维来维护的 聚焦点:内存 如果内存能够容纳下所有的数据,那就不需要调优了 如果内存比较紧张,不足以放下所有数据(10亿量级—500G),需要对内...原创 2019-04-19 21:45:28 · 104 阅读 · 0 评论 -
Spark MLlib和Spsrk GraphX
Spark MLlib 一、MLlib概述 1、机器学习算法 2、通信 二、什么是机器学习 1、机器学习的定义 2、基于大数据的机器学习 3、MLlib Spark Graphx 一、Spark Graphx 是什么? 二、Spark GraphX 有哪些抽象? 1、顶点 2、边 3、三元组 4、图 Spark MLlib MLlib 是 Spark 可以扩展...原创 2019-04-19 23:03:44 · 554 阅读 · 0 评论