Spark入门教程
文章平均质量分 94
xwc35047
时间有限,但做于自己的无限。(公众号:水木之椿)
展开
-
Spark入门教程(1)——spark是什么及发展趋势概述
本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,如有兴趣,请支持正版书籍。随着互联网为代表的信息技术深度发展,其背后由于历史积累产生了TB、PB甚至EB级数据量,由于传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop和Spark莫属,本书主要介绍大数据平台的后起之秀Spark,目的原创 2016-04-06 09:41:30 · 45709 阅读 · 0 评论 -
Spark入门教程(2)---开发、编译配置
本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark为使用者提供了大量的工具和脚本文件,使得其部署与开发变得十分方便快捷,本章将会分别从运行(含集群部署)、开发以及源码编译三个角度,来介绍Spark相关环境的具体配置流程。对于初次接触Spark的读者,建议仅需阅读运行环境部署和开发...原创 2016-04-11 10:30:56 · 10095 阅读 · 0 评论 -
spark入门教程(3)--Spark 核心API开发
本教程源于2016年3月出版书籍《Spark原理、机制及应用》 ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍。 Spark综合了前人分布式数据处理架构和语言的优缺点,使用简洁、一致的函数式语言Scala作为主要开发语言,同时为了方便更多语言背景的人使用,还支持Java、Python和R语言。Spark因为其弹性分布式数据集(R...原创 2016-04-13 20:52:28 · 13795 阅读 · 3 评论 -
30分钟概览Spark分布式计算引擎
Spark入门30分钟概览1、为什么出现Spark?2、Spark核心是什么?3、Spark怎么进行分布式计算?4、Spark在互联网公司的实践应用?原创 2017-03-04 16:19:38 · 21750 阅读 · 3 评论 -
基于Spark streaming的SQL服务实时自动化运维
设计背景spark thriftserver目前线上有10个实例,以往通过监控端口存活的方式很不准确,当出故障时进程不退出情况很多,而手动去查看日志再重启处理服务这个过程很低效,故设计利用Spark streaming去实时获取spark thriftserver的log,通过log判断服务是否停止服务,从而进行对应的自动重启处理,该方案能达到秒级 7 * 24不间断维护服务。设计架构在需要检测的原创 2017-07-18 16:38:28 · 2240 阅读 · 0 评论 -
30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题:什么是Spark Streaming实时计算?Spark实时计算原理流程是什么?Spark 2.X下一代实时计算框架Structured StreamingSpark Streaming相对其他实时计算框架该如何技术选型?本文主要针对初学者,如果有不明白的概念可了解之前的博客内容。1、什么是Spark Streaming?与其他大数据框架Storm、Flink一样,S原创 2017-02-18 17:12:49 · 26860 阅读 · 4 评论