在了解基本原理后,配置一个Spark开发环境,便于之后的学习。
这部分网上有很多教程,这里贴一个参考
MAC版:https://blog.csdn.net/u013384984/article/details/79680967
另外,除了单机环境的配置,在实际开发应用中会涉及到分布式部署的方式
- Standalone
自带完整服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。
没有任何单点故障问题,借助zookeeper实现(思想类似于Hbase master单点故障解决方案?)(Spark standalone与MapReduce在架构上完全一致) - Spark on Mesos
- 粗粒度模式
- 细粒度模式
- Spark on YARN
目前仅支持粗粒度:YARN上的Container资源是不可以动态伸缩的