spark基础概念:
2014年才成为Apache的顶级项目,距今才两年。但是发展迅速。
spark是基于内存的计算,现在搞spark的,现在内存都不是问题,腾讯现在的集群达到上万台,每台机器都是100多G的内存。内存不够还可以落磁盘。
spark的优点:中间结果可以在内存中,而MapReduce中间结果落磁盘。
spark是hadoop的一个替代方案,但是它只能替代MapReduce。可以很好的融入到hadoop的生态系统中,弥补MapReduce的不足。
开发spark最好使用scala语言,因为spark就是用scala开发的。但是
市面上仍然有很多公司用java来开发spark的。考虑到人力成本、技术成本、维护成本。
2014年才成为Apache的顶级项目,距今才两年。但是发展迅速。
spark是基于内存的计算,现在搞spark的,现在内存都不是问题,腾讯现在的集群达到上万台,每台机器都是100多G的内存。内存不够还可以落磁盘。
spark的优点:中间结果可以在内存中,而MapReduce中间结果落磁盘。
spark是hadoop的一个替代方案,但是它只能替代MapReduce。可以很好的融入到hadoop的生态系统中,弥补MapReduce的不足。
开发spark最好使用scala语言,因为spark就是用scala开发的。但是
市面上仍然有很多公司用java来开发spark的。考虑到人力成本、技术成本、维护成本。