我个人对大数据方面还是很感兴趣的,所以平常也了解了解,为后续切入做好准备。
1、Hadoop提供分布式数据存储并用MapReduce(类似于分治思想,把一个大问题分为若干个小问题,然后并行计算)处理数据。
2、Spark不提供分布式数据存储,只是来处理数据(据说比MapReduce方式快十倍)。
3、由此可见Hadoop的分布式存储与Spark的数据处理结合是最好的方式(静候产品)。
我个人对大数据方面还是很感兴趣的,所以平常也了解了解,为后续切入做好准备。
1、Hadoop提供分布式数据存储并用MapReduce(类似于分治思想,把一个大问题分为若干个小问题,然后并行计算)处理数据。
2、Spark不提供分布式数据存储,只是来处理数据(据说比MapReduce方式快十倍)。
3、由此可见Hadoop的分布式存储与Spark的数据处理结合是最好的方式(静候产品)。