spark
1. 比起hadoop hr在于快。。
2.spark 利用 delay schedule来解决速度。(简单的来说就是延迟很短的时间来看本机是否可以利用。而不是copy)
3.支持3种语言
scala(2.10.x)
python(推荐python2.7。。最好不要用3.0以上的)
java(请用java8) (java8以前版本的太慢了。不推荐使用)
4.有4种模式看可以运行 local(多用于测试) yran mesos standalone
这里有必要说下scala语言
基于jvm的fp+oo
与java互操作
var x: Int =7
def square(x:Int):Int =x*x
def square(x:Int):Int ={x*x} //在block中的最后一个值将被返回
def square(x:Int):Int ={print.....} //不返回
scala-fp的方式处理集合
val list=(1,2,3)
list.foreach(x=>println(x))
list.map(_+2)
。。。
自己可以去看看。
spark runtime
driver program
sparkcontext cluster manager 2个worker node (executor cache task ,task )
核心抽象
resilient distriuted dataset
a list of partitions
a function for computing each split
a list of dependencies on other rdds
上面是必要的
还有3点,这里不介绍了
如何创建rdd
直接从集合转化
从各种(分布式)文件系统来