spark

spark

1. 比起hadoop hr在于快。。


2.spark 利用 delay schedule来解决速度。(简单的来说就是延迟很短的时间来看本机是否可以利用。而不是copy)


3.支持3种语言

  scala(2.10.x)

  python(推荐python2.7。。最好不要用3.0以上的)

  java(请用java8) (java8以前版本的太慢了。不推荐使用)


4.有4种模式看可以运行  local(多用于测试) yran mesos standalone 


这里有必要说下scala语言

基于jvm的fp+oo

与java互操作

var x: Int =7

def square(x:Int):Int =x*x

def square(x:Int):Int ={x*x} //在block中的最后一个值将被返回

def square(x:Int):Int ={print.....} //不返回


scala-fp的方式处理集合

val list=(1,2,3)

list.foreach(x=>println(x))

list.map(_+2)

。。。

自己可以去看看。


spark runtime


driver program 

sparkcontext              cluster manager              2个worker node  (executor  cache  task ,task )


核心抽象

resilient distriuted dataset

a list of partitions

a function for computing each split

a list of dependencies on other rdds

上面是必要的

还有3点,这里不介绍了


如何创建rdd

直接从集合转化

从各种(分布式)文件系统来












评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值