在使用spark的时候,选择scala会让代码感觉行云流水,小结一下scala中的集合,数组处理的方法
1 元组数据获取
val pair = Array(("hadoop"->90),("flume"->100))
2 list 元素添加
3 函数式处理 map ,groupby
4 处理
list.flatMap(_.split(" ")).map((_,1)).groupBy(_._1).mapValues(_._.reduce(_+_._2)) // 错误方法
foldLeft(0).(_+_)
1 error: value sortBy is not a member of scala.collection.immutable.Map[String,Int]
转成 toList
2 转成并行化 数据---》充分利用 多核cpu 性能
对象的构造方法
主构造器的表达式都会被执行,但是定义的方法不会
匹配 case class