- 博客(8)
- 资源 (1)
- 收藏
- 关注
原创 【Spark系列】三、Spark工作机制
Spark工作机制ClientDriver程序Spark ContextRDD DAGDAGSchedularTaskSchedular
2017-01-26 20:06:35 2455
原创 【Spark系列】二、弹性分布式数据集RDD
3.1RDD基本概念(1)RDD的两种创建方式1)外部文件创建,如HDFS、本地文件。2)RDD转换得到新的RDD。(2)RDD的两种操作算子对于RDD可以有两种计算操作算子:Transformation(变换)与Action(行动)。只有行动(Action)算子才会触发作业(Job)提交。(3)RDD的重要内部属性1)分区列表。2)计算每个分片的函数。3)
2017-01-26 20:03:57 541
原创 【Spark系列】一、基本概念
1基本概念1.1什么是Spark Spark是一种计算框架,是与mapreduce不一样的计算框架。他与Hadoopmapreduce相比具有以下优势:1) Spark通过将中间结果缓存在内存,而不是磁盘,因此很适合于多阶段的作业,如需多次迭代的机器学习。而mapreduce则将中间结果每次都存到磁盘,速度下降很多。2) Spark在通信方面采用Akaa框架的(角色
2017-01-26 19:57:03 335
原创 spark原理(一)
1 惰性计算利用惰性计算,有两点好处:1)将真正需要计算的数据集进入shuffle过程,减少带宽IO2)中间过程的RDD数据要是受损,重新计算一遍较为方便。2 persist和checkpoint区别persist(DISK_ONLY)与checkpoint区别为:persist随着程序结束,被一起删除;checkpoint除非人为,否则一直存储在磁盘。
2017-01-25 16:13:13 310
原创 数据挖掘与数据分析方面面试题(1)
1 什么是异常值,列举一种找出连续型变量异常值的方法异常值是指,与大部分样本值的差别较大,也就是离群值。寻找连续型变量异常值的方法可以是这样的:首先,计算样本的标准差;然后,以3倍的标准差作为阈值判断该值是否为异常值,集如果该值与均值的差的绝对值大于阈值,则该值为异常值,反之,为正常值。
2017-01-25 09:03:16 617 3
转载 scala 关于Array,List,Tuple的区别
在Scala 2.7中,Array、List都不能混合类型,只有Tuple可以;而在Scala以上版本中,3者的元素都可以混合不同的类型(转化为Any类型),只不过是当使用混合类型时,Array和List会将元素类型转化为Any类型,而Tuple则保留每一个元素的初始类型;关于Array,List,Tuple关于初始化1) val array= new Array[Stri
2017-01-14 11:21:35 263
转载 用户权限
Hbase权限控制范围包括库级别、表级别、列簇级别和列级别,其中EXEC目前只在代码中有定义但没有被用到;CREATE和ADMIN只涉及到表级别和库级别,列簇级别和列级别只涉及到READ和WRITE权限。表级别ACLsPermissionsREAD('R')读取表中任意列簇的数据WRITE('W')
2017-01-13 13:11:39 239
转载 Lombok 安装、入门 - 消除冗长的 java 代码
Lombok 安装、入门 - 消除冗长的 java 代码前言: 逛开源社区的时候无意发现的,用了一段时间,觉得还可以,特此推荐一下。 lombok 提供了简单的注解的形式来帮助我们简化消除一些必须有但显得很臃肿的 java 代码。特别是相对于 POJO,光说不做不是我的风格,先来看看吧。lombok 的官方网址:http://projectlombok.org/
2017-01-04 15:10:05 231
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人