spark
yinyang7008
这个作者很懒,什么都没留下…
展开
-
spark RDD transformation与action函数整理
1.创建RDD val lines = sc.parallelize(List("pandas","i like pandas")) 2.加载本地文件到RDD val linesRDD = sc.textFile("yangsy.txt") 3.过滤 filter 需要注意的是 filter并不会在原有RDD上过滤,而是根据filter的内容重新创建转载 2016-08-28 15:26:12 · 626 阅读 · 0 评论 -
用户画像的技术选型与架构实现
这里讲解下用户画像的技术架构和整体实现,那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现(个人见解)。 数据整理: 1、数据指标的的梳理来源于各个系统日常积累的日志记录系统,通过sqoop导入hdfs,也可以用代码来实现,比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式,可以通过将数据写入本地文件,然后通过sparksql的load或者hive的转载 2016-08-28 15:31:20 · 8956 阅读 · 0 评论 -
scala雾中风景(2): 小括号与花括号
下面的问题,表面上看是小括号与花括号的问题。 // map方法这样写不能编译通过 scala> List(2).map( case 2 => "OK" ) // 换做花括号就可以了 scala> List(2).map{ case 2 => "OK" } 不了解原因的话,觉得很诡异。分析一下,首先,map方法接受一个函数,这个函数将List中的元素映射为其他类型。 实际上case转载 2016-08-26 14:24:15 · 847 阅读 · 0 评论 -
Spark函数详解系列之RDD基本转换
摘要: RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作转载 2016-08-26 09:38:12 · 396 阅读 · 0 评论 -
intelli IDEA j安装scala插件
1:查看本机Intellij开发工具的scala插件版本号 在如图查看版本号: 2:到http://plugins.jetbrains.com/plugin/?idea&id=1347上下载对应版本的scala插件 3:把下载的.zip格式的scala插件放到Intellij的安装的plugins目录下 4:安装转载 2016-08-04 16:12:13 · 923 阅读 · 0 评论 -
win10安装scala
1.首先安装JAVA,必须1.7版本以上才支持Scala, 设置系统环境变量: JAVA_HOME D:\Program Files\Java\jdk1.8.0_65 Path中添加 %JAVA_HOME%\bin; CLASSPATH添加 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; 3. Win+R转载 2016-08-04 16:03:50 · 447 阅读 · 0 评论 -
Scala高阶函数
作为值的函数 在Scala中,无法直接操纵方法,只能直接操纵函数,所以需要使用_。 import scala.math._ val temp = ceil _ val num = 3.14 println("fun:"+temp(num)) //4.0 temp的类型是(Double)=>Double,意为接受Double参数并返回Double的函数。能够对fun做的有:调用,转载 2016-08-26 17:33:46 · 506 阅读 · 0 评论