自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

转载 用户画像的技术选型与架构实现

这里讲解下用户画像的技术架构和整体实现,那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现(个人见解)。 数据整理: 1、数据指标的的梳理来源于各个系统日常积累的日志记录系统,通过sqoop导入hdfs,也可以用代码来实现,比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式,可以通过将数据写入本地文件,然后通过sparksql的load或者hive的

2016-08-28 15:31:20 8938

转载 spark RDD transformation与action函数整理

1.创建RDD val lines = sc.parallelize(List("pandas","i like pandas")) 2.加载本地文件到RDD val linesRDD = sc.textFile("yangsy.txt") 3.过滤 filter 需要注意的是 filter并不会在原有RDD上过滤,而是根据filter的内容重新创建

2016-08-28 15:26:12 622

转载 Scala高阶函数

作为值的函数 在Scala中,无法直接操纵方法,只能直接操纵函数,所以需要使用_。 import scala.math._ val temp = ceil _ val num = 3.14 println("fun:"+temp(num)) //4.0 temp的类型是(Double)=>Double,意为接受Double参数并返回Double的函数。能够对fun做的有:调用,

2016-08-26 17:33:46 496

转载 scala雾中风景(2): 小括号与花括号

下面的问题,表面上看是小括号与花括号的问题。 // map方法这样写不能编译通过 scala> List(2).map( case 2 => "OK" ) // 换做花括号就可以了 scala> List(2).map{ case 2 => "OK" } 不了解原因的话,觉得很诡异。分析一下,首先,map方法接受一个函数,这个函数将List中的元素映射为其他类型。 实际上case

2016-08-26 14:24:15 839

转载 Spark函数详解系列之RDD基本转换

摘要:   RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集   RDD有两种操作算子:          Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住了数据集的逻辑操作    

2016-08-26 09:38:12 391

转载 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续

整体架构数据采集离线计算实时计算多维分析OLAP机器学习Ad-Hoc查询数据可视化 上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文,已是一年前的事了,经过一年的沉淀与公司业务的发展,大数据平台的架构也有所演进,本文简单介绍了架构更新的部分。 整体架构 数据采集 对于关系型数据库以及部分NOSQL(Redis、MongoDB)中的数据,仍然使用D

2016-08-26 09:36:24 2689

转载 大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

导读: 整体架构数据采集数据存储与分析数据共享数据应用实时计算任务调度与监控元数据管理总结 一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。 先大概列一下互联网行业数据仓库、数据平台的用途: 整合公司所有业务数据,建立统一的数据中心;提供各种报表,有给高层的,有给各个业务的;为网站运营提供运营上的数据支持,就是通过数据,让运

2016-08-26 09:33:32 646

转载 intelli IDEA j安装scala插件

1:查看本机Intellij开发工具的scala插件版本号      在如图查看版本号:   2:到http://plugins.jetbrains.com/plugin/?idea&id=1347上下载对应版本的scala插件   3:把下载的.zip格式的scala插件放到Intellij的安装的plugins目录下     4:安装

2016-08-04 16:12:13 914

转载 win10安装scala

1.首先安装JAVA,必须1.7版本以上才支持Scala, 设置系统环境变量:  JAVA_HOME  D:\Program Files\Java\jdk1.8.0_65  Path中添加   %JAVA_HOME%\bin; CLASSPATH添加   .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; 3. Win+R

2016-08-04 16:03:50 441

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除