大数据
Frank201608
加油吧
展开
-
Spark算子系列第0篇:spark常用算子详解
一、Spark算子分类:Transformation 算子Transformation是变换/转换算子,具有lazy特性,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。常用操作有:map,filter,flatMap,union,sortByKey,reduceByKey等,官方文档如下:http://spar...原创 2020-02-08 16:00:00 · 525 阅读 · 0 评论 -
lookalike人群扩散算法
Facebook 这样通过一群已有的用户发现并扩展出其他用户的推荐算法就叫Lookalike。1.利用用户画像,给用户打标签,利用相同标签找到目标人群实例:某品牌的豆浆机进行Look-alike人群扩展投放取得家电厂商的第一方消费者数据,涵盖浏览、购买行为等ID信息。通过导入DMP进行全库记录匹配,找到个体的在线历史大数据。经由人群分析模型,洞察用户的个性倾向特征,通过标签算法挖掘,将数据...原创 2019-06-10 14:08:54 · 5995 阅读 · 0 评论 -
Spark:WordCount 步骤
scala> val data = sc.textFile("/library/wordcount/input/Data")//data: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[9] at textFile as <console>:27scala> val flatted = data.flatM...原创 2019-04-21 21:03:45 · 193 阅读 · 0 评论 -
大数据系统的Lambda架构
本文是对大数据系统的Lambda架构的理解原创 2016-11-11 15:27:22 · 1173 阅读 · 0 评论 -
Spark SQL与Hive的关系
Shark为了实现Hive兼容,在HQL方面重用了Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业(辅以内存列式存储等各种和Hive关系不大的优化); 同时还依赖Hive Metastore和Hive SerDe(用于兼容现有的各种Hive存储格式)。这一策略导致了两个问题, 第一是执行计划优化完全依赖于Hive,不方便原创 2016-11-05 20:45:39 · 3613 阅读 · 0 评论 -
Tachyon:Spark生态系统中的分布式内存文件系统
摘要:Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行效率。Tachyon简介Tachyon是个分布式的内存文件系统, 它在减轻Spark内存压力的同时,也赋予了Spark内存快速大量数据读写的能力。Tachyon把内存存储的功能从Spark中分离出来, 使Spark可以更专注计算的本身, 以求通过更细的分工达到更高的执行原创 2016-11-04 15:55:42 · 679 阅读 · 0 评论 -
第55课: 在线广告点击流处理代码的分析和实现
第55课: 在线广告点击流处理代码的分析和实现原创 2016-09-28 15:53:33 · 762 阅读 · 1 评论 -
第54课: 作业讲解与广告点击实现代码
第54课: 作业讲解与广告点击实现代码原创 2016-09-28 13:48:54 · 517 阅读 · 0 评论 -
第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战
第53课: Spark大型项目广告点击项目技术骨架实现之Spark+Kafka+Flume实战原创 2016-09-28 09:40:44 · 708 阅读 · 0 评论 -
第58课: 广告点击广告累计点击数分析与实现
第58课: 广告点击广告累计点击数分析与实现原创 2016-10-12 10:36:14 · 1143 阅读 · 0 评论 -
第35课Spark Master、Worker、Driver、Executor工作流程详解
第35课Spark Master、Worker、Driver、Executor工作流程详解原创 2016-09-12 23:10:56 · 23365 阅读 · 2 评论 -
大数据Spark“蘑菇云”行动-第11课:Scala面向接口彻底实战和Spark源码鉴赏
Scala中的接口,原创 2016-08-17 08:41:24 · 1018 阅读 · 0 评论