![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 78
小码哥_6
程序是门艺术,站在巨人的肩膀,向大牛致敬,点滴积累,终成大神。
展开
-
spark sql 统计pv uv
话不多说,在开始之前先介绍下pv uv uv:user views,count(distinct guid) pv:page views,count(url) 直接上代码 import com.alibaba.fastjson.JSON import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkContex原创 2017-03-11 20:07:14 · 1723 阅读 · 0 评论 -
SparkSQL
Spark SQL概述 Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。Spark SQL的基础数据模型—–DataFrames DataFrame是由命名列所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建:结构化数据文原创 2017-03-11 21:14:56 · 423 阅读 · 0 评论 -
spark mllib实现 广告点击率预测
本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下载地址:https://www.kaggle.com/c/avazu-ctr-prediction/data 数据格式如下: 包含24个字段: • 1-id: ad identifier •原创 2017-03-11 21:04:14 · 2483 阅读 · 0 评论 -
Spark通信--client、master、worker间的通信
Client:提交作业。 Master:接收作业,启动Driver和Executor,管理Worker。 Worker:管理节点资源,启动Driver和Executor。 (1)Client to Master RegisterApplication:注册应用。 (2)Master to Client RegisteredApplication:注册应用后,回复给Client。原创 2017-03-11 20:32:00 · 3112 阅读 · 0 评论 -
spark报错汇总
Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main attributes 在pom.xml配置文件中加上下面的拦截器就可以了 spark-streaming-twitter_2.10:spark-streaming-twitter_原创 2017-03-12 10:46:56 · 429 阅读 · 0 评论 -
oozie spark on yarn
废话不多说,现在开始正文,本文将阐述如何将一个Spark程序通过oozie提交到Hadoop的Yarn上运行。 coordinator.properties这个配置文件主要是一些oozie的配置,包括oozie地址 queue名称等等。 oozie.coord.application.path app_dir这里是HDFS路径,因为大家都知道,oozie运行之前要将 workflow整个目录上原创 2017-03-22 13:39:53 · 854 阅读 · 0 评论 -
Scala基于Akka的Remote Actor实现的简单RPC
spark 1.3中的通信是基于Akka实现的,Actor之间的交互都是通过消息,并且所有动作都是异步的。 本文基于spark 1.3通信核心原理实现一个简单的基于akka的rpc框架。 服务端:Server //模式匹配 消息类型 case class AkkaMessage(message: Any) case class Response(response: Any) class原创 2017-03-13 15:49:14 · 1779 阅读 · 0 评论 -
spark 总结
spark 算子学习 map 将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。 flatMap 属于Transformation算子,第一步和map一样,最后将所有的输出分区合并成一个。 flatMap只会将String扁平化成字符数组,并不会把Array[String]也扁平化成字符数组。 d原创 2017-03-13 17:27:27 · 440 阅读 · 0 评论