大数据/Spark
向阳争渡
这个作者很懒,什么都没留下…
展开
-
Spark K-means实践
K-Means聚类算法原理聚类分析是一个无监督的学习的过程,一般用来对数据对象按照其特征属性进行分组。适用场景:客户分群、欺诈检测、图像分析等领域K-Means算法是一个迭代式算法,主要步骤如下:第一步,选K个点作为初始聚类中心。第二步,计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。第三步,重新计算每个聚类中所有点的平均直,并将其作为原创 2018-01-12 15:07:38 · 515 阅读 · 0 评论 -
Java实现Spark groupByKey等算子
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.ap...原创 2018-11-30 09:55:37 · 2183 阅读 · 0 评论 -
Java Spark2.1.0 读取文本写入MySQL
import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.function.Function;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.S...原创 2018-09-13 14:39:24 · 787 阅读 · 0 评论 -
java.io.NotSerializableException: org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplem
在开发[Spark Streaming 读取Kafka数据写入HBASE]一套流程中,遇到了很多关于Serializable的问题: 1、kafka是一种C-S架构,producer产生的消息经过序列化后才能在网络上传播 2、Spark的transform序列化 3、在将DStream数据写入HBASE时,写入的操作时,需要在foreach算子中访问外部的HTable、Connection等...原创 2018-08-20 15:04:45 · 3707 阅读 · 2 评论 -
Spark 源码阅读(一)
SparkContext初始化Spark Application程序开始的第一步就是初始化SparkContext,而SparkContext的配置参数则由SparkConf负责,SparkConf就是你的操作面板。 SparkContext的初始化过程实际也是对Driver的初始化...原创 2018-08-13 15:33:30 · 295 阅读 · 0 评论 -
java.lang.NoClassDefFoundError:org/apache/spark/streaming/kafka/KafkaUtils 报错
经过2天的挣扎,终于解决了这个问题。 期间也遇到了其他问题,解决办法是spark-submit中设置相应的jar(加了好几个)。这一问题是由于kafka的版本不对,我的环境里Scala的版本是2.11.1,但是我安装的是kafka_2.12-1.1.0.tgz,对应Scala 2.12,更换了kafka的版本后完美解决!!!!!细节很重要!!!! 最后附上spark-submit提交语句,...原创 2018-07-26 10:32:53 · 7650 阅读 · 0 评论 -
Spark Streaming入门
为了初始化Spark Streaming程序,一个StreamingContext对象必需被创建,它是Spark Streaming所有流操作的主要入口。一个StreamingContext 对象可以用SparkConf对象创建。 可以使用SparkConf对象创建JavaStreamingContext对象:SparkConf conf = new SparkConf().setMaster...原创 2018-06-26 21:36:33 · 480 阅读 · 0 评论 -
Spark Streaming 输出数据清洗结果到Mysql
Flume+Kafka+Spark Streaming + Mysqlpackage util;import java.awt.List;import java.util.ArrayList;import java.util.HashMap;import java.util.HashSet;import java.util.Map;import java.util.Propert...原创 2018-07-01 16:50:45 · 1647 阅读 · 1 评论 -
Spark 环境搭建
搭建环境:Ubuntu16.04(虚拟机) 分布式集群: 192.168.159.128 vm01 192.168.159.129 vm02 192.168.159.130 vm03 若是单节点(伪分布式),则在Hadoop的配置过程中,将其他节点的主机名替换成单节点的主机名即可。 镜像源:阿里源 新建虚拟机后最好更换镜像源,下载...原创 2018-03-22 10:59:06 · 331 阅读 · 0 评论 -
Spark2.1.0 向MongoDB写入json数据
需求:1、从外部文件读取json数据2、根据需求拆分数据3、利用DataFrame直接写入MongoDBSpark-Mongodb官网写入MongoDB实例 采用官网实例的方案实验,不成功,且json数据中部分字段为空,读取报错。import com.mongodb.spark.MongoSpark;import org.apache.spark.api.java.Ja原创 2018-01-07 22:41:19 · 1165 阅读 · 0 评论 -
Spark与mongodb的结合
Mongodb Mongodb的安装 实验环境:ubuntu16.04安装:suso apt-get install mongodb查看版本:mongo -version启动和关闭mongodbservice mongodb startservice mongodb stopshell命令使用mongodb: mongoSpark-MongoDBM原创 2018-01-05 16:28:58 · 768 阅读 · 0 评论 -
Spark:架构及原理
基本术语: Standalone模式下存在的角色:Client:客户端进程,负责提交作业到MasterMaster:Standalone模式下的`主控节点`,负责接收client提交的作业,管理worker,并命令worker启动Driver和Executor。Worker:Standalone模式下slave节点上的`守护进程`,负责管理本节点的资源,定期向Master汇报心跳原创 2018-01-06 15:08:11 · 346 阅读 · 0 评论 -
Spark2.1.0 读取外部txt并以DataFrame输出
需求:使用Spark2.1.0开始Spark的开发,但是网上2.0之后的教程不多,所以自己写一个。 ps:官网的教程也有写 http://spark.apache.org/docs/2.1.0/sql-programming-guide.html#data-sources外部文件txt,文件内容:全是json串代码:import org.apache.spark.原创 2018-01-05 10:23:18 · 5498 阅读 · 0 评论 -
数据倾斜
数据倾斜的原因:数据倾斜与业务逻辑和数据量有关在MapReduce程序中,数据倾斜主要发生在某个key的数据量较大,此key分散到某个reduce造成reduce阶段的缓慢甚至卡顿。在Spark程序中,同一个Stage的不同Partition可以并行运行,而具有依赖关系的Stage是串联的。Stage中包含多个Task是可以并行运行的,但是如果某一个task损耗的时间过长,则当前Sta...原创 2019-04-30 10:32:15 · 148 阅读 · 0 评论