Apache Spark
文章平均质量分 67
主要是Apache Spark学习
编程写手
路漫漫其修远兮,吾将上下而求索!
展开
-
Apache Spark:Mllib之决策树的操作(java)
当前版本:spark 2.4.61. 声明当前内容主要用于本人学习Spark ML的知识,了解决策树和决策森林,当前内容主要参考Spark高级数据分析的第4章用决策树算法预测森林植被,由于原内容使用scala编写,这里转换为java方式实现数据准备:数据下载地址抽掉最后两行数据作为预测数据2384,170,15,60,5,90,230,245,143,864,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,原创 2021-09-12 15:49:02 · 484 阅读 · 0 评论 -
Apache Spark:SparkStream创建Receiver来实现模拟无边界流操作
当前版本:spark 2.4.61. 声明当前内容主要为学习和使用SparkStream来实现流的操作,主要为使用自定的Receiver来模拟无限流的处理,当前内容参考官方文档由于socket编写复杂,且file读取需要hadoop的文件,本着简单的目的所以找到了自定义的接受流queueStream队列方式的,只能使用一次,且不可以使用线程方式一致加数据,queue数据修改并不会让流继续计算!!!Receiver流,主要通过onStart来启动,且存储数据使用store方式存放数据到RDD中,原创 2021-09-04 14:13:29 · 194 阅读 · 0 评论 -
Apache Spark:SparkSQL的使用
当前版本:spark2.4.61. 声明当前内容主要用于本人学习和记录学习SparkSQL的内容,当前内容借鉴Spark官方文档当前内容包括以下创建SparkSession从text文件、csv文件、集合中创建dataset使用dataset实现sql操作从mysql中拉取表进行内连接查询操作pom依赖<dependencies><!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -原创 2021-09-04 10:17:50 · 478 阅读 · 0 评论 -
Apache Spark:Task not serializable异常的排查和解决
1. 声明当前内容主要为排查在排序的时候Spark突然出现的java.io.NotSerializableException问题,以及解决思路2. 还原报错代码实体类:Userimport java.io.Serializable;public class User implements Serializable { /** * */ private static final long serialVersionUID = 1L; private Integer id; pri原创 2021-08-29 14:02:09 · 2952 阅读 · 2 评论 -
Apache Spark:主要使用理念
1. 声明当前内容主要为记录学习Learning Spark书籍中部分的内容,并作出使用上面的总结2. Spark的基本使用理念1.由于使用懒计算的方式,所以只有action的操作才会执行,transform操作不会执行2.使用数据的时候,如果当前的RDD未持久化或者缓存,那么每次action操作都会出现重头开始的计算,非常不高效3.Spark默认采用Scala语言编写,所以SparkContext就是scala的,java中需要使用JavaSparkContext4.基本所有的操作都是通过函数原创 2021-08-28 15:54:20 · 129 阅读 · 0 评论 -
Apache Spark:拉取iotdb的数据并导入到mysql中
当前spark版本:2.4.61. 声明当前内容主要为本人学习Spark的sql执行操作,实现数据获取和数据入库,当前内容参考:Spark官方文档2. pom依赖<dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <groupId>org.apache.spark</groupId>原创 2021-08-22 13:12:26 · 1087 阅读 · 0 评论 -
Apache Spark:采用本地方式执行任务
1.声明当前内容主要为本人学习,内容来源:官方文档当前内容主要为:基本的官方demo操作,访问本地的Spark(采用spark-core)执行文件读取收集尝试连接CentOS7的Spark执行过程中出现的问题基本pom依赖: <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <dependency> <grou原创 2021-05-16 16:39:08 · 247 阅读 · 0 评论 -
Apache Spark:CentOS7下的提交和执行一个官方的jar项目包
1.声明当前内容主要为学习和使用Apache Spark,当前内容来源Spark官方文档当前内容主要为:使用官方的基本demo统计README.md文件的a\b的数量Spark的启动和关闭,访问webui界面将官方demo通过maven方式打成jar包,并上传至CentOS7中,提交给Spark执行当前版本:spark-2.4.6-bin-hadoop2.7(为了后面的与Hadoop做集群操作保留版本)2.下载解压启动Spark1.首先在官方上找到对应的版本(版本自己按照Hadoop的版原创 2021-05-16 14:50:21 · 220 阅读 · 0 评论