![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
陈zeyan
这个作者很懒,什么都没留下…
展开
-
spark dataframe预处理---表堆叠,横向堆叠与纵向堆叠
数据准备//表1scala> val df1 = spark.createDataFrame(Seq(("aaa", 14, 1), ("bbb", 30, 2), ("ccc", 45, 3), ("bbb", 56, 4)) ).toDF("R1","R2","R3")scala> df1.show+---+---+---+| R1| R2| R3|+---+---...原创 2020-04-15 21:08:04 · 1976 阅读 · 1 评论 -
spark dataframe预处理---表连接、修改多列列名
创建dataframe//表1scala> val df1 = spark.createDataFrame(Seq(("aaa", 14, 1), ("bbb", 30, 2), ("ccc", 45, 3), ("bbb", 56, 4)) ).toDF("R1","R2","R3")scala> df1.show+---+---+---+| R1| R2| R3|+...原创 2020-04-14 23:26:55 · 1609 阅读 · 0 评论 -
spark dataframe预处理---数据离散化
数据准备,我们根据labels列来离散化数据长这样scala> df.show(5)+--------+------------------+------+| R1| G2|labels|+--------+------------------+------+|148.6041|4.1254973506233155| 1.0||1...原创 2020-04-14 22:57:35 · 574 阅读 · 0 评论 -
spark dataframe数据预处理---数据筛选
利用.filter对dataframe的数据进行筛选筛选比较符有“==”、"!="、">"、"<"、"<="、">="、"like"、"rlike"数据长这样scala> df.show(10)+--------+------------------+------+| R1| G2|labels|+------...原创 2020-04-14 22:23:48 · 3480 阅读 · 0 评论 -
Spark dataframe数据预处理---csv文件读取与保存
1、读取csv文件val data_left_ori = spark.read .option("inferSchema","true")//自动推导数据类型 .option("header","true")//读取列名 .csv("/user/root/image.csv")//文件路径2、保存csv文件data.coalesce(1)//文件分区设置为1...原创 2020-04-14 21:45:25 · 2283 阅读 · 0 评论 -
GraphX之aggregateMessages、outerJoinVertices
aggregateMessages:aggregateMessages为GraphX中核心的聚合操作,他主要的功能是向领边发送信息,合并领边收到的信息。aggregateMessages方法的定义格式为:其中sendMsg 看做 map reduce 过程中的 map 函数,向邻边发消息,应用到图的每个边三元组(edgemergeMsg 指定两个消息到相同的顶点并保存为一个消息。可...原创 2019-11-19 19:04:12 · 374 阅读 · 0 评论 -
spark sql连接mysql报错java.sql.SQLException: Access denied for user 'root'@'master' (using password: YES
scala> res4.write.jdbc("jdbc:mysql://master:3306/test","modeldata",prop)java.sql.SQLException: Access denied for user 'root'@'master' (using password: YES) at com.mysql.jdbc.SQLError.createSQLE...原创 2019-11-12 10:14:16 · 1432 阅读 · 0 评论 -
Spark之dataframe操作大全
一、datafram描述DataFrame 是一种不可变的分布式数据集,这种数据集被组织成指定的列,类似于关系数据库中的表。数据集的每一列都带有名称和类型,对于数据的内部结构又很强的描述性。二、datafram特点1、支持 KB 级到 PB 级得到数据处理 2、支持多种数据格式和存储系统 3、通过 Spark SQL Catalyst 优化器可以进行...原创 2019-11-11 19:04:13 · 2591 阅读 · 0 评论 -
spark算子
数据准备这是hdfs上的result_math.txt数据:为数学成绩表,第一列为学号, 第二列为科目(数学),第三列为成绩这是hdfs上的result_bigdata.txt数据:为大数据成绩表,第一列为学号, 第二列为科目(大数据),第三列为成绩1、通过textFile读取hdfs上文件为RDDscala> val math=sc.textFile("test1...原创 2019-11-07 19:00:29 · 532 阅读 · 0 评论