Spark
文章平均质量分 61
所行化坦途
这个作者很懒,什么都没留下…
展开
-
spark加载csv去表头的几种方法
删除表格第一行属性的方法一、返回DataFrame二、返回RDD① mapPartitionsWithIndex算子② 正则+偏函数③ 使用过滤器filter首先,我们有一份带表头的数据数据已经保存在HDFS上,先创建SparkSession和SparkContext val spark: SparkSession = SparkSession.builder() .appName("header") .master("local[*]") .getOrCreat原创 2021-03-03 18:46:46 · 3102 阅读 · 1 评论 -
Spark SQL操作外部数据源
Spark SQL一、准备工作二、Spark连接Hive三、Spark连接MySQL四、Spark连接HBase一、准备工作创建maven工程,添加pom依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi原创 2021-01-10 14:57:31 · 630 阅读 · 0 评论