高级班Spark-SQL
zhikanjiani
这个作者很懒,什么都没留下…
展开
-
大数据实战二十五课 - Spark SQL05
第一章:上次课回顾第二章:第一章:上次课回顾https://blog.csdn.net/zhikanjiani/article/details/100082667第二章:**第一步:**点击load,load是DataFrameReader(org.apache.spark.sql)def load():sql.DataFramespark.read.load()点进去查看方法...原创 2019-08-29 12:10:48 · 241 阅读 · 0 评论 -
大数据实战二十四课 - Spark SQL04
一、上次课回顾第一章:上次课回顾https://blog.csdn.net/zhikanjiani/article/details/96722109原创 2019-08-27 19:55:21 · 295 阅读 · 0 评论 -
大数据实战二十三课 - Spark SQL03
从源端把数据加载进来,不管是采用Map Reduce、Hive、Spark计算引擎,把数据加载至目标端1)数据文件格式2)数据可能在本地/HDFS/S3eg:源端JSON格式,解析出来变成文本,借助于JSON的工具进行JSON的处理,比如JSON今天有10个字段,明天有11个字段,后天有13个字段,由于JSON是key、value存储,还真不一定。这种场景工作中比较多;处理麻烦。load ...原创 2019-07-24 11:10:35 · 494 阅读 · 0 评论 -
自己下载导入的spark sql包引起的IDEA编译任何程序都报错
交代下前因后果:学习Spark SQL过程中:在pom.xml中配置这段话,maven仓库并没有下载,只是提示找不到这个依赖;遂去到这个网址 http://mvnrepository.com 是maven仓库的国内镜像地址,下载到spark-sql_2.11-2.4.0.jar这个包<spark.version>2.4.0</spark.version> <...原创 2019-08-24 21:51:49 · 892 阅读 · 0 评论 -
大数据实战二十一课 - Spark SQL01
回顾:SparkCore总结,把数据写到外部第三方数据库,都要采用foreachPartition建议大家首先采用带Partition的。对于Spark-Core给定功能实现,是最基本的要求;数据清洗部分使用RDD代替MapReduce来实现.Spark SQL:概念:Spark SQL is Apache Spark’s module for working with structure...原创 2019-07-08 17:30:17 · 529 阅读 · 0 评论