![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
伱来打硪啊
这个作者很懒,什么都没留下…
展开
-
11.17 spark中使用自定义函数
spark中使用UDF函数import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkUDFDemo { case class Hobbies(name:String,hobbies:String) def main(args: Array[String]): Unit = {原创 2020-11-18 11:19:33 · 240 阅读 · 0 评论 -
11.18 spark操作外部数据源
spark操作hive首先需要将hive/conf目录下的hive-site.xml文件拷贝到spark的conf目录下cp /opt/hive/conf/hive-site.xml /opt/spark245/conf检查hive.metastore.uris是否正确(TODO:未配置完成,使用idea连接失败)<property> <name>hive.metastore.uris</name> <value>thrift://1原创 2020-11-18 11:18:44 · 121 阅读 · 0 评论 -
11.19 spark RDD算子(二)
spark RDD算子 键值对分组操作 groupByKey,cogroupgroupByKeygroupByKey会将RDD[key,value] 按照相同的key进行分组,形成RDD[key,Iterable[value]]的形式, 有点类似于sql中的groupby,例如类似于mysql中的group_concatscala版:nameScoreRDD.groupByKey().collect.foreach(println)java版:List<Tuple2<String,原创 2020-11-10 11:22:22 · 151 阅读 · 0 评论 -
11.6 spark RDD算子(一)
spark RDD算子 parallelize,makeRDD,textFileparallelizescala版:val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("paralllize")val sc: SparkContext = SparkContext.getOrCreate(conf)val rdd1:RDD[Int] = sc.parallelize(1 to 100)java版:Spa原创 2020-11-08 12:39:37 · 129 阅读 · 0 评论 -
11.03 scala和spark 的下载安装
安装spark上传scala和spark安装文件到linux中的software中解压scala-2.11.12.tgz和spark-2.4.5-bin-hadoop2.6.tgz:tar -zxf scala-2.11.12.tgz -C /opttar -zxf spark-2.4.5-bin-hadoop2.6.tgz -C /opt进入opt目录下对文件夹进行重命名mv scala-2.11.12/ scala211mv spark-2.4.5-bin-hadoop2.6/ s原创 2020-11-03 15:09:25 · 151 阅读 · 0 评论