- 博客(5)
- 收藏
- 关注
原创 11.17 spark中使用自定义函数
spark中使用UDF函数import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkUDFDemo { case class Hobbies(name:String,hobbies:String) def main(args: Array[String]): Unit = {
2020-11-18 11:19:33 223
原创 11.18 spark操作外部数据源
spark操作hive首先需要将hive/conf目录下的hive-site.xml文件拷贝到spark的conf目录下cp /opt/hive/conf/hive-site.xml /opt/spark245/conf检查hive.metastore.uris是否正确(TODO:未配置完成,使用idea连接失败)<property> <name>hive.metastore.uris</name> <value>thrift://1
2020-11-18 11:18:44 106
原创 11.19 spark RDD算子(二)
spark RDD算子 键值对分组操作 groupByKey,cogroupgroupByKeygroupByKey会将RDD[key,value] 按照相同的key进行分组,形成RDD[key,Iterable[value]]的形式, 有点类似于sql中的groupby,例如类似于mysql中的group_concatscala版:nameScoreRDD.groupByKey().collect.foreach(println)java版:List<Tuple2<String,
2020-11-10 11:22:22 135
原创 11.6 spark RDD算子(一)
spark RDD算子 parallelize,makeRDD,textFileparallelizescala版:val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("paralllize")val sc: SparkContext = SparkContext.getOrCreate(conf)val rdd1:RDD[Int] = sc.parallelize(1 to 100)java版:Spa
2020-11-08 12:39:37 122
原创 11.03 scala和spark 的下载安装
安装spark上传scala和spark安装文件到linux中的software中解压scala-2.11.12.tgz和spark-2.4.5-bin-hadoop2.6.tgz:tar -zxf scala-2.11.12.tgz -C /opttar -zxf spark-2.4.5-bin-hadoop2.6.tgz -C /opt进入opt目录下对文件夹进行重命名mv scala-2.11.12/ scala211mv spark-2.4.5-bin-hadoop2.6/ s
2020-11-03 15:09:25 141
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人