2020年11月_伱来打硪啊

11月 10月 09月 08月 07月

原创 11.17 spark中使用自定义函数

spark中使用UDF函数import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkUDFDemo { case class Hobbies(name:String,hobbies:String) def main(args: Array[String]): Unit = {

2020-11-18 11:19:33 223

原创 11.18 spark操作外部数据源

spark操作hive首先需要将hive/conf目录下的hive-site.xml文件拷贝到spark的conf目录下cp /opt/hive/conf/hive-site.xml /opt/spark245/conf检查hive.metastore.uris是否正确（TODO：未配置完成，使用idea连接失败）<property> <name>hive.metastore.uris</name> <value>thrift://1

2020-11-18 11:18:44 106

原创 11.19 spark RDD算子（二）

spark RDD算子键值对分组操作 groupByKey，cogroupgroupByKeygroupByKey会将RDD[key,value] 按照相同的key进行分组，形成RDD[key,Iterable[value]]的形式，有点类似于sql中的groupby，例如类似于mysql中的group_concatscala版：nameScoreRDD.groupByKey().collect.foreach(println)java版：List<Tuple2<String,

2020-11-10 11:22:22 135

原创 11.6 spark RDD算子（一）

spark RDD算子 parallelize，makeRDD，textFileparallelizescala版：val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("paralllize")val sc: SparkContext = SparkContext.getOrCreate(conf)val rdd1:RDD[Int] = sc.parallelize(1 to 100)java版：Spa

2020-11-08 12:39:37 122

原创 11.03 scala和spark 的下载安装

安装spark上传scala和spark安装文件到linux中的software中解压scala-2.11.12.tgz和spark-2.4.5-bin-hadoop2.6.tgz：tar -zxf scala-2.11.12.tgz -C /opttar -zxf spark-2.4.5-bin-hadoop2.6.tgz -C /opt进入opt目录下对文件夹进行重命名mv scala-2.11.12/ scala211mv spark-2.4.5-bin-hadoop2.6/ s

2020-11-03 15:09:25 141

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人