自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 11.17 spark中使用自定义函数

spark中使用UDF函数import org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkUDFDemo { case class Hobbies(name:String,hobbies:String) def main(args: Array[String]): Unit = {

2020-11-18 11:19:33 223

原创 11.18 spark操作外部数据源

spark操作hive首先需要将hive/conf目录下的hive-site.xml文件拷贝到spark的conf目录下cp /opt/hive/conf/hive-site.xml /opt/spark245/conf检查hive.metastore.uris是否正确(TODO:未配置完成,使用idea连接失败)<property> <name>hive.metastore.uris</name> <value>thrift://1

2020-11-18 11:18:44 106

原创 11.19 spark RDD算子(二)

spark RDD算子 键值对分组操作 groupByKey,cogroupgroupByKeygroupByKey会将RDD[key,value] 按照相同的key进行分组,形成RDD[key,Iterable[value]]的形式, 有点类似于sql中的groupby,例如类似于mysql中的group_concatscala版:nameScoreRDD.groupByKey().collect.foreach(println)java版:List<Tuple2<String,

2020-11-10 11:22:22 135

原创 11.6 spark RDD算子(一)

spark RDD算子 parallelize,makeRDD,textFileparallelizescala版:val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("paralllize")val sc: SparkContext = SparkContext.getOrCreate(conf)val rdd1:RDD[Int] = sc.parallelize(1 to 100)java版:Spa

2020-11-08 12:39:37 122

原创 11.03 scala和spark 的下载安装

安装spark上传scala和spark安装文件到linux中的software中解压scala-2.11.12.tgz和spark-2.4.5-bin-hadoop2.6.tgz:tar -zxf scala-2.11.12.tgz -C /opttar -zxf spark-2.4.5-bin-hadoop2.6.tgz -C /opt进入opt目录下对文件夹进行重命名mv scala-2.11.12/ scala211mv spark-2.4.5-bin-hadoop2.6/ s

2020-11-03 15:09:25 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除