spark
spark学习
一只学技术的狮子
这个作者很懒,什么都没留下…
展开
-
lambda架构
什么是lambda架构?lambda架构提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图、层次结构:批处理层、实时处理层、服务层。批处理层涉及的技术:flume采集数据,sqoop数据同步到结构化数据库中等,分布式存储(HDFS:基于文件的分布式存储系统,Hbase:结构化存储系统(Hadoop Database)nosql型数据库),分布式计算(m...原创 2020-04-29 20:06:45 · 327 阅读 · 0 评论 -
spark sql小节
2个编程抽象DataFrame和DataSetDataSet是强类型的,DataFrame是弱类型的;spark.writespark.read.jdbc (“jdbc:。。。。”,参数,参数)spark-shell 默认是支持hive的,代码中默认是不支持的,需要设置参数内嵌hive是不用的公司基本都是hive外部调用...原创 2020-03-16 20:35:23 · 83 阅读 · 0 评论 -
spark sql数据加载与保存
**spark sql 数据的加载与保存加载数据**第一种**read直接加载数据spark.read.加载各种数据类型第二种spark.read.format("…").load("…")一般是用第一种,精简就对了。例如:spark.read.format(“json”).load(“文件位置”)保存数据df.write.json("./js/一个目录")能读的都能写;...原创 2020-03-15 22:07:07 · 430 阅读 · 0 评论 -
sparksql的学习要点
sparksql的核心是df,ds;关于rdd、df和ds的相互转化;sparksql的加载顺序;SparkSession,sparksql的新起点:老版的SQLContext提供Spark自己提供的SQL查询;Hive对应的是HiveContext的;SparkSession实质上是SparkSession和HiveContext和SparkContext的两个的集合;DF的创建:...原创 2020-03-15 10:52:20 · 98 阅读 · 0 评论 -
sparkcore小结
RDD血缘关系的理解:是什么?为什么?怎么做?是transformation,调用算子,形成新的rdd,相互依赖,这个成为血缘关系;**作用:**恢复数据,数据丢失的时候,可以通过依赖关系恢复数据;宽依赖和窄依赖,任务的切分与血缘关系有关系。spark如何进行任务切分?在一个application中有很多的算子,遇到action算子是,分装成job,分成多个stage,stage的数量...原创 2020-03-11 20:56:54 · 100 阅读 · 0 评论 -
spark中parallelize和makeRDD函数的区别
parallelize和makeRDD的函数结构def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollectionRDD[T](this,...原创 2020-03-03 20:12:48 · 700 阅读 · 0 评论 -
RDD随心笔记
scala:SparkContext()是开始RDD的特点coalesce与repartition之间是相互联系的,repartition底层是调用coalesce的,区别就是是否调用shuffle。原创 2020-03-03 13:29:30 · 130 阅读 · 0 评论 -
standalone模式
spark-env.sh文件中添加信息:SPARK_MASTER_HOST=hadoop53SPARK+MASTER_PORT=7077(默认端口号)这个是服务端口号,类似9000slaves文件中添加搭建的几台机器信息:hadoop53hadoop54hadoop55分发spark包:xsync spark/启动:sbin/start-all.sh(群起脚本需要前提是配置slav...原创 2020-02-28 14:47:16 · 1323 阅读 · 0 评论 -
spark学习总体
spark总体体系学习scala语言学习spark基础操作(spark基础,spark core,spark sql,spark streaming)高级(spark内核机制、spark性能调优)spark是一种基于***内存 ***的快速、通用、可扩展的大数据分析引擎。...原创 2020-02-27 19:06:30 · 92 阅读 · 0 评论