![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
spark学习
一只学技术的狮子
这个作者很懒,什么都没留下…
展开
-
lambda架构
什么是lambda架构? lambda架构提供了一个结合实时数据和Hadoop预先计算的数据环境的混合平台,以提供一个实时的数据视图、 层次结构:批处理层、实时处理层、服务层。 批处理层涉及的技术:flume采集数据,sqoop数据同步到结构化数据库中等,分布式存储(HDFS:基于文件的分布式存储系统,Hbase:结构化存储系统(Hadoop Database)nosql型数据库),分布式计算(m...原创 2020-04-29 20:06:45 · 327 阅读 · 0 评论 -
spark sql小节
2个编程抽象DataFrame和DataSet DataSet是强类型的,DataFrame是弱类型的; spark.write spark.read.jdbc (“jdbc:。。。。”,参数,参数) spark-shell 默认是支持hive的,代码中默认是不支持的,需要设置参数 内嵌hive是不用的 公司基本都是hive外部调用 ...原创 2020-03-16 20:35:23 · 82 阅读 · 0 评论 -
spark sql数据加载与保存
** spark sql 数据的加载与保存 加载数据 ** 第一种** read直接加载数据 spark.read.加载各种数据类型 第二种 spark.read.format("…").load("…") 一般是用第一种,精简就对了。 例如:spark.read.format(“json”).load(“文件位置”) 保存数据 df.write.json("./js/一个目录") 能读的都能写;...原创 2020-03-15 22:07:07 · 427 阅读 · 0 评论 -
sparksql的学习要点
sparksql的核心是df,ds; 关于rdd、df和ds的相互转化; sparksql的加载顺序; SparkSession,sparksql的新起点: 老版的SQLContext提供Spark自己提供的SQL查询; Hive对应的是HiveContext的; SparkSession实质上是SparkSession和HiveContext和SparkContext的两个的集合; DF的创建:...原创 2020-03-15 10:52:20 · 95 阅读 · 0 评论 -
sparkcore小结
RDD血缘关系的理解: 是什么?为什么?怎么做? 是transformation,调用算子,形成新的rdd,相互依赖,这个成为血缘关系; **作用:**恢复数据,数据丢失的时候,可以通过依赖关系恢复数据; 宽依赖和窄依赖,任务的切分与血缘关系有关系。 spark如何进行任务切分? 在一个application中有很多的算子,遇到action算子是,分装成job,分成多个stage,stage的数量...原创 2020-03-11 20:56:54 · 99 阅读 · 0 评论 -
spark中parallelize和makeRDD函数的区别
parallelize和makeRDD的函数结构 def parallelize[T: ClassTag]( seq: Seq[T], numSlices: Int = defaultParallelism): RDD[T] = withScope { assertNotStopped() new ParallelCollectionRDD[T](this,...原创 2020-03-03 20:12:48 · 694 阅读 · 0 评论 -
RDD随心笔记
scala: SparkContext()是开始 RDD的特点 coalesce与repartition之间是相互联系的,repartition底层是调用coalesce的,区别就是是否调用shuffle。原创 2020-03-03 13:29:30 · 126 阅读 · 0 评论 -
standalone模式
spark-env.sh文件中添加信息: SPARK_MASTER_HOST=hadoop53 SPARK+MASTER_PORT=7077(默认端口号)这个是服务端口号,类似9000 slaves文件中添加搭建的几台机器信息: hadoop53 hadoop54 hadoop55 分发spark包:xsync spark/ 启动:sbin/start-all.sh(群起脚本需要前提是配置slav...原创 2020-02-28 14:47:16 · 1321 阅读 · 0 评论 -
spark学习总体
spark总体体系学习 scala语言学习 spark基础操作(spark基础,spark core,spark sql,spark streaming) 高级(spark内核机制、spark性能调优) spark是一种基于***内存 ***的快速、通用、可扩展的大数据分析引擎。 ...原创 2020-02-27 19:06:30 · 91 阅读 · 0 评论