spark
文章平均质量分 85
0lanfeng0
Data Scientist
展开
-
maven关联Spark
- 设置false后是去掉 MySpark-1.0-SNAPSHOT-jar-with-dependencies.jar 后的 “-jar-with-dependencies” -->-- 在maven项目中既有java又有scala代码时配置 maven-scala-plugin 插件打包时可以将两类代码一起打包 -->file->Porject Structure->Artifacts->绿色的加号->JAR->from modules...-- 指定hadoop-client API的版本 -->原创 2023-08-17 14:05:12 · 140 阅读 · 1 评论 -
2.spark集群部署
(2)standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;(4)on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算。(3)on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。(1)local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程。原创 2023-08-17 14:02:50 · 39 阅读 · 1 评论 -
1.Saprk原理
此外,Spark还支持SQL查询,流式计算,图计算,机器学习等。Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。MapReduce 中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而 Spark 支持 DAG 图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。原创 2023-08-17 14:02:04 · 57 阅读 · 1 评论