spark
spark学习记录
卓_尔_不_凡
这个作者很懒,什么都没留下…
展开
-
PySpark学习---RDD应用之搜索引擎日志分析案例
安装jieba分词库。原创 2024-04-22 22:42:57 · 189 阅读 · 0 评论 -
Spark学习---RDD应用之新闻网站案例
【代码】Spark学习---RDD应用之新闻网站案例。原创 2024-04-23 09:17:14 · 302 阅读 · 0 评论 -
spark学习---面试题
3.一个阶段的内部都是窄依赖,窄依赖内,如果形成前后1:1的分区对应关系,就可以产生许多内存迭代计算的管道。5.一个Task是一个具体的线程,任务跑在一个线程内,就是走内存计算了.4.这些内存迭代计算的管道,就是一个个具体的执行Task。2.DAG图会基于分区和宽窄依赖关系划分阶段。1.Spark会产生DAG图。原创 2024-04-23 15:01:52 · 87 阅读 · 1 评论 -
PySpark学习---广播变量和累加器之单词计数案例
由driver处理的变量给每个进程发送一份,而无需给每个task线程发送,节约网络。原创 2024-04-23 10:35:45 · 261 阅读 · 0 评论 -
PySpark学习----RDD副本cache和checkpoint
Cache是轻量化保存RDD数据,可存储在内存和硬盘,是分散存储,设计上数据是不安全的(保留RDD血缘关系)CheckPoint是重量级保存RDD数据,是集中存储,只能存储在硬盘(HDFS)上,设计上是安全的(不保留RDD血缘关系)原创 2024-04-22 20:11:56 · 210 阅读 · 0 评论 -
PySpark学习----RDD算子(API)学习记录
RDD--------弹性分布式数据集,分布式计算的实现载体(数据抽象)原创 2024-04-22 13:58:47 · 463 阅读 · 0 评论 -
PySpark学习---通过spark-submit提交到yarn运行
Linux上提交文件命令。原创 2024-04-22 13:41:01 · 343 阅读 · 0 评论 -
PySpark学习---RDD应用之商品分析案例
任务:提取北京的商品种类。原创 2024-04-22 12:52:18 · 287 阅读 · 0 评论 -
pyspark学习----单词计数小Demo
通过创建SparkConf对象来配置应用,然后基于这个SparkConf创建一个SparkContext对象。驱动器程序通过SparkContext对象来访问Spark。这个对象代表对计算集群的一个连接。一旦有了SparkContext, 就可以用它来创建RDD。原创 2024-04-21 23:56:54 · 395 阅读 · 1 评论 -
spark学习---standAlone HA的原理
基于zoo做状态的维护,开启多个Master进程,一个活跃,其他做备份,准备接管。当前正在进行的任务不会受到影响,继续运行,新任务被接管到新的master。standAlone HA 的原理。master备用节点。原创 2024-04-20 19:24:13 · 177 阅读 · 0 评论 -
spark学习---Spark on YARN环境搭建
3) 、ResourceManager接到ApplicationMaster的资源申请后会分配Container,然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程;5)、之后执行到Action算子时,触发一个Job,并根据宽依赖开始划分Stage,每个Stage生成对应的TaskSet,之后将Task分发到各个Executor上执行。3.需要被提交的代码程序:,或我们后续自己开发的Spark任务。真正干活的Executor运行在YARN提供的容器内。原创 2024-04-21 09:15:49 · 129 阅读 · 0 评论 -
spark学习---打开webUI页面开启时Worker为0
2.可能master节点打开的是备用节点,状态为standby,查看其他节点是否打开master,更换端口地址。原创 2024-04-21 09:22:36 · 230 阅读 · 0 评论