![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
01spark
zsd_31
这个作者很懒,什么都没留下…
展开
-
CDH下的spark日志文件查询
如果算法文件的日志过大,通过web页面太慢了,通过文件查询就快的多了。1、spark的日志文件位置:因为是用yarn提交的计算任务,所以日志是在yarn的容器中记录的。/yarn/container-logs2、找到之前的算法任务:日志文件所在的节点。3、进入该节点:可以看到对应容器日志目录4、查看具体的日志cat 命令来查看stderr文件,就可以...原创 2020-01-15 20:41:24 · 1555 阅读 · 0 评论 -
Spark的运行架构分析(二)之运行模式详解
在上一篇博客 spark的运行架构分析(一)中我们有谈到Spark的运行模式是多种多样的,那么在这篇博客中我们来具体谈谈Spark的运行模式一:Spark On Local 此种模式下,我们只需要在安装Spark时不进行hadoop和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark目录下的bin目录执行bin/spark-shell即可 具体可参考这篇博...转载 2018-12-12 09:55:19 · 487 阅读 · 0 评论 -
Spark机器学习库(MLlib)官方指南手册中文版
原文地址:http://blog.csdn.net/liulingyuan6/article/details/53582300转载 2018-01-17 17:30:43 · 761 阅读 · 0 评论 -
spark官网对应的中文网站地址
地址:http://spark.apachecn.org/docs/cn/2.2.0/index.html转载 2018-01-08 10:37:22 · 31276 阅读 · 0 评论 -
hadoop2.x常用端口、定义方法及默认端口、hadoop1.X端口对比
问题导读:1.DataNode的http服务的端口、ipc服务的端口分别是哪个?2.NameNode的http服务的端口、ipc服务的端口分别是哪个?3.journalnode的http服务的端口、ipc服务的端口分别是哪个?4.ResourceManager的http服务端口是哪个?5.NodeManager的http服务端口是哪个?6.Maste转载 2017-11-28 14:31:07 · 317 阅读 · 0 评论 -
Spark性能优化:资源调优篇
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源来提供,进而导致各种异常。总之,无论是哪转载 2017-11-26 23:33:23 · 101 阅读 · 0 评论 -
Spark on Yarn遇到的几个问题
1 概述 Spark的on Yarn模式。其资源分配是交给Yarn的ResourceManager来进行管理的。可是眼下的Spark版本号,Application日志的查看,仅仅能通过Yarn的yarn logs命令实现。 在部署和执行Spark Application的过程中,假设不注意一些小的细节,或许会导致一些问题的出现。2 防火墙 部署好S转载 2017-11-26 22:39:16 · 590 阅读 · 0 评论 -
Spark On YARN内存分配(2)
摘要: 本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spark的源代码,所以只能根据日志去看相关的源代码,从而了解“为什么会这样,为什么会那样”。 说明 按照Spark应用程序中的driver分布方式不同,Spark on YARN有两种模式: yarn-client模式、yarn-cluster模式。转载 2017-11-23 23:25:29 · 281 阅读 · 0 评论 -
Spark On YARN内存和CPU分配
本篇博客参考:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/ 软件版本:CDH:5.7.2,JDK:1.7;问题描述:在使用Spark On YARN时(无论是Client模式或者是Cluster模式,当然下面会有这种模式的对比区别),可以添加诸如:转载 2017-11-23 23:22:31 · 242 阅读 · 0 评论 -
YARN内存使用优化配置
在Hadoop2.0中, YARN负责管理MapReduce中的资源(内存, CPU等)并且将其打包成Container. 这样可以精简MapReduce, 使之专注于其擅长的数据处理任务, 将无需考虑资源调度. 如下图所示 YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后YARN会通过分配Container来给每转载 2017-12-03 23:22:25 · 318 阅读 · 0 评论 -
spark on yarn图形化任务监控利器:History-server帮你理解spark的任务执行过程
在spark on yarn任务进行时,大家都指导用4040端口监控(默认是,设置其他或者多个任务同时会递增等例外);辣么,任务结束了,还要看图形化界面,那就要开history-server了。CDH安装spark on yarn的时候,就自动安装了history的实例。现在不用CDH自带的spark(版本太久了),自己安装spark新版,所以还得具体配置。搜了一下帖子,2个步骤:转载 2017-12-08 20:39:54 · 1214 阅读 · 0 评论