zhou12314456
码龄10年
关注
提问 私信
  • 博客:119,973
    119,973
    总访问量
  • 78
    原创
  • 2,218,018
    排名
  • 26
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2014-12-04
博客简介:

zhou12314的专栏

博客描述:
业精于勤,荒于嬉;行成于思,毁于随
查看详细资料
个人成就
  • 获得45次点赞
  • 内容获得11次评论
  • 获得80次收藏
创作历程
  • 1篇
    2021年
  • 4篇
    2020年
  • 17篇
    2019年
  • 2篇
    2018年
  • 4篇
    2017年
  • 52篇
    2016年
  • 1篇
    2015年
成就勋章
TA的专栏
  • Android底层驱动分析
    2篇
  • map
    3篇
  • mappartitions
    2篇
  • 大数据开发
    11篇
  • java
    25篇
  • android
    43篇
  • javascript
    2篇
  • Qt
    1篇
  • c
    4篇
  • q
兴趣领域 设置
  • 大数据
    spark
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

2021-05-28

spark的工作流程是什么​所有spark程序都离不开程序初始化和执行任务这两部分。一、程序初始化的流程 用户通过sparksubmit提交程序以后,driver程序开始运行(driver程序就是运行起来的提交的程序,可以理解为spark的main程序)。 driver程序运行起来会首先初始化sparkContext。 在SparkContext对象中做的最重要的事情就是构造出一个DAGSchedule和一个TaskScheduler。 上述的TaskSchedu
原创
发布博客 2021.05.28 ·
187 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark模块 spark的工作流程?

spark的工作流程是什么​回答思路所有spark程序都离不开程序初始化和执行任务这两部分,所以该问题可以从这两部分开始回答。一、程序初始化的流程 用户通过sparksubmit提交程序以后,driver程序开始运行(driver程序就是运行起来的提交的程序,可以理解为spark的main程序)。 driver程序运行起来会首先初始化sparkContext。 ...
原创
发布博客 2020.01.12 ·
276 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark sql中如何解决并行度低的问题?

在spark设置并行度一般通过两种方式来设置:1.spark.default.parrallelism2.textFile()传入第二个参数,指定partition数量使用spark sql的时候会出现什么问题?但是如果使用来spark sql,用spark sql的那个stage的并行度,你没办法自己指定,因为spark sql 自己会默认根据hive表对应的hdfs的block,...
原创
发布博客 2020.01.05 ·
3405 阅读 ·
0 点赞 ·
3 评论 ·
3 收藏

spark--使用MapPartitions

什么是MapPartitions?简单的理解就是以分区为单位的map函数,假如该分区有10000条数据,如果调用map函数的话,每次调用传入一条数据,也就是需要调用10000次。但是如果调用MapPartitions函数的话,只需要调用一次就能把该分区的数据传进去。MapPartitions优势性能会高一些,特别适合类似于连接数据库的场景缺点因为要一次性加载分区内所有数据,容易...
原创
发布博客 2020.01.03 ·
780 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark优化之重构rdd架构及rdd持久化

什么是RDD持久化?spark最重要的一个功能,就是把一个数据集缓存在内存,磁盘或者分布式文件系统中。如果持久化了这一个数据集,那么对此数据集进行操作的其他操作可以直接复用该数据集,不用重新计算,这会使该操作执行的迅速。为啥要进行RDD持久化?因为要不进行持久化的话,如果多次对一个rdd执行算子的话,spark默认会重算。比如rdd3和rdd4同时基于rdd2做运算,如果不做持久化的话...
原创
发布博客 2020.01.01 ·
174 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

一文读懂spark数据倾斜

spark中出现数据倾斜的原因?前面分析过shuffle 的原理,主要就是按照key来进行values的数据的输出,拉取和聚合的。同一个key的value,肯定会分配到同一个reduce task进行处理的。为什么会出现数据倾斜呢,举个例子,假如多个key对应的values,一共是100万,但是可能某个key对应的value数量就已经到达了98万,占了绝大多数,另外两个key,可能各分配到了一...
原创
发布博客 2019.12.25 ·
177 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

HDFS数据块损坏是如何处理的?

HDFS数据块损坏是如何处理的?数据块损坏恢复流程在namenode中对于进行数据块副本的管理都是在FSnameSystem中,其中有一个成员变量 corruptReplicats,其中就存储着损坏数据与DataNode的映射,当某个数据块损坏后(DataNode可以通过数据块扫描器获知,通过心跳发送给namenode),namenode会将损坏的数据块加到corrupReplicats...
原创
发布博客 2019.12.14 ·
2037 阅读 ·
0 点赞 ·
1 评论 ·
5 收藏

presto指标监控

概述因为presto自带的web-ui界面局限性比较多,所以最近准备通过分析presto的相关指标来搭建一个presto的监控平台。主要用于presto基本信息的监控,性能信息的查询,异常预警。所以该篇及接下来的这几篇文章主要针对presto的相关指标及原理进行分析。presto相关指标说明接口http://127.0.0.1:8888/v1/cluster集群状态相关 ...
原创
发布博客 2019.11.06 ·
4711 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

presto使用及介绍

什么是prestopresto是一个开源的分布式的查询引擎,基于内存,它本身不接入数据,可以连接多种数据源,例如 Hive ,Mysql,Kafka,MongeDB等,一条Presto查询可以将多个数据源进行合并查询。preto适合OLAP,而非OLTP,所以不要将preto当成数据库来使用。presto优势低延迟,高并发,纯内存计算引擎,查询效率是hive的数十倍presto查...
原创
发布博客 2019.11.03 ·
1965 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

spark怎么分配资源

spark分配资源概述为啥要研究spark资源分配spark中最基本和最有效率的优化方式就是给spark程序分配更多的资源,所以这次讲如何更合适的给你的spark程序分配资源spark分配资源主要调整哪一些资源/home/zhou/spark/bin/spark-submit\--classcom.zhou12314.TestDemo\--num-executors...
原创
发布博客 2019.10.28 ·
1360 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

spark shuffle的相关总结

什么是shuffle?发生 shuffle 操作主要是以下几个算子:groupByKey、reduceByKey、countByKey、join,等等。什么时候需要shuffle writer?前一个stage的ShuffleMapTask进行shuffle write,把数据存储在blockManager上面,并且把数据位置元信息上报到driver的mapOutTrack组件中,下一...
原创
发布博客 2019.10.13 ·
163 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark性能优化---数据本地化

什么是数据本地化如果数据以及要计算它的代码是在一起的,那么性能当然会非常高。但是,如果数据和计算它的代码是分开的,那么其中之一必须到另外一方的机器上。通常来说,移动代码到其他节点,会比移动数据到代码所在的节点上去,速度要快得多,因为代码比较小。Spark也正是基于这个数据本地化的原则来构建task调度算法的。数据本地化对于Spark Job性能有着巨大的影响。数据本地化,指的是,数据离计算...
原创
发布博客 2019.05.27 ·
192 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark如何判断内存消耗

内存都消耗在了哪个地方1、在创建的每个java对象中,都会有一个对象头,会占用16个字节,主要是包括了一些的一些对象的元信息,比如指向它的类的指针。如果一个对象本身很小,比如就包括了一个int类型的field,那么它的对象头实际上比对象自己还要大。2、Java的String对象,会比它内部的原始数据,要多出40个字节。因为它内部使用char数组来保存内部的字符序列的,并且还得保存诸如数组长...
原创
发布博客 2019.04.29 ·
1819 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark基于Yarn的两种提交模式原理分析

Spark的三种提交模式1.standalone模式,基于Spark自己的Master-Worker模式2.基于YARN的yarn-cluster模式3.基于YARN的yarn-client模式yarn-cluster模式讲解1.用spark-submit提交(yarn-cluster)2.发送请求到Yarn集群的ResourceManager,请求启动Applicatio...
原创
发布博客 2019.04.27 ·
386 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Spark JDBCRDD详解

参数解释在使用jdbc rdd的时候,我们一块需要传递7个参数valdata=newJdbcRDD(sc,getConnection,"select*fromtablewhereid>=?andid<=?",1,10,2,flatValue...
原创
发布博客 2019.10.14 ·
748 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Canal架构及工作流程

Canal架构Caner Server一个Caner Server就代表一个canal运行实例,其对应于一个jvm一个Caner Server同时对应着n个instance一个instance对应着一个Mysql实例Instance组成一个instance由 EventParser eventSink eventStore MetaManager 这几部分组成eventPa...
原创
发布博客 2019.03.30 ·
1473 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

Canal HA模式讲解及部署

Canal高可用模式介绍Canal HA一共分为两部分,分别为Canal Server HA 和 Canal Client HACanal Server HA说明需要特别说明的是,Canal 集群的高可用 不是基于Server级别的,而是基于instance级别的,而一个instance对应的是一个mysql实例。打个比方假如一共安装了两个Canal Server,数据库端...
原创
发布博客 2019.03.28 ·
3383 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

Canal配置文件详解

conf\example\instance.properties################################################### mysql serverId , v1.0.26+ will autoGen # canal.instance.mysql.slaveId=0 //每个instance都会伪装成一个mysql slave...
原创
发布博客 2019.03.28 ·
12489 阅读 ·
2 点赞 ·
1 评论 ·
16 收藏

Canal入门及使用

哈哈哈,可以先关注一下公众号,我们一起来讨论下spark,flink,canal 的使用和优化Canal概述: canal是由Alibaba开源的一个基于binlog的增量日志组件,其核心原理是canal伪装成Mysql的slave,发送dump协议获取binlog,解析并存储起来给客户端消费。Canal的工作流程: ...
原创
发布博客 2019.03.28 ·
1881 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

SequenceFile和MapFile特点及生成RDD

定期分享源码,总结相关知识点,哈哈哈,来关注啊概括Hadoop 的 HDFS 和 MapReduce 子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个 Block,每一个 block 的元数据都存储在 namenode 的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一存储。HDFS 提供了两种类型的容器,...
原创
发布博客 2019.03.25 ·
420 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多