自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 利用datax将elasticsearch的数据进行迁移的踩坑记录

datax同步elasticsearch数据到其他目的地的踩坑记录.实用.

2024-07-10 14:22:05 194

原创 IDEA jar包 import失败 maven刷新也解决不了

IDEA开发,依赖报错,可以尝试手动导入jar包

2023-03-10 17:16:53 1819

原创 python中eval方法的妙用

python中如何将字符串类型的dict,或者list,一键转换成实际的dict类型或者list类型?eval函数来帮你

2022-10-22 17:02:40 320

原创 Spark源码分析:第二章(4)

2.9 启动测量系统 MetricsSystem使用 codahale 提供的第三方测量仓库 MetricsMetricsSystem 有三个概念: instance 谁在用测量数据, source 从哪收集数据, sink 往哪里输出数据;按照instance分类有 master, worker, application, driver, executor按照sink分类有 consolesink csvsink jmxsink metricssevlet graphitesink 等Metri

2021-07-04 16:54:42 233 1

原创 Spark源码分析:第二章(3)

这里写自定义目录标题继续前面的源码分析2.5 Hadoop 相关配置和Executor环境变量2.5.1 Hadoop相关配置信息2.5.2 Executor环境变量2.6 创建任务调度器 TaskScheduler2.6.1 创建taskschedulerimpl2.7 创建和启动DAGScheduler2.8 TaskScheduler 启动2.8.1 创建LocalActor Actor->EndPoint2.8.2 ExecutorSource 的创建和注册2.8.3 ExecutorAct

2021-07-04 10:24:36 277

原创 Spark源码分析:第二章(2)

2.3 创建metadataCleaner这部分,原来的 metadataCleaner 似乎被取消了,换成了 spark.ContextCleaner参考如下链接:个人觉得写得很好https://www.cnblogs.com/windliu/p/10983334.html2.4 SparkUISparkUI 提供监控,浏览器访问事件监听体制if 用函数调用,那么函数调用越来越多,线程限制,监控数据更新不及时甚至无法监视函数监视是同步调用,线程容易阻塞;分布式环境种可能因为网络问题导致线程

2021-06-04 19:45:05 244 1

原创 Spark源码分析:第二章(1)

2 SparkContext初始化参考:https://www.yuque.com/liangjiangjiang/tm6hpg/ogaa4y2.1 SparkContext概述sparkcontext(以下简称sc)主要由sparkconf(以下简称scf)负责配置参数;如果sc是发动机,scf就是操作面板scf的构造很简单,通过concurrenthashmap来维护属性 class SparkConf(loadDefaults: Boolean) extends Cloneable wit

2021-06-03 19:03:01 274

原创 Spark源码分析:第一章

前言之前,一直在考虑,如何延续职业生涯.虽然刚入职,但是危机意识告诉我,不能当咸鱼.拒绝996的同时,也要自我学习,才不至于早早被扫地出门.哪怕考公务员也要学习[手动吃瓜].受到我们部门leader的启发,我决定深入探讨一个工具,钻研源码,做到"精通"一个工具.由Spark始吧.本系列,主要参考了耿嘉安的深入理解Spark核心思想与源码分析.可以理解成我照猫画虎,更新了自己的一版本吧.就从开头开始吧.1 Spark设计理念和基本架构1.1 初始Spark Spark vs Hadoop

2021-06-03 17:52:48 156 1

原创 CentOS7+Ambari2.7.4+HDP 安装教程汇总+个人经验+踩坑实录

一:安装centos7虚拟机1.1-1.

2021-05-20 14:02:04 1846

原创 关于Linux的hostname,hosts,IP的理解

最近在安装Ambari,用虚拟机安装的时候,遇到了这个一直以来就不是很清楚的难题…终于下决心梳理了一番.1,本机IP:无论在局域网还是INTERNET上,每台主机都有一个IP地址,是为了区分此台主机和彼台主机,也就是说IP地址就是主机的门牌号.每个域名都对应一个IP地址,但一个IP地址可有对应多个域名.这个容易理解,一个地址可以有多个名字,有官方名称,有外号,比如北京,坐标只有一个,但是名字有北京,Beijing,Peking,帝都等称呼.2,localhost,127.0.0.1 和本机IP之间的区.

2021-05-13 13:29:35 3933

原创 Kafka 笔记02

书接上文…2.6 提交和偏移量总结了一些概念,还有自己的一些理解.poll()方法!核心方法之一! 每次调用poll()方法,总返回由生产者写入 Kafka 但还没有被消费者读取过的记录.提交更新分区当前位置的操作,叫提交.比如,北京的城六区的GDP为10000e,当前处理了1000e;这个1000e就是偏移量,需要提交这个偏移量通知.再均衡假如广州GDP为20000e,当前处理了500e;如果消费者正常管理,就不需要care;但是如果有新消费者加入,比如曹操也想分一杯羹,那么,就要再均衡.

2021-03-11 17:49:53 207

原创 Kafka 笔记01

0 背景最近接手了几个接口的维护工作,涉及到Kafka的相关知识.于是我恶补了之前简单过了一遍的《Kafka权威指南》,结合我自己了解到的部门的Kafka情况,总结了一些知识点。个人感触是,结合实际,才能更好理解知识点。之前一味啃书,只能说囫囵吞枣;在实际中使用+review知识,让我对Kafka架构的了解更加深入。本篇只更新到消费者的配置部分,后续会继续不定期更新。1 生产者我们需要关注的:消息的丢失?消息的重复?消息的重复?延迟和吞吐量?1.1 生产者概览假如我们发送北京上海广州和西安的数据,

2021-03-10 19:14:24 96

原创 shell脚本编写遇到的问题--时间格式化

bash脚本改进上次的博客强行传递的参数为20200101 20200131 这样的不跨月的参数,在使用中还是很不方便.如果想跨月呢?这就需要涉及bash中时间格式化的知识点了.1,时间格式化关于概念性的东西,可以参考这个链接,写的很好了参考链接:https://blog.csdn.net/classhao1/article/details/8182733#等号两边不能有空格,之前错误一直出在这里yesterday=`date -d last-day +%Y-%m-%d`echo $yest

2021-02-05 19:07:42 300

原创 shell脚本编写遇到的问题--循环

shell脚本编写遇到的问题0 背景工作中需要修补数据,大概半年的数据;跑数据是scala脚本+python脚本,如果手动补充数据,需要运行180次…于是,shell脚本搞起来…1 规划思路此处省略100字;最后的思路:首先传日期参数,分为开始+结束;毕竟补充数据是一个费时间的活,跑一天的数据就要很久,180天,不拆分开,要爆炸的其次是利用循环,每天跑一次scala脚本+python脚本同时需要传递一些基本参数,比如路径shell脚本中涉及相关操作2.0 指定格式!(很重要)在创建sh

2021-02-04 19:49:26 692 2

原创 阿里云OSS云存储系统备份开发掠影

背景最近工作中用到阿里云OSS云存储系统;部门的服务器中大量冷数据长期不使用,但是又占据了大量存储空间,硬盘屡屡报错;因此有必要把服务器上面的冷数据备份一下。流程规划具体流程规划如下表数据类型数据特点原始埋点数据(GZIP压缩)当前数仓业务只访问一次。1年前的历史数据很少访问,只有当需要从源头恢复数据时候访问。无法从其他源头恢复。标准化埋点数据(parquet文件,snappy压缩)当前数仓业务只一次访问,但近期的数据经常被用来进行数据验证。1年前的历史数据很少被访问。

2021-01-19 13:05:41 787

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除