ysy2025-CSDN博客

原创 es升级8.x后,datax同步出现的问题

对于阿里开源的datax-elasticsearchreader plugin, github上面其他可用的plugin通常适用于7.x及以下版本.经过我个人使用发现,8.x版本由于升级,之前的版本出现了问题,因此站在巨人的肩膀上,我优化了代码,得到了这个适合es8.x的plugin

2024-12-16 17:47:31 365

原创利用datax将elasticsearch的数据进行迁移的踩坑记录

datax同步elasticsearch数据到其他目的地的踩坑记录.实用.

2024-07-10 14:22:05 1122 2

原创 IDEA jar包 import失败 maven刷新也解决不了

IDEA开发，依赖报错，可以尝试手动导入jar包

2023-03-10 17:16:53 2424

原创 python中eval方法的妙用

python中如何将字符串类型的dict,或者list,一键转换成实际的dict类型或者list类型?eval函数来帮你

2022-10-22 17:02:40 446

2.9 启动测量系统 MetricsSystem使用 codahale 提供的第三方测量仓库 MetricsMetricsSystem 有三个概念: instance 谁在用测量数据, source 从哪收集数据, sink 往哪里输出数据;按照instance分类有 master, worker, application, driver, executor按照sink分类有 consolesink csvsink jmxsink metricssevlet graphitesink 等Metri

2021-07-04 16:54:42 311 1

原创 Spark源码分析:第二章(3)

这里写自定义目录标题继续前面的源码分析2.5 Hadoop 相关配置和Executor环境变量2.5.1 Hadoop相关配置信息2.5.2 Executor环境变量2.6 创建任务调度器 TaskScheduler2.6.1 创建taskschedulerimpl2.7 创建和启动DAGScheduler2.8 TaskScheduler 启动2.8.1 创建LocalActor Actor->EndPoint2.8.2 ExecutorSource 的创建和注册2.8.3 ExecutorAct

2021-07-04 10:24:36 373

原创 Spark源码分析:第二章(2)

2.3 创建metadataCleaner这部分,原来的 metadataCleaner 似乎被取消了,换成了 spark.ContextCleaner参考如下链接:个人觉得写得很好https://www.cnblogs.com/windliu/p/10983334.html2.4 SparkUISparkUI 提供监控,浏览器访问事件监听体制if 用函数调用,那么函数调用越来越多,线程限制,监控数据更新不及时甚至无法监视函数监视是同步调用,线程容易阻塞;分布式环境种可能因为网络问题导致线程

2021-06-04 19:45:05 354 1

原创 Spark源码分析:第二章(1)

2 SparkContext初始化参考:https://www.yuque.com/liangjiangjiang/tm6hpg/ogaa4y2.1 SparkContext概述sparkcontext(以下简称sc)主要由sparkconf(以下简称scf)负责配置参数;如果sc是发动机,scf就是操作面板scf的构造很简单,通过concurrenthashmap来维护属性 class SparkConf(loadDefaults: Boolean) extends Cloneable wit

2021-06-03 19:03:01 385

原创 Spark源码分析:第一章

前言之前,一直在考虑,如何延续职业生涯.虽然刚入职,但是危机意识告诉我,不能当咸鱼.拒绝996的同时,也要自我学习,才不至于早早被扫地出门.哪怕考公务员也要学习[手动吃瓜].受到我们部门leader的启发,我决定深入探讨一个工具,钻研源码,做到"精通"一个工具.由Spark始吧.本系列,主要参考了耿嘉安的深入理解Spark核心思想与源码分析.可以理解成我照猫画虎,更新了自己的一版本吧.就从开头开始吧.1 Spark设计理念和基本架构1.1 初始Spark Spark vs Hadoop

2021-06-03 17:52:48 245 1

原创 CentOS7+Ambari2.7.4+HDP 安装教程汇总+个人经验+踩坑实录

一:安装centos7虚拟机1.1-1.

2021-05-20 14:02:04 2206

原创关于Linux的hostname,hosts,IP的理解

最近在安装Ambari,用虚拟机安装的时候,遇到了这个一直以来就不是很清楚的难题…终于下决心梳理了一番.1,本机IP:无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号.每个域名都对应一个IP地址,但一个IP地址可有对应多个域名.这个容易理解,一个地址可以有多个名字,有官方名称,有外号,比如北京,坐标只有一个,但是名字有北京,Beijing,Peking,帝都等称呼.2,localhost,127.0.0.1 和本机IP之间的区.

2021-05-13 13:29:35 4815

原创 Kafka 笔记02

书接上文…2.6 提交和偏移量总结了一些概念,还有自己的一些理解.poll()方法!核心方法之一! 每次调用poll()方法,总返回由生产者写入 Kafka 但还没有被消费者读取过的记录.提交更新分区当前位置的操作,叫提交.比如,北京的城六区的GDP为10000e,当前处理了1000e;这个1000e就是偏移量,需要提交这个偏移量通知.再均衡假如广州GDP为20000e,当前处理了500e;如果消费者正常管理,就不需要care;但是如果有新消费者加入,比如曹操也想分一杯羹,那么,就要再均衡.

2021-03-11 17:49:53 341

原创 Kafka 笔记01

0 背景最近接手了几个接口的维护工作,涉及到Kafka的相关知识.于是我恶补了之前简单过了一遍的《Kafka权威指南》，结合我自己了解到的部门的Kafka情况，总结了一些知识点。个人感触是，结合实际，才能更好理解知识点。之前一味啃书，只能说囫囵吞枣；在实际中使用+review知识，让我对Kafka架构的了解更加深入。本篇只更新到消费者的配置部分，后续会继续不定期更新。1 生产者我们需要关注的:消息的丢失?消息的重复?消息的重复?延迟和吞吐量?1.1 生产者概览假如我们发送北京上海广州和西安的数据,

2021-03-10 19:14:24 165

ysy2025的博客