自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

赵英超的博客

相互学习,共同进步,如果对你有帮助,请记得点赞支持,谢谢!

  • 博客(582)
  • 资源 (18)
  • 收藏
  • 关注

原创 【推荐】开源动态配置ares服务让业务飞起来,”赶超nacos、apollo,从此不再依靠 spring cloud config“

What is ARES?Open source dynamic configuration center with easy deployment and high stabilityAres系统是基于Java语言开发的,部署简单且高稳定性的动态配置系统.让您可以集中化、动态化管理自己应用中的配置.允许您的应用以监听和拉取结合的方式快速变更运行时的应用配置具有丰富的配置管理UI简化操作,同时也保障数据的隔离性与灵活性AboutAres系统目前在橙鹰公司内部使用,并稳定的

2020-12-31 15:30:53 2933 1

原创 【推荐】开源项目ElasticAmbari助力 ElasticSearch、Kibana、ambari服务高效运维管理

概述ElasticAmbari为Ambari的一组自定义服务,为Elastic的产品提供安装和管理的支持。项目地址:https://github.com/ChengYingOpenSource/ElasticAmbari开源不易,我们会持续维护和优化,惊喜不断请大家点赞收藏!特性支持Elastic全产品系列 支持Elastic各产品的各个版本,不要求特定版本许可证ElasticAmbari代码库基于Apache License 2.0许可证开放使用。欢迎参与.

2020-12-31 13:59:26 2882 1

原创 presto / trino plugin(自定义UDF函数)开发指南

ScalarFunction("to_upper") // 固定参数,表示函数名的意思,也就我们在使用Presto的时候用的函数名@Description("我的大小写转换函数") // 函数的注释@SqlType(StandardTypes.VARCHAR) // 表示数据类型// 将获取到的数据转换大写// 在转换后的数据放入内存返回实现presto函数的开发,使用新建maven工程的方式,要比在presto代码下新建子工程的方式简单的多,推荐大家使用方法二。

2024-03-12 15:40:11 1045

原创 Maxmind GeoLite2城市csv数据库本地导入使用

官方指导文档:https://dev.maxmind.com/geoip/importing-databases/mysql。您可以使用工具将MaxMind GeoLite2 country/ CSV从GitHub。需要知道必须使用哪些类型的字段,以及如何正确地连接数据库中要从csv-文件导入的表。转换为MySQL/PostgreSQL/Microsoft 2019。中为导入GeoLite2城市csv创建。直接用csv导入就可以使用了。

2024-02-05 15:12:09 498

原创 绝对完美解决hdfs datanode数据和磁盘数据分布不均调整(hdfs balancer )——经验总结

hdfs 需要存写大量文件,有时磁盘会成为整个集群的性能瓶颈,所以需要优化 hdfs 存取速度,将数据目录配置多磁盘,既可以提高并发存取的速度,还可以解决一块磁盘空间不够的问题。大数据Hadoop之——Hadoop 3.3.4 HA(高可用)原理与实现(QJM)

2024-02-04 13:51:00 1553

原创 常用抓包软件集合(Fiddler、Charles)

Fiddler Everywhere Pro具有扩展的共享和协作选项。与MacOS,Windows和Linux兼容。检查网络流量(HTTP和HTTps)。与合作者保存,共享和接收捕获的流量。解密安全流量(HTTps)。保存编写的API请求。

2024-01-30 14:47:23 668

原创 Datanode磁盘IO高 hdfs du -sk 导致机器load高

所以,对于DN来说,默认的Du,会产生大量的du -sk的操作,会造成集群严重的IO Wait增加,从而导致任务会变得缓慢。iostat -x 5: 磁盘IOutil 一直处于比较高的使用率,且iowait值比较大,io有一定的等待延迟;(将一个节点上同时产生的多个du操作,加个随机数,随机到集群的不同时间段,)不过也有一些临时的方案,比如说捕获到hdfs调用的 du -sk 命令,使用 df -k 进行替换。iotop排查有大量的du -sk 操作占用IO比较高,且执行很长时间;

2023-12-06 15:56:29 1303

原创 CentOS关闭 swap分区

【代码】CentOS关闭 swap分区。

2023-12-06 14:58:31 1023

原创 pip 安装错误 “python setup.py egg_info“

【代码】pip 安装错误 “python setup.py egg_info“

2023-12-01 18:27:27 671

原创 hdfs数据丢失数据块block missing问题排查解决

告警内容:NameNode Blocks Health:Total Blocks:[13352317], Missing Blocks:[1]最后平滑重启NameNode,在重启异常的DataNode解决。允许ipc通讯最大的数据包为128MB,默认配置为64MB。开始时间:2023-10-02 08:05:12。组件:HDFS/cube-hdfs-1。排查hdfs datanode日志发现。持续时间:8小时44分钟。但是数据一直没法恢复。

2023-10-07 20:08:34 900

原创 磁盘io使用率高问题排查

例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备 的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁忙程度。rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读 取请求读取的是相同Block的数据,FS会将这个请求合并Merge);上面的例子中,我们可以看到磁盘sda以及它的各个分区的统计数据,当时统计的磁盘总TPS是39.29,下面是各个分区的TPS。

2023-10-07 11:34:28 2225

原创 spark任务长时间不退出hangs 8+ hour 的排查(AsyncEventQueue: Dropped 18 events from executorManagement)

解決这个问题最简单的办法。2.将群集级别的群集的 Spark 配置中的 spark.scheduler.listenerbus.eventqueue.capacity 值设置为大于 10000 的值。3.此值设置应用状态事件队列的容量,其中包含内部应用程序状态侦听器的事件。1.解决丢event的方法实际上是用Spark提供的参数,静态的让队列在初始化的时候容量变大了,这需要driver的内存大一点。有些listener 太慢了 跟不上新产生的task 的scheduler 的速度,有意思的问题就在这里。

2023-10-06 21:24:01 387

原创 hive location更新&hive元数据表详解

由于HDFS支持的文件格式很多,而建Hive表时候也可以指定各种文件格式,Hive在将HQL解析成MapReduce时候,需要知道去哪里,使用哪种格式去读写HDFS文件,而这些信息就保存在这几张表中。该表保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。主要有TBLS、TABLE_PARAMS、TBL_PRIVS,这三张表通过TBL_ID关联。TBLS表中的SD_ID与该表关联,可以获取Hive表的存储信息。hive分为内部表和外部表,两种表修改路径方式不一样。

2023-09-11 15:23:46 1174

原创 Spark repartition和coalesce的区别

我们常认为coalesce不产生shuffle会比repartition 产生shuffle效率高,而实际情况往往要根据具体问题具体分析,coalesce效率不一定高,有时还有大坑,大家要慎用。coalesce 与 repartition 他们两个都是RDD的分区进行重新划分,repartition只是coalesce接口中shuffle为true的实现(假设源RDD有N个分区,需要重新划分成M个分区)1)如果N<M。

2023-08-17 20:13:21 878

原创 spark dynamicAllocation详解及使用

动态资源分配策略在空闲时释放 Executor,繁忙时申请 Executor,虽然逻辑比较简单,但是和任务调度密切相关。它可以防止小数据申请大资源,Executor 空转的情况。在集群资源紧张,有多个 Spark 应用的场景下,可以开启动态分配达到资源按需使用的效果。

2023-08-17 15:52:19 2109

原创 spark-sql 多表关联( union all) TaskMemoryManager: Failed to allocate a page (8388608 bytes)

如果资源充足那就需要增加driver内存和调整spark.sql.autoBroadcastJoinThreshold内存,可以根据需要开启spark.broadcast.compress=true。因为spark.sql.adaptive.enabled=true开启自动调优,spark.sql.autoBroadcastJoinThreshold=2G。在使用多表关联的时候慎重开启spark.sql.adaptive.enabled=true。

2023-08-10 15:54:16 296

原创 spark-sql数据重复之File Output Committer问题

我们先来回顾下之前介绍过的三种Committer:FileOutputCommitter V1、FileOutputCommitter V2、S3A Committer,其基本代表了整体的演进趋势。FileOutputCommitter V1,采用两次Commit的方式来保证较强的一致性,每次Commit都对应一次文件的Rename。每个Task先将数据写入到Task的临时目录下,写完后将其Rename到Job的临时目录下;

2023-08-01 20:12:19 839

原创 apache ozone详细介绍

ozone

2023-07-17 16:58:59 613

原创 spark Structured Streaming checkpoint参数优化

内容可能持续性修改完善,最新专栏内容与同步,源码与同步。

2023-07-13 11:44:16 333

原创 git远端分支重命名操作

假如正在与一群人合作一个项目,并且已为git分支定义了命名约定。您,将更改推送到远程存储库,并意识到您的分支名称不正确。幸运的是,Git允许您使用命令非常容易地重命名分支。本教程介绍了如何重命名本地和远程Git分支。

2023-07-06 10:01:00 646

原创 hudi spark数据增删查改

Hudi还提供了增量查询的方式,可以获取从给定提交时间戳以来更改的数据流。如果我们希望在给定提交之后进行所有更改,则不需要指定endTime(这是常见的情况)。对于表或分区来说,如果大部分记录在每个周期都发生变化,那么做upsert或merge的效率就很低。overwrite操作可能比批量ETL作业的upsert更快,批量ETL作业是每一批次都要重新计算整个目标分区(包括索引、预组合和其他重分区步骤)。也可以用于某些操作任务,如修复指定的问题分区。"操作,以忽略现有数据,只用提供的新数据创建一个提交。

2023-06-28 17:44:26 537

原创 Hudi Spark-SQL增量查询数据几种方式

由于项目上主要用Hive查询Hudi,所以之前总结过一篇:Hive增量查询Hudi表。最近可能会有Spark SQL增量查询Hudi表的需求,并且我发现目前用纯Spark SQL的形式还不能直接增量查询Hudi表,于是进行学习总结一下。本文总结了Spark SQL增量查询Hudi表的一些参数设置,并给出了示例,介绍了使用纯Spark SQL实现增量查询Hudi表的几种方式,不确定未来社区会采用哪种方式,大家目前如果有这种需求的话,可以先选择一种自己喜欢的方式,等未来社区版本支持后,再升级版本。

2023-06-28 17:40:06 1412

原创 spark-sql显示表头header

【代码】spark-sql显示表头header。

2023-06-08 11:45:46 393

原创 spark-sql ORC Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: File already exists

试图在重新分区后将数据帧写入s3位置。但是每当write stage失败并Spark重试该stage时,它抛出FileAlreadyExistsException。在当重新提交工作时,如果spark在一次尝试中就完成了这一阶段,它会很好地工作。主要是Spark应该在重试之前从失败的阶段删除文件。如果我们将retry设置为0,这个问题就会解决,但是spark阶段预计会失败,这不是一个合适的解决方案。Spark配置中设置--conf。有关此配置的更多详细信息-

2023-06-08 09:52:04 346

原创 spark-sql写入对象存储路径不存在问题(异常路径自动消失)

由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性同一 Task 可能因为 Speculation 而存在两个完全相同的 Task 实例写相同的数据到 HDFS中,如何保证只有一个 commit 成功对于大 Job(如具有几万甚至几十万 Task),如何高效管理所有文件V1 committer(即的值为 1),commit 过程如下Task 线程将 TaskAttempt 数据写入。

2023-05-23 12:56:54 1048

原创 hive metastore元数据同步&无效分区清理

元数据清理

2023-05-13 17:35:01 601

原创 spark-sql 报错:Exception thrown flushing changes to datastore

spark-sql hive

2023-05-10 10:58:25 782

原创 【必看】最全开窗函数讲解和实战指南

窗口函数

2023-03-20 21:11:35 4167 4

原创 Mac用iTerm2连接到Linux上乱码

乱码

2023-02-27 10:18:40 265

原创 vi/vim下输入分隔符^A ^M

vi特殊字符

2023-01-03 18:58:40 1704

原创 ClickHouse 查询时报错:Memory limit (for query) exceeded: would use 9.38 GiB

ClickHouse

2022-12-30 10:33:48 3750

原创 spark-sql 支持中文

spark-sql

2022-11-22 18:33:15 1905

原创 clickhouse设置加密用户名密码

clickhouse use password

2022-11-03 20:52:56 2310

原创 hive java.net.SocketTimeoutException: Read timed out 问题解

hive

2022-10-01 11:26:44 4711

原创 PRESTO SQL总结分享

presto sql

2022-10-01 10:16:31 5464 1

原创 YARN 集群的 Node 节点都处在 Unhealthy 状态

yarn 异常处理

2022-08-19 10:51:12 787

原创 zookeeper日志及快照清理操作

zookeeper

2022-08-19 10:33:55 2455

原创 spark hdfs azure对象存储

spark hive hdfs azure

2022-08-18 19:53:14 479

原创 presto安装部署教程

presto单机安装

2022-07-26 15:58:37 890

原创 源码编译 Failed to execute goal com.github.eirslett:frontend-maven-plugin Could not download Node.js

Failed to execute goal com.github.eirslett:frontend-maven-plugin:1.6:install-node-and-npm (install node and npm) on project tdpco-web-app-ui: Could not download Node.js: Got error code 404 from the server. -> [Help 1]解决方案:修改com.github.eirslett插件版本..

2022-05-05 17:03:37 2846

GitkrakenCrack.zip

GitkrakenCrack.zip

2023-04-04

activiti 6.0汉化包,绝对可用

activiti 6.0汉化包,绝对可用.代码集成去除lib jar包

2018-11-29

ReceiverCleanupUtility

一、卸载Citrix Receiver两种办法 1、打开控制面板--程序和功能--卸载程序--Citrix Receive,进行卸载 2、通过官方提供的专业卸载工具进行卸载ReceiverCleanupUtility

2018-09-20

StarUMLv3.0.2 安装文件 破解补丁 集合

StarUMLv3.0.2 安装文件 破解补丁 集合 欢迎使用,支持正版!请勿商业使用!

2018-08-24

StarUML Setup 3.0.2

StarUML Setup 3.0.2 很好用哦!推荐! 破解文件见另一个地址!

2018-08-24

自动化运维工具 Ansible 详细部署

自动化运维工具Ansible详细部署

2016-07-07

SQL Delta 6.2.2.2066 crack 破解版

SQL Delta 6.2.2.2066 crack 破解版

2016-07-07

软件加密 打包 自动化安装 makeself

软件加密 打包 自动化安装 makeself

2015-12-30

bunifyDeploy

比Ansible更吊的自动化运维工具,自动化统一安装部署_自动化部署

2015-12-30

清华大学ARM培训教材.pdf

清华大学ARM培训教材.pdf 绝对有用

2013-01-09

Linux系统命令及其使用详解

Linux系统命令及其使用详解 Linux系统命令快速上升

2013-01-09

android手机wifi热点通信代码

android手机wifi热点通信代码 初学者必须的资料

2013-01-09

HTC__G11刷机教程

HTC__G11刷机教程 初学者必须文档

2013-01-09

linux-超级终端

linux-超级终端 linux开发必须工具

2013-01-09

嵌入式从零基础到精通的视频学习过程

嵌入式从零基础到精通的视频学习过程 很不错

2013-01-09

Linux内核完全注释完整版.

Linux内核完全注释完整版 很经典 很有用

2013-01-04

十个外贸超实用小工具网址.

十个外贸超实用小工具网址. 希望对大家有用 很不错哦

2013-01-04

GUI中文详细手册

GUI中文详细手册是GUI开发必备资料,很详细

2011-10-30

GUI编译通过内核

GUI编译通过内核,FPGA、ARM.....开发资料,界面很好很强大

2011-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除