- 博客(563)
- 资源 (18)
- 收藏
- 关注

原创 【推荐】开源动态配置ares服务让业务飞起来,”赶超nacos、apollo,从此不再依靠 spring cloud config“
What is ARES?Open source dynamic configuration center with easy deployment and high stabilityAres系统是基于Java语言开发的,部署简单且高稳定性的动态配置系统.让您可以集中化、动态化管理自己应用中的配置.允许您的应用以监听和拉取结合的方式快速变更运行时的应用配置具有丰富的配置管理UI简化操作,同时也保障数据的隔离性与灵活性AboutAres系统目前在橙鹰公司内部使用,并稳定的
2020-12-31 15:30:53
1696

原创 【推荐】开源项目ElasticAmbari助力 ElasticSearch、Kibana、ambari服务高效运维管理
概述ElasticAmbari为Ambari的一组自定义服务,为Elastic的产品提供安装和管理的支持。项目地址:https://github.com/ChengYingOpenSource/ElasticAmbari开源不易,我们会持续维护和优化,惊喜不断请大家点赞收藏!特性支持Elastic全产品系列 支持Elastic各产品的各个版本,不要求特定版本许可证ElasticAmbari代码库基于Apache License 2.0许可证开放使用。欢迎参与.
2020-12-31 13:59:26
2758
1
原创 spark-sql ORC Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: File already exists
试图在重新分区后将数据帧写入s3位置。但是每当write stage失败并Spark重试该stage时,它抛出FileAlreadyExistsException。在当重新提交工作时,如果spark在一次尝试中就完成了这一阶段,它会很好地工作。主要是Spark应该在重试之前从失败的阶段删除文件。如果我们将retry设置为0,这个问题就会解决,但是spark阶段预计会失败,这不是一个合适的解决方案。Spark配置中设置--conf。有关此配置的更多详细信息-
2023-06-08 09:52:04
14
原创 spark-sql写入对象存储路径不存在问题(异常路径自动消失)
由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性同一 Task 可能因为 Speculation 而存在两个完全相同的 Task 实例写相同的数据到 HDFS中,如何保证只有一个 commit 成功对于大 Job(如具有几万甚至几十万 Task),如何高效管理所有文件V1 committer(即的值为 1),commit 过程如下Task 线程将 TaskAttempt 数据写入。
2023-05-23 12:56:54
190
原创 spark-sql 报错:Exception thrown flushing changes to datastore
spark-sql hive
2023-05-10 10:58:25
365
原创 ClickHouse 查询时报错:Memory limit (for query) exceeded: would use 9.38 GiB
ClickHouse
2022-12-30 10:33:48
1458
原创 源码编译 Failed to execute goal com.github.eirslett:frontend-maven-plugin Could not download Node.js
Failed to execute goal com.github.eirslett:frontend-maven-plugin:1.6:install-node-and-npm (install node and npm) on project tdpco-web-app-ui: Could not download Node.js: Got error code 404 from the server. -> [Help 1]解决方案:修改com.github.eirslett插件版本..
2022-05-05 17:03:37
1766
原创 yum install Couldn‘t open file /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7
碰见这样的错误:Couldn’t open file /etc/pki/rpm-gpg/RPM-GPG-KEY-EPEL-7cat /etc/yum.repos.d/epel.repo[epel]name=Extra Packages for Enterprise Linux 7 - $basearch#baseurl=http://download.fedoraproject.org/pub/epel/7/$basearchmetalink=https://mirrors.fedorapr
2022-03-25 11:22:30
425
原创 mysql自动补全&语法高亮客户端mycli
介绍:MyCli是一个MySQL的命令行客户端,可以实现自动补全(auto-completion)和语法高亮,同时也可应用于MariaDB和Percona。项目官网:http://mycli.net/开源地址:https://github.com/dbcli/mycli功能特征:MyCli使用Python Prompt Toolkit编写。支持语法高亮当你输入SQL关键字,数据库的表格和列时可自动补全。智能补全(默认启用),会提示文本感应的(context-sensit.
2021-11-19 17:43:26
2055
1
原创 datax使用常见问题
1.datax支持Python3更新如下三个文件https://github.com/WeiYe-Jing/datax-web/tree/master/doc/datax-web/datax-python32. MYSQL8不支持目前dataX不支持mysql8.X,需更新reader和writer MYSQL插件包https://repo1.maven.org/maven2/mysql/mysql-connector-java/8.0.18/mysql-connector-java
2021-11-16 15:10:11
3225
1
原创 Spark Structured Streaming Kafka offset提交监控
StreamingQueryListenerStreamingQueryListener,即监听StreamingQuery各种事件的接口,如下:abstract class StreamingQueryListener { import StreamingQueryListener._ // 查询开始时调用 def onQueryStarted(event: QueryStartedEvent): Unit // 查询过程中状态发生更新时调用 def onQueryP...
2021-10-25 21:03:22
1264
原创 node打包内存不足问题解决方式:Allocation failed - JavaScript heap out of memory
问题:详细报错内容:FATAL ERROR: Ineffective mark-compacts near heap limit Allocation failed - JavaScript heap out of memory解决方法1:安装:npm install -g increase-memory-limit执行:increase-memory-limit备注:本方法亲测有效;解决方法2:export NODE_OPTIONS="..
2021-09-29 10:42:06
5779
2
原创 关于数据库、数据仓库、数据湖、数据中台概念和区别
如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。前言随着大数据技术的不断更新和迭代,数据管
2021-08-17 22:18:27
3150
1
原创 数据库实现原理
如今的软件开发其实大都是面向数据的开发,近些年,我们看到了数不胜数的各种存储,眼花缭乱。MySQL、Redis、Kafka、HBase、MongoDB、ClickHouse、Elasticsearch、Druid等等,甚至在计算引擎中也会有存储的出现。不禁感叹,组件千变万化!是否疲于学习各种技术组件?听我一句劝,研究永恒的东西,才让我们立于不败之地。不管任何的数据存储,它做的事情在最根本的角度,只有两个:给它数据,就把数据存下来 随时可以把数据取出来可能你会说,那是不是我们只需
2021-08-16 20:04:48
2930
2
原创 SQL排序之 row_number, rank(), dense_rank()区别
三者的区别如下:rank()排序相同时会重复,总数不变,即会出现1、1、3这样的排序结果; dense_rank()排序相同时会重复,总数会减少,即会出现1、1、2这样的排序结果; row_number()排序相同时不会重复,会根据顺序排序。具体实例建表、插入数据create table rownumber( id varchar(10) not null, name varchar(10) null, age varchar(10) null,
2021-08-11 19:42:26
4540
2
原创 VictoriaMetrics与Thanos方案对比
Thanos[1] 和 VictoriaMetrics[2] 都是用来作为 Prometheus 长期存储的成熟方案,其中 VictoriaMetrics 也开源了其集群版本[3],功能更加强大。这两种解决方案都提供了以下功能:长期存储,可以保留任意时间的监控数据。 对多个 Prometheus 实例采集的数据进行全局聚合查询。 可水平扩展。本文就来对比一下这两种方案的差异性和优缺点,主要从写入和读取这两个方面来比较,每一个方面的比较都包含以下几个角度:配置和操作的复杂度 可靠性和可用性
2021-07-29 20:42:33
1953
原创 数据治理之数据发现-元数据-DataHub
元数据是用来描述数据的数据(Data that describes other data)。下面是契诃夫的小说《套中人》中的一段,描写一个叫做瓦莲卡的女子:(她)年纪已经不轻,三十岁上下,个子高挑,身材匀称,黑黑的眉毛,红红的脸蛋--一句话,不是姑娘,而是果冻,她那样活跃,吵吵嚷嚷,不停地哼着小俄罗斯的抒情歌曲,高声大笑,动不动就发出一连串响亮的笑声:哈,哈,哈!这段话里提供了这样几个信息:年龄(三十岁上下)、身高(个子高挑)、相貌(身材匀称,黑黑的眉毛,红红的脸蛋)、性格(活跃,吵吵嚷嚷,
2021-07-29 16:26:42
2910
1
原创 GitKraken使用教程
安装前请确认安装了node命令和yarn工具yarn安装教程请参考:Windows下 安装yarn,利用chocolatey软件包管理工具,比npm更快更稳定--梦逸灵箭的博客windows下载最新的安装包https://release.axocdn.com/win64/GitKrakenSetup.exe屏蔽更新打开host文件,写入以下内容,host具体位置可百度找一下。# gitKraken 更新屏蔽 127.0.0.1 release.gitkraken.com
2021-07-27 15:39:59
1886
原创 流处理开源项目flinkStreamSQL FlinkX简介
flinkStreamSQL熟悉flink的应该都了解,flink支持流表之间的join,但到1.6为止都不支持流表和维表的join。浪尖最近,也在开发流平台,需要到flink流表和维表的join。那么针对这个大家第一印象,可以写个算子去实现,比如map等。但是浪尖这里开发的流平台不是说自己写api,而是用户通过sql去实现创建source,sink,udf,sql等,这个时候要进行维表join,大家可能是想到了udf。是的对于只有一个维表的情况下使用udf比较方便,但是多个维表,相对就麻烦很多了。
2021-06-03 21:01:35
1516
原创 大数据管理神器:Ambari自定义stack和服务二次开发详细教程
背景Ambari是一个强大的大数据集群管理平台。在实际使用中,我们使用的大数据组件不会局限于官网提供的那些。如何在Ambari中集成进去其他组件呢?一、Ambari基本架构Ambari Server 会读取 Stack 和 Service 的配置文件。当用 Ambari 创建服务的时候,Ambari Server 传送 Stack 和 Service 的配置文件以及 Service 生命周期的控制脚本到 Ambari Agent。Agent 拿到配置文件后,会下载安装公共源里软件包(R.
2021-05-07 19:54:23
5697
6
原创 apache poi-检测到Zip Bomb解决方案
异常信息:Caused by: com.alibaba.excel.exception.ExcelAnalysisException: java.io.IOException: Zip bomb detected! The file would exceed the max. ratio of compressed file size to the size of the expanded data.This may indicate that the file is used to inflate
2021-04-13 11:18:14
6030
7
原创 SPRINGBOOT启动流程及其原理详解
Spring Boot、Spring MVC 和 Spring 有什么区别? 一 springboot启动原理及相关流程概览 二 springboot的启动类入口 三 单单是SpringBootApplication接口用到了这些注解 1)@Configuration注解 2)@ComponentScan注解 3)@EnableAutoConfiguration AutoConfigurationPackage注解: Import(AutoConfiguration...
2021-03-26 15:21:19
720
原创 深入kafka原理
一、Kafka集群 Kafka 使用 Zookeeper 来维护集群成员 (brokers) 的信息。每个 broker 都有一个唯一标识 broker.id,用于标识自己在集群中的身份,可以在配置文件 server.properties 中进行配置,或者由程序自动生成。下面是 Kafka brokers 集群自动创建的过程:每一个 broker 启动的时候,它会在 Zookeeper 的 /brokers/ids 路径下创建一个 临时节点,并将自己的 broker.id 写入,从而...
2021-03-16 17:18:51
391
原创 深入HBASE原理详解
HBase读数据流程HBase读数据流程HBase元数据信息.HBase读操作首先从zk中找到meta表的region信息,然后meta表中的数据,meta表中存储了用户的region信息 根据要查询的namespace、表名和rowkey信息,找到对应的真正存储要查询的数据的region信息 找到这个region对应的regionServer,然后发送请求 查找对应的region 先从metastore查找数据,如果没有,再从BlockCache读取。 ...
2021-03-16 16:50:00
460
原创 什么是云原生及飞轮理论详解【Cloud Native 是道,Service Mesh 是术】
前言特别指出:这次分享主要是希望起到抛砖引玉的作用,让大家更多的参与到云原生这个话题的讨论,希望后面有更多更好的分享。我们笨鸟先飞,起一个头。内容主要围绕这几个问题,上半场我们将围绕前三个问题。如何理解云原生?第一个话题:如何理解“云原生”?之所以将这个话题放在前面,是因为,这是对云原生概念的最基本的理解,而这会直接影响到后续的所有认知。每个人对云原生的理解都可能不同,就如莎士比亚所说:一千个人眼中有一千个哈姆雷特。我们来快速回顾...
2021-02-20 13:56:13
570
1
原创 Spark ML特征提取、转换和选择操作详解
一、特征的提取1、TF-IDF(词频-逆向文档频率) TF(词频):HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器(Transformer),它可以将这些集合转换成固定长度的特征向量。HashingTF利用hashingtrick,原始特征通过应用哈希函数映射到索引中。然后根据映射的索引计算词频。这种方法避免了计算全局特征词对索引映射的需要,这对于大型语料库来说可能是昂贵的,但是它具有潜在的哈希冲突,其中不同的原始特征可...
2021-02-19 16:45:45
1253
ReceiverCleanupUtility
2018-09-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人