静哥哥~-CSDN博客

原创 DataHub调研&数据血缘

在DataHub中可以通过GraphQL API轻松的创建和添加任何实体标签，这样随着时间的推移，实体的属性回越来越丰富。当有一天我们想要查看某一标签的相关实体信息时，只需要在标签位置点击该标签，就会将所有相关的实体数据列出来。

2023-04-04 14:16:39 7297 1

1. 下载TPC-DS压缩包并存放到指定位置TPC-DS_Tools_v2.10.1.zip链接：https://pan.baidu.com/s/1IDqZN75U-j9j27ETVTQCMA提取码：0z6m2. 构建编译环境Ubuntu: sudo apt-get install gcc make flex bison byacc gitCentOS/RHEL: sudo yum install gcc make flex bison byacc git// 解压压缩包并进入./v2.1

2021-11-04 14:59:06 1042

原创【Screw】数据库表结构文档工具操作

【Screw】数据库表结构文档工具操作需求介绍使用方式1. 代码方式1.1 创建spring工程，并且选择SQL依赖的JDBC API1.2 配置application.properties配置1.3 添加依赖1.4 编写测试代码1.5 执行后即可在resource路径下生成相应的HTML2. Maven 插件方式2.1 引入插件2.2 mvn执行命令2.3 idea直接执行2.4 执行结果需求在交付型项目中，往往需要大量的数据库设计文档的编写，手动写总有遗漏或者更新不及时的问题，一个项目可能设计到的表

2021-11-04 14:14:17 924

原创 Flink那件事儿

1. Flink好的博文https://github.com/zhisheng17/flink-learningflink中文网站：https://flink.apache.org/zh/flink-architecture.html2. Flink简介2.1 概念框架Apache Flink 是一个框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行，并能以内存速度和任意规模进行计算。Apache Flink 擅长处理无界和有界数据集精

2021-07-30 09:33:00 652

原创 Kafka复习

1. Kafka好的博文https://mp.weixin.qq.com/s/oFEv5c5zO7NAMA3YYB3CrQhttps://www.jianshu.com/p/e5c17cd5989bhttps://segmentfault.com/a/1190000038766024 kafkastream好的案例2. Apache Kafka简介Kafka is a distributed,partitioned,replicated commit logservice。Apache Kaf

2021-07-29 19:21:21 512 3

原创 Apache Kyuubi调研

Apache Kyuubi调研1. QuickStart1.1 下载安装启动1.2 打开连接1.3 执行语句1.4 停止服务1.5 用DBeaver进行连接1.6 用java的jdbc进行连接2. Kyuubi 高可用调研2.1 非HA模式下，使用内嵌Zookeeper2.2 Kyuubi高可用2.2.1 负载均衡2.2.2 配置2.2.3 AQS1）SparkContext初始化失败**2）Zookeeper服务发现模式登陆报错**3. 概述3.1 架构3.1.1 架构概述3.1.2 统一接口3.1.3

2021-07-29 17:56:28 6856 1

原创 Hadoop定位问题日志跟踪

Hadoop定位问题日志跟踪1. 问题重塑进去需要在Hadoop集群上进行写磁盘的策略，由于hadoop两块数据磁盘大小不一致，导致运行时小盘容易被写满，导致yarn异常，为此需要修改磁盘策略为选择策略，想通过修改原始的RoundRobinVolumeChoosingPolicy策略为AvailableSpaceVolumeChoosingPolicy策略修改配置如下：<property> <name>dfs.datanode.fsdataset.volume.choos

2021-05-21 10:34:22 436

原创 HIVE跑个insert into select xxx 为什么CPU飙高

HIVE跑个insert into select xxx 为什么CPU飙高近期做一款数据湖的选型性能比对，发现跑个Hive的insert into select xxx做入库的性能测试时，想着按理map阶段都是从一张表里面读取数据对磁盘IO有压力而已，结果发现集群的cpu也伴随着比较高，我们来分析分析吧！执行HIVE SQL如下：跑完，发现磁盘IO与CPU都有一个峰值的高1. 现象展示这里磁盘能理解，hadoop hdfs这里采取了策略，最先开始的表数据激进在机器单机的某块盘上所以起初的Map

2021-05-19 15:43:45 1678

原创 Iceberg0.11与Spark3.0结合

Iceberg0.11与Spark3.0结合1.安装编译Iceberg0.11此处我下载的是Iceberg0.11.1版本需要提前安装gradle,iceberg的编译，此处使用的是gradle5.4.1版本wget https://downloads.gradle.org/distributions/gradle-5.4-bin.zipunzip -d /opt/gradle gradle-5.4-bin.zipvim /etc/profile# 加入下面的#GREDLEexport G

2021-05-13 16:56:50 965

原创 Jmeter下载与mysql简单操作

Jmeter下载与mysql简单操作1. Jmeter下载可以从官方地址直接下载最新版本的包http://jmeter.apache.org/download_jmeter.cgi此处示例中使用的5.4.1版本2. linux下安装Jmeter必须保证jdk是有安装的，此处不在展示解压下载下来的包tar zxvf apache-jmeter-5.4.1.tgzcd apache-jmeter-5.4.1/binchmod 777 jmeter.sh验证是可以使用的sh jmet

2021-05-08 18:23:52 272

原创 nmon和nmon analyser的网盘下载安装与使用

nmon和nmon analyser的网盘下载安装与使用nmon 工具可以为 AIX 和 Linux 性能专家提供监视和分析性能数据的功能，AIX是IBM的一个操作系统，相比于Linux，使用范围不算很广，因此我们重点讲下Linux下的nmon应用。Linux的nmon有自己的官方网站（http://nmon.sourceforge.net/）但是有时候打不开一、下载安装nmon1.1 下载下载nmon的二进制可运行文件nmon16e_mpginc.tar.gz链接： https://pan.b

2021-05-08 12:50:46 2450 4

原创开启防火墙下的大数据组件如何设置

大数据相关组件端口收集近期有需求需要关闭防火墙，但是大数据很多组件都需要对想要的收集端口并关闭防火墙后开放相应的端口。1. 大数据相关组件端口大数据组件端口k8s端口收集2. 用命令对防火墙进行开启，并开相应的端口待补充3. 进行相应的验证...

2021-04-23 16:56:21 357 2

原创 kafka源码阅读笔记（1）

Kafka源码阅读笔记1. Server启动流程/** * Start up API for bringing up a single instance of the Kafka server. * Instantiates the LogManager, the SocketServer and the request handlers - KafkaRequestHandlers */ def startup(): Unit = { try { info("

2021-04-16 15:46:08 522

原创 Apache Iceberg分享

apache IcebergApache Iceberg分享1. Iceberg概念与原理1.1 大数据的趋势1.2 Apache Iceberg的原理1.2.1 Iceberg原理简介1.2.2 Iceberg简介1.2.3 Iceberg中常用术语1.2.4 Iceberg优化点2. Iceberg实战2.1 安装2.2 读流程2.3 写流程Apache Iceberg分享1. Iceberg概念与原理1.1 大数据的趋势当前大数据发展的三大趋势：数据仓库往数据湖方向发展批处理往流式处理

2021-03-30 17:05:27 4589 2

原创【JAVA】junit 测试用例多并发

【JAVA】junit 测试用例多并发这两天有一个研发兄弟用测试用例写个多并发，但是测试用例一运行完程序就结束啦。完全没法debug,先开始以为哪里处理不当跑飞了，后面发现是就是没有让主线程停住。可以用断点在多线程后面停住或者让主线程睡眠多一些！也可以用CountDownLatch；来控制...

2020-12-04 20:43:39 416

原创 [JAVA] 获取一周前的当前时间

[Java] 获取一周前的当前时间long timeMillis = System.currentTimeMillis(); System.out.println(timeMillis); Calendar calendar = Calendar.getInstance(); calendar.setTime(new Date(timeMillis)); calendar.add(Calendar.DAY_OF_YEAR,

2020-12-04 15:18:02 760

原创单例模式的使用

单例模式的使用可以利用类加载的安全性（只初始化一次）比较简单也不用双锁import org.slf4j.Logger;import org.slf4j.LoggerFactory;public class MetaManager { private static final Logger LOG = LoggerFactory.getLogger(MetaManager.class); private static class Holder{ private st

2020-11-19 17:11:58 146

原创平台中HBase库数据量如何统计呢？

平台中HBase库数据量如何统计呢？1. 什么需求？2. 怎么做？2.1 弯路2.2 接坑3. HyperLogLog基数统计算法是什么？4. HLL验证5. 如何应用到需求中？这是一两年前的任务单了，来得比较突然，就是需要知道一下目前平台中数据总量（存储量和条数），每日新增数据量，表中字段有值率。哇，接到这个任务，感觉存储量直接看集群统计总容量就好，条数怎么整？下面我就针对HBase库中的条数，每日新增条数，字段个数来讲讲我们当年走过的弯路，填过的坑。1. 什么需求？统计每张HBase表的数

2020-08-21 20:45:01 3156

原创验证HBase新特性MOB并发读与写到底性能如何？

验证HBase新特性MOB并发读与写到底性能如何？1. HBase MOB是什么？2. 搭建环境并造数据3. 测试场景3.1 入库3.2 查询4. 测试结果有没有兄弟突然接到领导的任务是这样子的？“ 听说HBase 2.X 有个新特性MOB，你给咱测测他的性能。”然后给拨了几台物理机，什么多的描述都没了，此时让人真心想把笔与本子扔他脸上，来句老子不测！哎，谁让咱是拿人家工资，得听人家号令。遇到这种常见问题，本博主从解决问题的思路上给大家分享一下。1、先来看看什么是HBase MOB新特性，不然验

2020-08-21 15:24:11 1865 2

原创 Spark Broadcast中writeBlocks为啥put两次？

Spark Broadcast中writeBlocks为啥put两次？1 broadcast2 剖析putSingle与putBytes2.1 blockManager.putSinglememoryStore.putIteratorAsValuesmemoryStore.putIteratorAsBytesmemoryStore.putBytes3 总结有兄弟在看代码的时候发现一个现象，在TorrentBroadcast广播实现类中为啥wirteBlocks方法中会向BlockManager put两次

2020-07-23 20:03:31 1311

原创 SparkSQL并行执行多个Job的探索

SparkSQL并行执行多个Job的探索

2020-07-17 09:50:31 4406 9

美丽的毛毛草