![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
静哥哥~
这个作者很懒,什么都没留下…
展开
-
DataHub调研&数据血缘
在DataHub中可以通过GraphQL API轻松的创建和添加任何实体标签,这样随着时间的推移,实体的属性回越来越丰富。当有一天我们想要查看某一标签的相关实体信息时,只需要在标签位置点击该标签,就会将所有相关的实体数据 列出来。原创 2023-04-04 14:16:39 · 5414 阅读 · 1 评论 -
Flink那件事儿
1. Flink好的博文https://github.com/zhisheng17/flink-learningflink中文网站:https://flink.apache.org/zh/flink-architecture.html2. Flink简介2.1 概念框架Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。Apache Flink 擅长处理无界和有界数据集 精原创 2021-07-30 09:33:00 · 416 阅读 · 1 评论 -
Kafka复习
1. Kafka好的博文https://mp.weixin.qq.com/s/oFEv5c5zO7NAMA3YYB3CrQhttps://www.jianshu.com/p/e5c17cd5989bhttps://segmentfault.com/a/1190000038766024 kafkastream好的案例2. Apache Kafka简介Kafka is a distributed,partitioned,replicated commit logservice。Apache Kaf原创 2021-07-29 19:21:21 · 378 阅读 · 3 评论 -
Apache Kyuubi调研
Apache Kyuubi调研1. QuickStart1.1 下载安装启动1.2 打开连接1.3 执行语句1.4 停止服务1.5 用DBeaver进行连接1.6 用java的jdbc进行连接2. Kyuubi 高可用调研2.1 非HA模式下,使用内嵌Zookeeper2.2 Kyuubi高可用2.2.1 负载均衡2.2.2 配置2.2.3 AQS1)SparkContext初始化失败**2)Zookeeper服务发现模式登陆报错**3. 概述3.1 架构3.1.1 架构概述3.1.2 统一接口3.1.3原创 2021-07-29 17:56:28 · 6013 阅读 · 1 评论 -
Hadoop定位问题日志跟踪
Hadoop定位问题日志跟踪1. 问题重塑进去需要在Hadoop集群上进行写磁盘的策略,由于hadoop两块数据磁盘大小不一致,导致运行时小盘容易被写满,导致yarn异常,为此需要修改磁盘策略为选择策略,想通过修改原始的RoundRobinVolumeChoosingPolicy策略为AvailableSpaceVolumeChoosingPolicy策略修改配置如下:<property> <name>dfs.datanode.fsdataset.volume.choos原创 2021-05-21 10:34:22 · 323 阅读 · 0 评论 -
HIVE跑个insert into select xxx 为什么CPU飙高
HIVE跑个insert into select xxx 为什么CPU飙高近期做一款数据湖的选型性能比对,发现跑个Hive的insert into select xxx做入库的性能测试时,想着按理map阶段都是从一张表里面读取数据对磁盘IO有压力而已,结果发现集群的cpu也伴随着比较高,我们来分析分析吧!执行HIVE SQL如下:跑完,发现磁盘IO与CPU都有一个峰值的高1. 现象展示这里磁盘能理解,hadoop hdfs这里采取了策略,最先开始的表数据激进在机器单机的某块盘上所以起初的Map原创 2021-05-19 15:43:45 · 1473 阅读 · 0 评论 -
开启防火墙下的大数据组件如何设置
大数据相关组件端口收集近期有需求需要关闭防火墙,但是大数据很多组件都需要对想要的收集端口并关闭防火墙后开放相应的端口。1. 大数据相关组件端口大数据组件端口k8s端口收集2. 用命令对防火墙进行开启,并开相应的端口待补充3. 进行相应的验证...原创 2021-04-23 16:56:21 · 239 阅读 · 2 评论 -
kafka源码阅读笔记(1)
Kafka源码阅读笔记1. Server启动流程/** * Start up API for bringing up a single instance of the Kafka server. * Instantiates the LogManager, the SocketServer and the request handlers - KafkaRequestHandlers */ def startup(): Unit = { try { info("原创 2021-04-16 15:46:08 · 419 阅读 · 0 评论