自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yang灬仔

低调的写文章!

  • 博客(12)
  • 资源 (8)
  • 收藏
  • 关注

原创 Flink 作业的问题定位

Flink 作业的问题定位1.问题定位口诀“一压二查三指标,延迟吞吐是核心。时刻关注资源量 , 排查首先看GC。”一压是指背压,遇到问题先看背压的情况,二查就是指 checkpoint ,对齐数据的时间是否很长,state 是否很大,这些都是和系统吞吐密切相关的,三指标就是指 Flink UI 那块的一些展示,我们的主要关注点其实就是延迟和吞吐,系统资源,还有就是 GC logs。 看反压 :通常最后一个被压高的 subTask 的下游就是 job 的瓶颈之一。 看 Checkp

2021-04-29 11:42:17 336

原创 Flink checkpoint 优化

Checkpoint 调优1.什么是 checkpoint 简单地说就是 Flink 为了达到容错和 exactly-once 语义的功能,定期把 state 持久化下来,而这一持久化的过程就叫做 checkpoint ,它是 Flink Job 在某一时刻全局状态的快照。当我们要对分布式系统实现一个全局状态保留的功能时,传统方案会引入一个统一时钟,通过分布式系统中的 master 节点广播出去给每一个 slaves 节点,当节点接收到这个统一时钟时,它们就记录下自己当前的状态即可。但是统一

2021-04-29 11:40:14 406

原创 hive on spark 部署

1. 环境Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. tez, spark) or using Hive 1.X releaseshive默认使用mr作为计算引擎,当进入cli时会看到以上的提示信息,刚好有hive2.1.0,查了下pom文件,依赖了spark1.6.0,版本

2021-04-29 11:33:15 2593

原创 Flink优化总结

Flink优化总结配置内存操作场景Flink是依赖内存计算,计算过程中内存不够对Flink的执行效率影响很大。可以通过监控GC(Garbage Collection),评估内存使用及剩余情况来判断内存是否变成性能瓶颈,并根据情况优化。监控节点进程的YARN的Container GC日志,如果频繁出现Full GC,需要优化GC。GC的配置:在客户端的"conf/flink-conf.yaml"配置文件中,在“env.java.opts”配置项中添加参数:-Xloggc:<LO

2021-04-29 11:27:26 1577

原创 Flink1.12.1 通过Table API / Flink SQL读取HBase2.4.0

1. 环境废话不多说,这里用到的环境如下(不确定是否都必要,但是至少我是这个环境) zookeeper 3.6.2 Hbase 2.4.0 Flink 1.12.1 2. HBase表# 创建表create 'u_m_01' , 'u_m_r'# 插入数据put 'u_m_01', 'a,A', 'u_m_r:r' , '1'put 'u_m_01', 'a,B', 'u_m_r:r' , '3'put 'u_m_01', 'b,B', 'u_m_r:r'

2021-04-23 21:01:24 846

原创 Kafka Manager集群管理工具部署安装

一、kafka-manager 简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager。这个管理工具可以很容易地发现分布在集群中的哪些topic分布不均匀,或者是分区在整个集群分布不均匀的的情况。它支持管理多个集群、选择副本、副本重新分配以及创建Topic。同时,这个管理工具也是一个非常好的可以快速浏览这个集群的工具,有如下功能:1.管理多个kafka集群2.便捷的检查kafka集群状态(t...

2021-04-21 11:15:19 279

原创 Kafka的集群生产部署方案

方案背景:假设每天集群需要承载10亿数据。一天24小时,晚上12点到凌晨8点几乎没多少数据。使用二八法则估计,也就是80%的数据(8亿)会在16个小时涌入,而且8亿的80%的数据(6.4亿)会在这16个小时的20%时间(3小时)涌入。QPS计算公式:640000000 ÷ (3x60x60) = 60000,也就是说高峰期的时候Kafka集群要扛住每秒6万的并发。磁盘空间计算,每天10亿数据,每条50kb,也就是46T的数据。保存2个副本(在上一篇中也提到过其实两个副本会比较好,因为followe.

2021-04-21 11:08:07 1052

原创 flume事务和进阶

1.概述flume是高可用,高可靠的,分布式的海量日志采集、聚合和传输的系统。2.flume的作用用户行为日志通过前端平台存储到logservice中,通过flume的实时采集发过来的信息,然后发送到大数据平台上3.flume架构日志源-->source-->channel-->sink-->HDFSagent:就是一个JVM的进程,里面包含source,channel,sinksource:采集或读取日志的组件,不同的数据源使用不同的sourc

2021-04-17 16:53:36 1131 1

原创 hive中sql 转换成 mapreduce 过程

说明:当启动MapReduce程序时,Hive本身是不会生成MapReduce算法程序的需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生的Mapper和Reducer模块Hive通过和JobTracker通信来初始化MapReduce任务,不必直接部署在JobTracker所在的管理节点上执行通常在大型集群上,会有专门的网关机来部署Hive工具。网关机的作用主要是远程操作和管理节点上的JobTracker通信来执行任务数据文件通常存储在HDFS上,HDFS由名称节点管理...

2021-04-17 15:51:21 937

原创 eclipse 访问http://localhost:8080 报404解决方案

eclipse中tomcat启动成功,但http://localhost:8080无法访问【问题描述】 tomcat在eclipse里面能正常启动,而在浏览器中访问http://localhost:8080/不能访问,且报404错误。同时其他项目页面也不能访问。 关闭eclipse里面的tomcat,在tomcat安装目录下双击startup.bat手动启动tomcat服务器。访问htt://localhost:8080/能正常访问tomcat管理页面。【问题原因】...

2021-04-13 11:09:05 4702 2

原创 Hive中Hleft semi join和inner join、left join、right join、full join区别

Hive中Hleft semi join和inner join、left join、right join、full join区别Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。sql中的连接查询有inner join(内连接)、left join(左连接)、right join(右连接)、full join(全连接)left semi join(左半连接)五种方式,它们之间其实并

2021-04-11 21:55:19 2008

原创 Flink 的广播变量

Flink 支持广播变量,就是将数据广播到具体的 taskmanager 上,数据存储在内存中,这样可以减缓大量的 shuffle 操作;比如在数据 join 阶段,不可避免的就是大量的 shuffle 操作,我们可以把其中一个 dataSet 广播出去,一直加载到 taskManager 的内存中,可以直接在内存中拿数据,避免了大量的 shuffle,导致集群性能下降;广播变量创建后,它可以运行在集群中的任何 function 上,而不需要多次传递给集群节点。另外需要记住,不应该修改广播变量,这样

2021-04-06 15:45:58 280

由于找不到VCRUNTIME140_1.dll,无法继续执行代码

初始化mysql数据库,运行命令 mysqld --initialize --console 报错,错误信息是:由于找不到VCRUNTIME140_1.dll,无法继续执行代码,重新安装程序可能会解决此问题。发生这个错误是,可以下载文件微软常用运行库合集,安装运行后,即可成功执行上面的代码了

2020-10-04

springboot整合neo4j完整demo

springboot集成neo4j图数据库,使用java语言连接数据库mysql和neo4j,实现将mysql数据插入neo4j中。 实现的功能有对neo4j数据进行统计分析、关系遍历增删改查等 。并且使用d3对查询结果数据进行页面展示!

2020-08-31

snmpb-0.8 安装包【开源的MIB浏览器】

SNMPB安装包资源下载,这个软件用于SNMPB安装和测试,学习SNMP很好用,尤其是使用SNMP4J的时候,运维人员基本都要使用,安装简单易用。下载方便

2020-08-31

SSM+Echarts实现动态可视化.7z

代码使用SSM框架和Echarts结合实现的读取mysql数据库的数据来实现动态可视化,可视化实现了多张图表,语句完整,导入就可使用运行。

2020-03-06

Apsara Clouder基础技能认证:阿里巴巴编码规范相关问题总结.zip

Apsara Clouder基础技能认证:阿里巴巴编码规范手册-java, 本文档找到90%以上的java 认证试题,放心下载,一次通过。

2020-03-06

Activity5全面使用手册.zip

Activity5 开发使用手册,文档包含了ssh集成Activity5的方法 文档、html文档 和 word文档,可全面学习使用

2019-07-29

大鱼吃小鱼 U3D C#

unity制作的大鱼吃小鱼游戏,供学习使用。功能挺完善的

2018-07-05

spring 整合 neo4j

代码中描述了使用spring如何连接neo4j 以及如何使用spring data 还整合了redis,尽情的学习吧,spring整合 neo4j!

2017-08-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除