自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhiwen

发布的文章属于个人学习笔记,仅供参考.

  • 博客(58)
  • 收藏
  • 关注

原创 平台目录树结构开发

介绍:给平台开发一个全局的系统目录树结构,可根据不同的目录属性自定义目录主类 目录的增删改查@Service@Slf4jpublic class CatalogServiceImpl extends ServiceImpl<CatalogMapper, Catalog> implements CatalogService { @Resource private CatalogMapper catalogMapper; private final int LE

2020-05-19 16:39:09 279

原创 数据质量SQL

–聚合函数select MAX(a.c) maxs,MIN(a.c) mins,SUM(a.c) sums,AVG(a.c) avgs,VAR_POP(a.c) pops from (select name as c from woker) a;–字段重复数select max(a.c) repeats from (select COUNT(1) as c from woker GROUP BY slary) a;–字段空值数select COUNT(1) nulls from bigdata.w

2020-05-18 18:55:32 1355

原创 Kafka命令-生产者-消费者

 查看当前服务器中的所有 topicbin/kafka-topics.sh --list --zookeeper zk01:2181 创建 topicbin/kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 1 --topic test 删除 topicbin/kafka-topics.sh --delete --zookeeper zk01:2181 --topic test

2020-05-16 19:00:30 1817

原创 什么是Kafka-分布式消息队列

什么是消息队列?消息队列是位于生产者和消费者之间的"中间件".概念Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 Kafka 最初是由 LinkedIn 开发,并于 2011 年初开源。2012 年 10 月从 Apache Incubator 毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的平台。 Kafka 是一个分布式消息队列:生产者、消费者

2020-05-16 18:52:44 377

原创 docker中容器分配内存不足

[achilles-0.0.0.0-7085] 2020-03-27 15:20:45.062 INFO 1 [flink-akka.actor.default-dispatcher-2] org.apache.flink.runtime.resourcemanager.StandaloneResourceManager Request slot with profile ResourceProfile{cpuCores=0.0, heapMemoryInMB=0, directMemoryInMB=0,

2020-05-16 17:42:37 1746

转载 Blink SQL介绍

阿里团队在flink 的基础上开发了blink,从而支持flink(blink)全SQL开发流式程序发展历程在 Flink 1.9 中,Table 模块迎来了核心架构的升级,引入了阿里巴巴Blink团队贡献的诸多功能,本文对Table 模块的架构进行梳理并介绍如何使用 Blink Planner。Flink 的 Table 模块 包括 Table API 和 SQL,Table API 是一种类SQL的API,通过Table API,用户可以像操作表一样操作数据,非常直观和方便;SQL作为一种声明

2020-05-16 17:41:32 2187

原创 Flink 应用场景

先来看看Flink是什么:看一下百度百科我的理解,同样也是分布式计算引擎,大数据童鞋都知道,大数据处理就是分布式存储和分布式计算,flink用来作大数据的流式计算.可归为四大模块:实时数据存储实时数据存储的时候做一些微聚合、过滤某些字段、数据脱敏,组建数据仓库,实时 ETL。实时数据分析实时数据接入机器学习框架(TensorFlow)或者一些算法进行数据建模、分析,然后动态的给出商品推荐、广告推荐实时监控告警金融相关涉及交易、实时风控、车流量预警、服务器监控告警、应用日志告警实时数据

2020-05-16 17:30:59 1393

原创 State backend(Checkpoint 的存储的位置)

Checkpoint 的存储的位置取决于配置的 State backend(JobManager 内存,文件系统,数据库…)。默认情况下,State 存储在 TaskManager 内存中,Checkpoint 存储在 JobManager 内存中。Flink 支持在其他 state backend 中存储 State 和 Checkpoint。可以通过如下方法配置:StreamExecutionEnvironment.setStateBackend(…)Flink 提供了不同的 State backe

2020-05-16 17:17:35 1932

转载 Flink 并行度 slot

Flink Worker与Slotsworker每一个worker(TaskManager)是一个JVM进程,它可能会在独立的线程上执行一个或多个subtask。slots为了控制一个worker能接收多少个task,worker通过task slot来进行控制(一个worker至少有一个task slot)。·每个task slot表示TaskManager拥有资源的一个固定大小的子集。假如一个TaskManager有三个slot,那么它会将其管理的内存分成三份给各个slot。资源slot化意味

2020-05-16 17:05:13 335

原创 Flink SQL语法检查

可以直接调用flink自己的sql 解析包/** * 解析 flink sql 语句 * * @param sql * @return */public static void parseSql(String sql) throws Exception { SqlParser parser = SqlParser.create(sql, SqlParser.configBuilder() .setParserFactory(FlinkSqlParserImpl.

2020-05-16 16:58:54 2052 1

原创 Canal-Mysql数据同步工具

官方介绍阿里巴巴 MySQL binlog 增量订阅&消费组件canal 主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。基于日志增量订阅和消费的业务包括数据库镜像数据库实时备份索引构建和实时维护(拆分异构索引、倒排索引等)业务

2020-05-12 18:09:40 744

原创 Linux连接MYSQL

连接MYSQL:格式: mysql -h主机地址 -u用户名 -p用户密码1、例1:连接到本机上的MYSQL找到mysql的安装目录,一般可以直接键入命令mysql -uroot -p,回车后提示你输密码,如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进入到MYSQL中了,MYSQL的提示符是:mysql>2、连接到远程主机上的MYSQL假设远程主机的IP为:10.0.0.1,用户名为root,密码为123。则键入以下命令:mysql -h10.0.0.1 -uro

2020-05-10 18:00:49 326

原创 Hive常用语法收录

可以说hive就是一个MapReduce的客户端,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能后台启动nohup bin/hive --service hiveserver2 &nohup bin/hive --service metastore &1bin/beelinebeeline> !connect jdbc:hive2://node03:10000创建数据库1.数据默认路径(hdfs)create database if not exis

2020-05-10 17:59:58 117

原创 HBase的rowkey的设计原则

HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有两种方式:1、通过get方式,指定rowkey获取唯一一条记录2、通过scan方式,设置startRow和stopRow参数进行范围匹配3、全表扫描,即直接扫描整张表中所有行记录rowkey长度原则:rowkey是一个二进制

2020-05-10 17:58:09 465

原创 Hive元数据库下表说明

记录背景:工作中要对HIVE的元数据进行监控,对Hive的元数据调研过程中了解到一些,在此记录:Hive的元数据一般都会存在MySQL,下面是我对mysql里hive库下各数据表的分析:数据库相关的表 DBS该表存储Hive中所有数据库的基本信息,字段如下:元数据表字段 说明 示例数据DB_ID 数据库ID 2DESC 数据库描述 测试库DB_LOCATION_URI 数据库HDFS路径 hdfs://namenode/user/hive/warehouse/lxw1234.dbNAME

2020-05-10 17:56:56 363

原创 大数据中常见的默认端口

Hadoop:50070:HDFS WEB UI端口8020 : 高可用的HDFS RPC端口9000 : 非高可用的HDFS RPC端口8088 : Yarn 的WEB UI 接口8485 : JournalNode 的RPC端口8019 : ZKFC端口19888 :jobhistory WEB UI端口Zookeeper:2181 : 客户端连接zookeeper的端口2888 : zookeeper集群内通讯使用,Leader监听此端口3888 : zookeeper端口 用于

2020-05-10 17:46:09 266

原创 服务器硬件查看

cat /proc/cpuinfo 查看cpufree -m 查看内存fdisk -l查看硬盘分区df -h 查看挂载目录ifconfig查看网卡信息ethtool eth0查看详西的网卡工作模式lspic列出所有芯片信息lsblk命令可以列出所有可用块设备的信息,比如我们说的逻辑磁盘,默认情况下将以树状列出所有块设备[root@server01 opt]# lsblkNAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINTsda 8:0 0

2020-05-10 17:44:13 169

原创 YARN应该了解什么

#YARN的背景

2020-05-10 17:34:07 179

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除