自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wzy0623的专栏

数据库、数据仓库、大数据

原创 DBeaver连接hive、impala、phoenix、HAWQ、redis

目录 一、DBeaver简介 二、下载与安装 三、连接hive 四、连接impala 五、连接phoenix 六、连接HAWQ 七、连接redis 伴随着技术的不断发展与进步,我们会接触和使用越来越多的数据源。从经久不衰的MySQL、Oracle、SQLserver、DB2...

2020-06-15 11:38:17 334 0

原创 Kettle与Hadoop(九)提交Spark作业

实验目的: 配置Kettle向Spark集群提交作业。 实验环境: Spark History Server: 172.16.1.126 Spark Gateway: 172.16.1.124 172.16.1.125 172.16.1.126 172.16.1.127 PDI: 172.1...

2020-06-10 10:29:06 238 0

原创 Kettle与Hadoop(八)执行Oozie作业

1. 打开PDI,新建一个作业,如图1所示。 图1 2. 编辑'Oozie job executor'作业项,如图2所示。 图2 说明: CDH631是已经建好的Hadoop集群连接,参见“https://wxy0327.blog.csdn.net/art...

2020-06-09 10:12:55 166 0

原创 Kettle与Hadoop(七)执行Sqoop作业

目录 一、Sqoop export 二、Sqoop import 一、Sqoop export 1. 建立一个作业,将HDFS文件导出到MySQL数据库。 (1)打开PDI,新建一个作业,如图1所示。 图1 (2)编辑'Sqoop export'作业项,如图2...

2020-06-08 10:17:55 145 0

原创 Kettle与Hadoop(六)执行HiveQL语句

1. 建立hive表,导入原始数据,过程参考 https://blog.csdn.net/wzy0623/article/details/106471124#2.%20%E5%90%91Hive%E5%AF%BC%E5%85%A5%E6%95%B0%E6%8D%AE。 2. 建立一个作业,查询...

2020-06-04 10:20:05 132 0

原创 Kettle与Hadoop(五)执行MapReduce

目录 一、示例1——格式化原始web日志 1. 准备文件与目录 2. 建立一个用于Mapper的转换 3. 建立一个调用MapReduce步骤的作业,使用mapper转换,仅运行map作业。 4. 执行作业并验证输出 二、示例2——生成聚合数据集 1. 准备文件与目录 2. 建立一...

2020-06-02 15:16:14 150 0

原创 Kettle与Hadoop(四)导入导出Hadoop集群数据

目录 一、向Hadoop集群导入数据(Hadoop copy files) 1. 向HDFS导入数据 2. 向Hive导入数据 二、从Hadoop集群抽取数据 1. 把数据从HDFS抽取到RDBMS 2. 把数据从Hive抽取到RDBMS 参考: 一、向Hadoop集群导入数据(H...

2020-06-01 14:14:59 183 0

原创 Kettle与Hadoop(三)连接Hadoop

目录 一、环境说明 二、连接Hadoop集群 三、连接Hive 四、连接Impala 五、后续(建立MySQL数据库连接) Kettle可以与Hadoop协同工作。让我们从简单的开始,本文介绍如何配置Kettle访问Hadoop集群(HDFS、MapReduce、Zookeep...

2020-05-28 16:04:06 187 0

原创 Kettle与Hadoop(二)Kettle安装配置

目录 一、安装Java 二、安装Kettle 三、运行Kettle程序 1. 安装Linux图形环境 2. 安装配置VNC Server 3. 在客户端使用vncviewer连接系统 4. 执行spoon.sh 四、给Spoon创建一个桌面快捷启动方式 五、配置 1. 配置文件...

2020-05-28 10:36:06 262 0

原创 Kettle与Hadoop(一)Kettle简介

目录 一、Kettle设计原则 二、转换 1. 步骤 2. 转换的跳 3. 并行 4. 数据行 5. 数据转换 (1)Date和String的转换 (2)Numeric和String的转换 (3)其它转换 三、作业 1. 作业项 2. 作业跳 3. 多路径和回溯 4....

2020-05-26 14:59:08 158 0

原创 Kettle工具——Spoon、Kitchen、Pan、Carte

目录 1. Spoon 2. Kitchen和Pan (1)命令行参数 (2)例子 3. Carte Kettle里有不同的工具,用于ETL的不同阶段。主要工具如下: Spoon:图形化工具,用于快速设计和维护复杂的ETL工作流。 Kitchen:运行作业的命令行工具。 ...

2020-05-25 10:39:42 122 0

原创 Kettle数据库连接中的集群与分片

目录 1. 在数据库连接中使用集群 2. 创建数据库分区schemas 3. 启用数据库分区 4. 例子 (1)将三个mysql实例的数据导入到另一个mysql实例 (2)将一个mysql实例的数据分发到三个mysql实例 (3)将三个mysql实例的数据导入到另三个mysql实例 ...

2020-05-21 17:22:49 148 0

原创 彻底搞清 Kettle 数据分发方式与多线程

Kettle转换中,各步骤之间行集(row set)的发送有分发和复制两种方式,本文讨论这两种方式的区别,以及它们与Kettle多线程的关系。我们用一个简单的例子辅助说明,Kettle版本为8.3。定义一个转换,以t1表作为输入,输出到表t2和t3。t1表中有1-10十个整数。当创建第二个跳(ho...

2020-05-20 16:58:50 292 0

原创 phoenix中日期与时间戳的相关转换

日期转时间戳: select to_char(to_number(to_date('2020-03-01','yyyy-MM-dd','GMT+8'))/1000,'##########'); 时间戳转日期: ...

2020-04-24 13:51:40 541 0

原创 使用MySQL的rlike判断字符串是否匹配

问题提出: 表user_experience_wealth_log改名为user_experience_wealth_log_new,该表涉及若干存储过程。为了避免遗漏,需要确认所有相关过程都做了修改,验证方法为不存在包含user_experience_wealth_log的存储过程。 问题分...

2020-04-24 09:00:57 311 0

原创 求二进制中1的个数之——HAKMEM算法

问题很简单,求一个整数的二进制中1的个数。 方案一: select @i:= 50 i,@i_bin:=bin(@i) i_bin, length(@i_bin)-length(replace(@i_bin,'1','')) len_1; 方案二: ...

2020-04-16 09:32:46 117 1

原创 MySQL找出未提交事务的信息

目录 一、processlist中的未提交事务 二、information_schema.innodb_trx中的未提交事务 三、performance_schema.events_statements_current中的未提交事务 参考: 我们经常会碰到这样的情况,某个事务执行...

2020-03-28 08:14:05 212 0

原创 redis手工分片

目录 一、redis环境 二、redis手工分片步骤 1. 配置级联复制 2. 去掉老哨兵监控 3. 停止新实例从老实例的复制 4. 添加新哨兵监控 5. 重启新哨兵 6. 添加老哨兵监控 7. 重启老哨兵 随着数据量越来越大,一个redis实例可能需要分成多个以形成数...

2020-03-25 05:43:38 190 0

原创 在CDH 6.3.1上安装HAWQ 2.4.0

目录 一、安装环境 二、选择HAWQ主机 三、安装前准备 1. 建立gpadmin用户和HAWQ主目录 2. 创建HAWQ的本地数据目录 3. 安装依赖包 三、安装HAWQ 1. 下载安装包 2. 解压并安装 四、配置HAWQ 1. 创建HAWQ的HDFS数据目录 2. 修...

2020-03-13 17:41:38 443 1

原创 定期全备redis

首先申明我的观点,redis本身只是缓存,不适合作为数据库使用,有说微博就是拿redis当DB用的,自己去证实吧。如果非要拿redis当数据库,就不得不考虑数据丢失问题,这里讨论两种常见的可能造成数据丢失的情况。 第一种情况是redis实例或所在主机宕机,这可以通过复制来解决,再配以re...

2020-03-12 07:18:22 346 0

原创 CDH 6.3.1整合Zeppelin 0.8.2

Zeppelin是一个基于Web的笔记本,可以直接在浏览器中编写代码,对数据进行查询分析并生成报表或图表,做出数据驱动的、交互、协作的文档,并且可以共享笔记。Zeppelin提供了内置的Apache Spark集成,提供的功能有: 自动引入SparkContext 和 SQLContext 从...

2020-03-11 11:12:22 453 0

原创 在CDH 6.3中安装Phoenix服务

目录 一、下载并安装Phoenix parcel 二、安装CSD文件 三、在Cloudera Manager中添加Phoenix服务(前提是已经安装了HBase服务) 四、配置HBase以用于Phoenix 五、验证Phoenix安装 参考: 一、下载并安装Phoenix parce...

2020-03-10 08:04:44 1077 2

原创 用NC或rsync传文件和目录

目标机(172.16.1.125): nc -l 12345 | tar zxvf - 源机(172.16.1.124): tar cfz - * | nc 172.16.1.125 12345

2020-03-02 18:02:26 200 0

转载 MySQL百万级数据高效导入Redis

DBAplus社群今天 以下文章来源于侠梦的开发笔记,作者侠梦 前言 随着系统的运行,数据量变得越来越大,单纯的将数据存储在MySQL中,已然不能满足查询要求了,此时我们引入Redis作为查询的缓存层,将业务中的热数据保存到Redis,扩展传统关系型数据库的服务能力,用户通过应用直接从Red...

2020-03-02 16:16:50 396 0

原创 Galera Cluster for MySQL 详解(五)——负载均衡

Galera负载均衡器(Galera Load Balancer,GLB)为客户端请求提供了一个简单的TCP连接平衡功能,其与Galera Cluster的关系类似于MySQL Router之于组复制。它从另一个轻量级负载均衡器Pen中汲取灵感,开发考虑了可伸缩性和性能,但仅限于平衡TCP连接。G...

2020-02-29 14:50:18 392 0

原创 获取MySQL历史session

MySQL的show processlist命令可以显示当时的会话情况,但很多时候都需要查看出问题当时的状态,可惜MySQL没有提供类似history session这样的功能。于是为了方便问题排查,自己写了一个非常简单的抓取MySQL现场session的脚本,生产数据库已经用了很长时间,感觉对t...

2020-02-27 07:07:45 346 0

原创 批量取redis key/value和批量删除key

需求:取出所有前缀为g.at.ga.的string类型的key及其value 实现: 1. 取出key redis-cli -p 26379 -a 123456 -n 0 keys g.at.ga.* > a.txt 2. 拼出取value的命令 sed 's/^/get &...

2020-01-23 07:38:55 1657 1

转载 为什么 redis 单线程却能支撑高并发

redis 和 memcached 有什么区别?redis 的线程模型是什么?为什么 redis 单线程却能支撑高并发? 这个是问 redis 的时候,最基本的问题吧,redis 最基本的一个内部原理和特点,就是 redis 实际上是个单线程工作模型,你要是这个都不知道,那后面玩儿 redi...

2020-01-16 09:18:50 250 0

原创 MySQL高可用之DRBD

目录 一、DRBD简介 1. 工作原理 2. DRBD 支持的底层设备 3. DRBD资源 4. DRBD 配置工具 5. DRBD与RAID1区别 6. DRBD与共享存储 二、DRBD安装配置 1. 实验环境 2. 配置前准备 3. 下载安装DRBD 4. 配置DRBD...

2019-11-14 17:24:33 2678 0

原创 一键式完全删除CDH 6.3.1

CDH集群的安装部署虽然步骤比较多,但只要严格按照文档操作,一般不会有太大问题。然而,如果安装过程中出错,或因为其它原因需要重新安装CDH,在不重装操作系统的前提下,是比较困难的。难点在于需要删除的东西太多,不删干净了非常容易造成安装失败。网上找的所谓“CDH完全卸载”其实都不够完全。经过一天的反...

2019-11-07 06:03:02 738 1

原创 Galera Cluster for MySQL 详解(四)——性能测试

目录 一、测试目标 二、测试规划 三、测试过程 1. 缺省配置 2. 多线程 3. 流控 四、测试结论 参考: 本篇使用tpcc-mysql压测工具对实验环境的三节点Galera集群进行一系列性能测试。 一、测试目标 验证Galera的同步复制,检查是否存在复制延迟。...

2019-10-31 16:29:05 684 0

原创 Galera Cluster for MySQL 详解(三)——管理监控

目录 一、管理 1. 在线DDL (1)TOI (2)RSU (3)pt-online-schema-change 2. 恢复主组件 (1)了解主组件状态 (2)修改保存的主组件状态 3. 重置仲裁 (1)查找最高级的节点 (2)重置仲裁 (3)自动引导 (4)手动引导 ...

2019-10-30 15:29:01 1393 0

原创 Galera Cluster for MySQL 详解(二)——安装配置

目录 一、Galera集群实验环境 二、初始安装 1. 安装galera-3、mysql-wsrep-5.7、Percona-XtraBackup-2.4.15 2. 修改配置文件 3. 初始化集群 4. 启动集群其它节点的mysqld服务 5. 验证安装 6. 问题排查 三、使...

2019-10-17 15:24:47 1382 2

原创 Galera Cluster for MySQL 详解(一)——基本原理

目录 一、同步复制 二、Galera复制架构 1. wsrep api 2. 全局事务ID(global transaction id,GTID) 3. Galera复制插件 4. 组通信插件 三、Galera复制工作原理 四、状态转移 1. 状态快照传输 2. 增量状态转移 ...

2019-10-12 17:49:34 6461 0

原创 快速安全删除MySQL大表

目录 一、表删除过程 1. buffer pool清除 2. 删除表相关的磁盘文件 二、创建硬链接 三、删除表 四、删除文件释放空间 参考: 在一个高负载的生产数据库上删除大表需要一些技巧,倘若直接drop table,将产生大量磁盘I/O,严重的会卡库,这是高可用服务所不...

2019-10-07 18:33:58 1456 4

原创 InnoDB Cluster详解

目录 一、InnoDB Cluster简介 1. 整体架构 2. MySQL Shell 3. MySQL Router 4. MySQL服务器集群 二、创建InnoDB Cluster 1. 检查实例配置 2. 配置实例 3. 创建集群 4. 向集群添加实例 5. 查看集群...

2019-09-12 18:42:00 3625 0

原创 MySQL Router 8 详解

目录 一、功能介绍 1. 透明路由 2. 元数据缓存 3. 简单重定向 4. MySQL Router 8.0的新特性 二、安装与启动 1. 安装 2. 启动 三、配置 1. 配置文件位置 2. 配置文件语法 3. 配置文件示例 MySQL Router最早是作为...

2019-09-03 15:35:32 5086 4

原创 重叠时间段问题优化算法详解

目录 一、问题提出 1. 描述 2. 分析 二、优化重叠查询 1. 自关联 2. 游标+内存临时表 三、改进取得活跃时段的算法 1. 最小范围算法(表连接) 2. 正负计数器算法(一次扫描) 四、MySQL 8的单条查询解决方案 一、问题提出 1. 描述 这是一个...

2019-08-26 09:59:42 1444 0

原创 将MySQL去重操作优化到极致

目录 一、巧用索引与变量 1. 无索引对比测试 (1)使用相关子查询 (2)使用表连接 (3)使用变量 2. 建立created_time和item_name上的联合索引对比测试 (1)使用相关子查询 (2)使用表连接 (3)使用变量 (4)使用变量,并且消除嵌套查询 二、利...

2019-07-31 15:04:11 9271 16

原创 快速生成数字辅助表

数字辅助表只有一个整数列,包含从1到N个整数序列值,N通常很大。对MySQL来讲,数字辅助表是一个强大的工具,编写SQL语句时经常用数据表与数字辅助表做笛卡尔积来创建额外的行。建议创建一个持久的数据辅助表,并根据需要填充一定数据量的值。 实际上如何填充数字辅助表无关紧要,因为只需要运行这个过...

2019-07-31 10:08:53 382 0

提示
确定要删除当前文章?
取消 删除