自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 sqoop将mysql的表导入导入到Hive

sqoop import –connect jdbc:mysql://192.168.11.200:3308/ls365_article_datafull_20191209 –username root –password 123asd –table articletable –target-dir /user/hive/warehouse/sqoop –delete-target-...

2020-03-26 18:03:31 284

原创 Hive性能优化配置

hive.fetch.task.conversion=more默认值是minimal,就是说默认查询都要经过mr。但是一些简单查询比如没有函数、没有order by的,就没必要mr,所以设置为more可以直接查询文件。hive.exec.mode.local.auto=true这个参数叫做本地模式,就是对于小数据集没必要提交到集群。满足以下3个条件的查询job,是没必要提交到集群运行的,可...

2020-03-26 18:02:56 419

原创 Mongodb replset+sharding

一、总体架构一共三个分片,每个分片是一个副本集,每个副本集包含一主一副一仲裁。其中:第一个分片叫shard1,4.31作为主节点;第二个分片叫shard2,4.161作为主节点;第二个分片叫shard2,4.166作为主节点;任一一台机器挂掉,都能在另外两台机器上找到副本,同时写入被分散开来。但注意:超过一台机器挂掉,数据无法恢复。Mongos为路由节点,每台机器都有Confi...

2020-03-26 18:02:19 335

原创 Docker 安装 PgSQL

vi docker_pg.ymldocker-compose -f docker_pg.yml upversion: ‘3.1’services:db:image: postgres:11restart: alwaysenvironment:POSTGRES_PASSWORD: 123asdadminer:image: adminerrestart: alwaysport...

2020-03-26 18:01:30 977

原创 PGSQL规则系统

规则系统又叫查询重写规则系统,位于查询分析器和优化器之间.输入:分析器的输出(是一个querytree)+ pg_rewrite 表里的重写规则(也是一个querytree)输出:若干个querytree作用:修改查询以后再传递给优化器。可以用在Procedure、View和版本中。Querytree(查询树)是什么它是一个 SQL 语句的内部表现形式,这时组成该SQL语句的每个部分都是...

2020-03-26 18:00:41 363

原创 安装Hue作为Hive的GUI

几个月没有用hive了,感觉有点生疏了,赶紧捡回来。新公司的hadoop版本是:来到新公司,在已有的服务器上发现了hadoop相关的组件,输入hive和hbaseshell居然还能正常登入。嘿嘿,肯定装过hadoop。那我就去找找hadoop装在哪里的。这个好办,随便找找hive/hbase这些进程的执行路径,顺藤摸瓜就能找到hadoop的配置文件所在目录了。cat yarn.xml...

2020-03-26 17:59:59 879

原创 对Raft的简要理解

共识算法目的:实现分布式环境中的强一致性。##基本概念每个节点有三个状态:1.Follower:从2.Candidate:参选3.Leader:主和一个倒计时:Election Timeout(时间随机)在以下两种情况下会重设:1.收到Election请求2.收到Leader的Heartbeat##首先选举Leader###正常情况当A节点的Election Timeout...

2020-03-26 17:58:56 140

原创 用Airflow调度数仓(CK)的ETL脚本

#安装前提:安装了python,我这里是python3下载按照官网:pip3 install apache-airflow包太多,下载太慢改为清华的镜像:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple apache-airflow又有包找不到最后用豆瓣的镜像(注意要加trusted):pip3 install a...

2020-03-26 17:58:11 925

原创 Ubuntu上安装docker

1.更新apt包索引:sudo apt update #这一步可能会报错, 参考遇到的问题2.通过HTTPS使用仓库(repository)安装:sudo apt install apt-transport-https ca-certificates curl software-properties-common3.在/etc/apt/sources.list.d/dock...

2020-03-26 17:55:44 161

原创 修改centos时区

date可以看到比当前时间早8个小时,执行以下操作:ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime时间恢复正常。附:#通过阿里云时间服务器校准时间yum -y install ntpntpdate ntp1.aliyun.com...

2020-03-26 17:55:03 128

原创 制作镜像(含centos上docker安装)

------------------------------------预备:安装docker-ce------------------------------------------------------1、安装依赖docker依赖于系统的一些必要的工具,可以提前安装。yum install -y yum-utils device-mapper-persistent-data lvm2...

2020-03-26 17:53:36 585

原创 the input device is not a TTY

想完成一个功能,把宿主机的文件压缩以后传输到docker内再解压缩:[root@localhost pyrds]# cat ./pkg_py_to_docker.sh #! /usr/bin/bashdockername=$1tar -zcvf rds_autobackup.tar.gz ./rds_autobackupdocker cp rds_autobackup.tar.gz ${...

2020-03-14 14:34:56 9959

原创 用Airflow调度数仓(CK)的ETL脚本

#安装前提:安装了python,我这里是python3下载按照官网:pip3 install apache-airflow包太多,下载太慢改为清华的镜像:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple apache-airflow又有包找不到最后用豆瓣的镜像(注意要加trusted):pip3 install a...

2020-03-14 14:34:24 1652

原创 对Raft的简要理解

共识算法目的:实现分布式环境中的强一致性。##基本概念每个节点有三个状态:1.Follower:从2.Candidate:参选3.Leader:主和一个倒计时:Election Timeout(时间随机)在以下两种情况下会重设:1.收到Election请求2.收到Leader的Heartbeat##首先选举Leader###正常情况当A节点的Election Timeout...

2020-03-14 14:33:39 123

原创 给ClickHouse增加内存

背景在执行一个较为复杂的SQL聚合的时候,报错了:【报错】DB::Exception: Allocator: Cannot mmap 64.00 MiB., errno: 12, strerror: Cannot allocate memory.可见是内存不够了(CK虽然是分布式存储但是集中计算)一个办法是修改SQL,比如说用临时表之类的,但是那多麻烦啊。我决定先用swap内存试试。...

2020-03-14 14:32:02 3968

原创 clickhouse的副本机制

#1.Non-replicated tables, internal_replication=false.Data inserted into the Distributed table is inserted into both local tables and if there are no problems during inserts, the data on both local ta...

2020-03-14 14:30:10 1721

原创 部署clickhouse cluster(基于docker+zookeeper)

##1.创建mysql引擎的数据库CREATE DATABASE mysql_jiu_wen ENGINE = MySQL(‘192.168.201.36:3306’, ‘jiu_wen’, ‘root’, ‘84b405294fc45757e2a5e1fcf203593b’)##2.百万数据 ,相同查询,对比mysql###mysqlSELECT FROM_UNIXTIME(cre...

2020-03-14 14:28:23 2260

原创 clickhouse docker安装+tabix

1.下载server镜像docker pull yandex/clickhouse-server2.启动镜像(注意把8123端口映射出来,不然后面用tabix远程连接不上):$ mkdir $HOME/clickhouse$ docker run -d --name clickhouse --ulimit nofile=262144:262144 -p 8123:8123 --volum...

2020-03-14 14:27:03 2243 1

原创 数据库基准测试标准

TPC是一个组织。下表中三个标准都是他发布的。标准衡量指标应用场景TPC-CTPSOLTPTPC-HQphH @ Size,在100G数据库大小的情况下,查询时间,例如阿里云的ADB for mysql官宣是220SOLAP-三范式TPC-DS包含17张表,99个SQLOLAP-星型模型和雪花模型下图是官网的测试结果截图Hive...

2020-03-14 14:25:43 633

原创 shell+crontab+flock 定时备份

mybackup.shdb_user="root"db_passwd="CN66law123"db_host="127.0.0.1"# databases which no need to restoredb_name_ignore=(\#mysql50\#backup.0 \#mysql50\#backup.1 \#mysql50\#backup.2 \#mysql50\#backup...

2020-03-14 14:24:52 164

原创 将多行合并成一行(awk/sed)

mysql dump的时候,需要忽略视图以免出现definer与本地不一致从而导致失败。因此写了如下脚本把视图查询出来:[root@bdd3c0ee821f rds_autorestore]# mysql -e "select concat(table_schema,'.',table_name)as tablename from information_schema.views"|grep ...

2020-03-14 14:24:17 1434

原创 修改rds_backup_extract.sh还原RDS mysql8以及错误处理

背景在做RDS自动化restore到本地的时候,下载了阿里云提供的脚本:rds_backup_extract.sh但是遇到了一个问题,就是这个脚本不支持xbstream 文件包(_qp.xb 后缀)。这样对于mysql8.0或者mysql5.6的新备份的时候,就不能识别了:if [[ $backup_file == *.xb.gz ]]; then format="xbstream"...

2020-03-14 14:23:26 1127

原创 添加新的磁盘来扩容

#任务一:将新的磁盘挂载到/mnt上(/mnt没有数据)1.通过fdisk -l(如果是ubuntu系统只需要加上sudo即可)发现新的磁盘名为 /dev/sdb:2.在根目录创建/mnt文件夹,方便使用,然后:mount /dev/sdb /mnt【报错】mount: /dev/sdb is write-protected, mounting read-onlymount: un...

2020-03-14 14:22:29 2974

原创 awk对文件数据简单统计

2020-03-14 14:21:36 229

原创 解决一次因修改工程名和文件夹名导致的Git失效

pycharm原工程名为rds_autobackup,然后我改为了rds_autorestoregit就无法同步到gitlab了。1.先在gitlab上创建了一个新的项目,取名rds_autorestore。注意不要勾选添加readme文件然后gitlab上面给出了方法:Push an existing Git repositorygit remote rename origin old...

2020-03-14 14:19:43 1243

原创 clickhouse 用户权限划分(ACL)

通过配置/etc/clickhouse-server/user.xml来实现;user.xml如下:<?xml version="1.0"?><yandex> <!-- Profiles of settings. 一个Profile就是一堆配置(settings)的集合--> <profiles> <!--...

2020-02-23 11:14:49 1366 1

原创 docker mysql +GTID双主+keepalived

基本思路:先停掉原mysql,把这个文件夹压缩了传到另一台机器。然后解压,用docker直接挂载解压后的文件夹。机器1:192.168.10.2机器2:192.168.10.3一,两个库的准备采用离线备份文件夹的方式先停原mysql,然后把文件夹压缩了(我这里该文件夹名为bak1223,里面包含了所有的数据文件和日志文件,所以只用传输这一个文件夹即可)tar -zcvf bak...

2020-02-23 11:08:22 313

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除