ClickHouse
文章平均质量分 91
木鱼-
过一天就要进步一点,而且不知道也会更多,还有每天都会忘记一点。所以每天还得做功课
展开
-
clickhouse安装说明
下载clickhouse相关安装文件:下载地址: https://repo.yandex.ru/clickhouse/rpm/stable/x86_64/Linux执行安装指令rpm -ivh +包名注意:先执行安装common-static。因为server和client安装时需要依赖common中的文件。客户端与服务端启动服务端启动sudo /etc/init.d/clickhouse-server start注意事项:如果linux报: init script原创 2021-06-28 17:21:47 · 13114 阅读 · 1 评论 -
clickhouse高可用-节点宕机数据一致性方案-热扩容
1. 集群节点及服务分配说明:1.1. 在每个节点上启动两个clickhouse服务(后面会详细介绍如何操作这一步),一个数据分片,一个数据备份,为了确保宕机数据一致性,数据分片和数据备份不能同一节点,比如gawh201上的shard不能备份在gawh201的replica,如果这样做,当gawh201宕机了,该节点shard的数据是找不到的。1.2. 基于a所以shard和replica必须错开,但不是随意错开就可以了。按照上图给的规律错开(后面会详细介绍超大节点的集群的shard和re.转载 2021-05-17 14:14:41 · 1905 阅读 · 0 评论 -
ClickHouse高可用集群的配置
上一篇文章写过centos 7下clickhouse rpm包安装和基本的目录结构,这里主要介绍clickhouse高可用集群的部署方案,因为对于默认的分布式表的配置,每个分片只有一份,这样如果挂掉一个节点,则查询分布式表的时候直接会报错,这个是基于clickhouse自己实现的多分片单副本集群,配置也比较简单,这里说的高可用是指,每个分片具有2个或以上副本,当某个节点挂掉时,该节点分片仍可以由其他机器上的副本替代工作,所以这样实现的分布式集群可以在挂掉至少1个节点时机器正常运行,随着集群节点数量的增加,则转载 2021-05-17 13:59:36 · 864 阅读 · 0 评论 -
ClickHouse分布式高可用集群搭建
一、ClickHouse安装方式:源码编译安装 Docker安装 RPM包安装为了方便使用,一般采用RPM包方式安装,其他两种方式这里不做说明。二、下载安装包官方没有提供rpm包,但是Altinity第三方公司提供了。地址:https://packagecloud.io/altinity/clickhouse三、配置文件安装好rmp包后,默认配置文件在/etc/clickhouse-server/目录下,主要涉及以下3种配置文件,也可以自定义配置文件位置,如果...转载 2021-05-17 13:54:46 · 828 阅读 · 0 评论 -
ClickHouse入门实践--MergeTree原理解析
MergeTree原理解析表引擎是ClickHouse设计实现中的一大特色。可以说,是表引擎决定了一张数据表最终的“性格”,比如数据表拥有何种特性、数据以何种形式被存储以及如何被加载。ClickHouse拥有非常庞大的表引擎体系,截至本书完成时,其共拥有合并树、外部存储、内存、文件、接口和其他6大类20多种表引擎。而在这众多的表引擎中,又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大,在生产环境的绝大部分场景中,都会使用此系列的表引擎。因为只有合并树系列的表引擎才支持主转载 2021-05-12 14:30:19 · 611 阅读 · 0 评论 -
ClickHouse的入门、使用和优化
ClickHouse是俄罗斯的重要网络服务门户之一Yandex所开源的一套针对数据仓库场景的多维数据存储与检索工具,一个用于联机分析(OLAP)的列式数据库管理系统(DBMS),它通过针对性的设计力图解决海量多维度数据的查询性能问题。下面,enjoy:一、数据库的行存与列存在传统的行式数据库系统中,数据按顺序存储:处于同一行中的数据总是被物理的存储在一起,常见的行式数据库系统有:MySQL、Postgres和MS SQL Server。行存需要逐行读取而后进行整合,速度较慢在列式数据转载 2021-05-12 10:22:28 · 512 阅读 · 0 评论 -
clickhouse 优化
sql慢查大部分主要体现在cpu 负载过高,io过高,或者查询的列中无索引导致的;注意;clickhouse本身不太支持高并发的场景,qps过高会导致clickhouse服务器cpu过高,导致慢查 在这些情况下;常见的考虑的是 sql中是否有复杂的运算,查询的数量量是否过大,查询的列中索引是否有效; sql 查询特点:数量大,且分区跨度大 data表格中有8亿多条数据,data表按照p_data_day 分区; 数据会遍历整个分区,数据平均在1s左右分钟返回 ; 优化思路:减少不必要数据的遍历(分转载 2021-05-12 10:11:08 · 4246 阅读 · 0 评论