Clickhouse学习笔记（一）分区（Partition）和分片（Shard）

会说话的皮卡丘

已于 2022-10-05 10:51:24 修改

阅读量4.7k

点赞数 5

分类专栏： Clickhouse 文章标签： clickhouse 学习

于 2022-10-05 10:37:41 首次发布

原文链接：https://cloud.tencent.com/developer/article/1950906

版权

Clickhouse 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

分区

**
表中的数据可以按照指定的字段分区存储，每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段，数据量大的表可以按照小时分区，数据量小的表可以在按照天分区或者月分区，查询时，使用分区字段作为Where条件，可以有效的过滤掉大量非结果集数据。

ClickHouse 分区的目的是为了尽可能地减少读取的数据量，那么它有哪些特点呢？

创建分区的方法比较简单，只需要在建表时通过partition by语法指定即可；
不止可以按某个字段做partition by，还可以支持按任意合法的表达式进行分区操作，比如toYYYYMM()按月做分区；
支持对partition进行TTL管理，淘汰过期的分区数据；
插入数据到分区表中时，先会将数据写入到分区目录下的segment文件中，后台程序会自动进行合并，当然也可以通过optimize命令手动触发合并。

分片

一个分片本身就是ClickHouse一个实例节点，分片的本质就是为了提高查询效率，将一份全量的数据分成多份（片），从而降低单节点的数据扫描数量，提高查询性能

在这里插入图片描述
上图中，除了分片（Shard）之外，还同时引入了副本（Replica）概念。

副本（Replica）简单理解就是相同的数据备份，在ClickHouse中通过复制集，我们实现了保障数据可靠性外，也通过多副本的方式，增加了ClickHouse查询的并发能力。这里一般有2种方式：1.基于ZooKeeper的表复制方式；2.基于Cluster的复制方式。由于我们推荐的数据写入方式本地表写入，禁止分布式表写入，所以我们的复制表只考虑ZooKeeper的表复制方案。

在集群配置中，Shard标签里面配置的replica互为副本，将internal_replication设置成true，此时写入同一个Shard内的任意一个节点的本地表，ZooKeeper会自动异步的将数据同步到互为副本的另一个节点。
在这里插入图片描述