【用户画像】ClickHouse中的数据类型、表引擎介绍及使用、项目几个问题的解决办法

最新推荐文章于 2024-06-04 08:48:13 发布

OneTenTwo76

最新推荐文章于 2024-06-04 08:48:13 发布

阅读量782

点赞数

分类专栏：用户画像文章标签： clickhouse 数据库 java

本文链接：https://blog.csdn.net/weixin_43923463/article/details/127627929

版权

用户画像专栏收录该内容

17 篇文章 21 订阅

订阅专栏

一数据类型

1 整型

固定长度的整型，包括有符号整型或无符号整型。

整型范围（-2^n-1~2^n-1-1）：

Int8 - [-128 : 127]
Int16 - [-32768 : 32767]
Int32 - [-2147483648 : 2147483647]		相当于int
Int64 - [-9223372036854775808 : 9223372036854775807]	相当于bigint

无符号整型范围（0~2n-1）：

UInt8 - [0 : 255]
UInt16 - [0 : 65535]
UInt32 - [0 : 4294967295]
UInt64 - [0 : 18446744073709551615]

使用场景： 个数、数量、也可以存储数字型id**。**

2 浮点型

Float32 - float
Float64 – double

建议尽可能以整数形式存储数据。例如，将固定精度的数字转换为整数值，如时间用毫秒为单位表示，因为浮点型进行计算时可能引起四舍五入的误差。

其存储小数的方式为2进制，2进制不适合处理加减法，最适合处理位运算，其次为乘除法。

如下例，会出现精度丢失问题。

hadoop101 :) select 1-0.9

┌───────minus(1, 0.9)─┐
│ 0.09999999999999998 │
└─────────────────────┘

解决方案：将2进制转换为10进制，然后再进行加减，如Decimal。

使用场景：一般数据值比较小，不涉及大量的统计计算，精度要求不高的时候。比如保存商品的重量。

3 布尔型

没有单独的类型来存储布尔值。可以使用 UInt8 类型，取值限制为 0 或 1，一般使用String型。

4 Decimal 型

有符号的浮点点数，可在加、减和乘法运算过程中保持精度。对于除法，最低有效数字会被丢弃（不舍入）。

有三种声明：

Decimal32(s)，相当于Decimal(9-s,s)

Decimal64(s)，相当于Decimal(18-s,s) ==》 Decimal64(2) == Decimal(16,2)

Decimal128(s)，相当于Decimal(38-s,s)

s标识小数位，“ ，”前为整数位。

使用场景：一般金额字段、汇率、利率等字段为了保证小数点精度，都使用Decimal进行存储。

5 字符串

（1）String

字符串可以任意长度的。它可以包含任意的字节集，包含空字节。

（2）FixedString(N)

固定长度 N 的字符串，N 必须是严格的正自然数。当服务端读取长度小于 N 的字符串时候，通过在字符串末尾添加空字节来达到 N 字节长度。当服务端读取长度大于 N 的字符串时候，将返回错误消息。

与String相比，极少会使用FixedString，因为使用起来不是很方便。

使用场景：名称、文字描述、字符型编码。固定长度的可以保存一些定长的内容，比如一些编码，性别等但是考虑到一定的变化风险，带来收益不够明显，所以定长字符串使用意义有限。

6 时间类型

目前clickhouse 有三种时间类型

Date 接受 年-月-日 的字符串比如 ‘2019-12-16’

Datetime 接受 年-月-日时:分:秒 的字符串比如 ‘2019-12-16 20:50:10’

Datetime64 接受 年-月-日时:分:秒.亚秒 的字符串比如 ‘2019-12-16 20:50:10.66’

日期类型，用两个字节存储，表示从 1970-01-01 (无符号) 到当前的日期值。

还有很多数据结构，可以参考官网文档

7 数组

**Array(T)：**由 T 类型元素组成的数组。

T 可以是任意类型，包含数组类型。但不推荐使用多维数组，ClickHouse 对多维数组的支持有限。例如，不能在 MergeTree 表中存储多维数组。

可以使用array函数来创建数组：

array(T)

也可以使用方括号：

[]

创建数组案例：

-- toTypeName(x)：查x的类型是什么
:) SELECT array(1, 2) AS x, toTypeName(x);
-- 结果
┌─x─────┬─toTypeName(array(1, 2))─┐
│ [1,2] │ Array(UInt8)            │
└───────┴─────────────────────────┘

:) SELECT [1, 2] AS x, toTypeName(x);

┌─x─────┬─toTypeName([1, 2])─┐
│ [1,2] │ Array(UInt8)       │
└───────┴────────────────────┘

8 元组

select tuple(1,2);

select (1,2);

二三个小问题

task-common如果编译不出classes 文件夹

请手动在pom.xml中增加插件一般2021版的idea

如果 clickhouse客户端无法正常连接服务器

把config.xml 的配置

<listen_host>::</listen_host>  打开，ipv6写法，部分环境不支持iP4的写法

<listen_host>0.0.0.0</listen_host>  注掉，ipv4写法

重启服务

clickhouse启动不了

用sudo journalctl –xe   来查看linux 服务启动日志 

sudo vim /var/log/clickhouse-server/clickhouser-server.log 

port  already in used  

关闭  Zabbix       让出9000端口

三表引擎

官网说明

引擎：表的存储过程和存储器，决定了如何将表数据和文件放到磁盘上，决定磁盘如何布局。

1 表引擎的使用

表引擎是clickhouse的一大特色。可以说，表引擎决定了如何存储标的数据。包括：

1）数据的存储方式和位置

2）并发数据访问。

3）索引的使用。

4）是否可以执行多线程请求。

5）数据如何拷贝副本。

表引擎的使用方式就是必须显性在创建表时定义该表使用的引擎，以及引擎使用的相关参数。如：

create table t_tinylog ( id String, name String) **engine=TinyLog**;

特别注意：引擎的名称大小写敏感

2 TinyLog

以列文件的形式保存在磁盘上，不支持索引，没有并发控制。一般保存少量数据的小表，生产环境上作用有限。可以用于平时练习测试用。

3 Memory

内存引擎，数据以未压缩的原始形式直接保存在内存当中，服务器重启数据就会消失。读写操作不会相互阻塞，不支持索引。简单查询下有非常非常高的性能表现（超过10G/s）。

一般用到它的地方不多，除了用来测试，就是在需要非常高的性能，同时数据量又不太大（上限大概 1 亿行）的场景。

4 MergeTree

Clickhouse 中最强大的表引擎当属 MergeTree （合并树）家族引擎及该系列（*MergeTree）中的其他引擎。地位可以相当于innodb之于Mysql。而且基于MergeTree，还衍生出了很多家族成员，也是非常有特色的引擎。

建表语句

create table t_order_mt(
    uid UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time  Datetime
 ) engine = MergeTree
 -- 以下三条属性中，order by最关键
 -- 分区的目的：减少扫描（处理）范围
 -- toYYYYMMDD：一个函数，最终的数据格式为年月日，如20221020
   partition by toYYYYMMDD(create_time)
 -- 主键在MergeTree中不唯一，可以翻译为主索引
   primary key (uid)
 -- 最关键的，排序列，决定了哪些列可以作为索引 
 -- mysql中为稠密索引，所以数据可以无序，根据索引可以唯一定位到一行数据
 -- ClickHouse是系数索引，这就要求它的数据必须有序，而索引可以不连续
 -- order by将数据按照第一个字段排序，当第一个字段相同时按照第二个字段排序
 -- 索引必须建立在这两个有序字段上，因此order by最关键
 -- order by(a,b,c) 可以设置索引（primary key）的字段为a 或 ab 或 abc
   order by (uid,sku_id)

插入数据

insert into  t_order_mt
values(101,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(102,'sku_002',2000.00,'2020-06-01 11:00:00'),
(102,'sku_004',2500.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 13:00:00')
(102,'sku_002',12000.00,'2020-06-01 13:00:00')
(102,'sku_002',600.00,'2020-06-02 12:00:00')

MergeTree其实还有很多参数(绝大多数用默认值即可)，但是三个参数是更加重要的，也涉及了关于MergeTree的很多概念。

将插入数据代码重复执行三次，可以发现以下情况：

在这里插入图片描述

上图很好的说明了：临时分区，异步合并。当插入第一份数据时，其会自动进入主分区，插入第二份数据时，会将数据放到临时分区（独立的目录、文件）中，当触发某总条件会自动产生合并，也可以通过一行命令去强行合并，optimize table XXX [final]，但实际环境中，不会去强制合并，执行optimize table t_order_mt final;，合并后的结果如下：

在这里插入图片描述

（1）partition by 分区（可选项）

**作用：**主要是降低扫描的范围，优化查询速度。

如果不填： 只会使用一个分区。

分区目录： MergeTree 是以列文件+索引文件 + 表定义文件组成的，但是如果设定了分区那么这些文件就会保存到不同的分区目录中。

**并行：**分区后，面对涉及跨分区的查询统计，clickhouse会以分区为单位并行处理。

数据写入与分区合并：

任何一个批次的数据写入都会产生一个临时分区，不会纳入任何一个已有的分区。写入后的某个时刻（大概10-15分钟后），clickhouse会自动执行合并操作（等不及也可以手动通过optimize执行），把临时分区的数据，合并到已有分区中。

optimize table xxxx [final]

手动触发合并，除了合并分区还有很多别的事件会触发。

加入final选项，保证即使数据已经合并完成，也会强行合并（主要是可以保证触发其他事件）。否则，如果数据已经合并完成，则不会合并，也不会触发其他事件。

（2）primary key主键(可选)

clickhouse中的主键，和其他数据库不太一样，它只提供了数据的一级索引，但是却不是唯一约束。这就意味着是可以存在相同primary key的数据的。

主键的设定主要依据是查询语句中的where 条件。

根据条件通过对主键进行某种形式的二分查找，能够定位到对应的index granularity，避免了全表扫描。

index granularity：直接翻译的话就是索引粒度，指在稀疏索引中两个相邻索引对应数据的间隔。clickhouse中的MergeTree默认是8192。官方不建议修改这个值，除非该列存在大量重复值，比如在一个分区中几万行才有一个不同数据。

如果想进行精确查询，可以将index granularity调小，代价就是，系数索引会更多，占用内存空间会更大。

稀疏索引：

在这里插入图片描述

稀疏索引的好处就是可以用很少的索引数据，定位更多的数据，代价就是只能定位到索引粒度的第一行，然后再进行进行一点扫描。

（3）order by （必选）

order by 设定了分区内的数据按照哪些字段顺序进行有序保存。

order by是MergeTree中唯一一个必填项，甚至比primary key 还重要，因为当用户不设置主键的情况，很多处理会依照order by的字段进行处理（比如后面会讲的去重和汇总）。

要求：主键必须是order by字段的前缀字段。

比如order by 字段是 (uid,sku_id) 那么主键必须是uid 或者(uid,sku_id)

（4）跳数索引

目前在clickhouse的官网上跳数索引的功能是被标注为实验性的。

所以使用二级索引前需要增加设置·(21.x版本变为正式版本，不用执行如下语句)

set allow_experimental_data_skipping_indices=1;

 create table t_order_mt2(
    uid UInt32,
    sku_id String,
    total_amount Decimal(16,2),
    create_time  Datetime,
	INDEX a total_amount TYPE minmax GRANULARITY 5
 ) engine =MergeTree
 partition by toYYYYMMDD(create_time)
   primary key (uid)
   order by (uid,sku_id)

其中GRANULARITY N 是设定二级索引对于一级索引粒度的粒度。 minmax GRANULARITY 5的含义就是为每5 * 8192 行数据计算一对该列的最大最小值，当扫描行扫描到该区间时，会对比最大最小值，如果不在该范围，就可以直接跳过该区域的扫描。

如假设有一张按照地区排序的表，现想将金额大于6000的用户查询出来，uid，sku_id索引对应这个需求就没有什么用处，就只能顺序扫描。跳数索引就适用于这种情况，它可以统计几个颗粒度之间金额的最大值和最小值。

在这里插入图片描述

如上图，只会考虑第二个跳数索引。

（5）数据TTL

TTL即Time To Live，MergeTree提供了可以管理数据或者列的生命周期的功能。

必须靠触发合并操作才能实现数据的时效。

插入数据

insert into  t_order_mt
values(106,'sku_001',1000.00,'2020-06-12 22:52:30') ,
(107,'sku_002',2000.00,'2020-06-12 22:52:30'),
(110,'sku_003',600.00,'2021-06-13 12:00:00')

表级TTL

针对整张表

下面的这条语句是数据会在create_time 之后10秒丢失（当前时间 - 创建时间）

alter table t_order_mt MODIFY TTL create_time + INTERVAL 10 SECOND;

涉及判断的字段必须是Date或者Datetime类型，推荐使用分区的日期字段。

能够使用的时间周期：

- SECOND - MINUTE - HOUR - DAY - WEEK - MONTH - QUARTER - YEAR

5 ReplacingMergeTree

ReplacingMergeTree是MergeTree的一个变种，它存储特性完全继承MergeTree，只是多了一个去重的功能。

尽管MergeTree可以设置主键，但是primary key其实没有唯一约束的功能。如果想处理掉重复的数据，可以借助这个ReplacingMergeTree。通过ReplacingMergeTree可以实现幂等性：同一份数据重复进入，存储不重复。

去重时机：数据的去重只会在合并的过程中出现。合并会在未知的时间在后台进行，所以你无法预先作出计划。有一些数据可能仍未被处理。

去重范围：如果表经过了分区，去重只会在分区内部进行去重，不能执行跨分区的去重。

所以ReplacingMergeTree能力有限， ReplacingMergeTree 适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。

 create table t_order_rmt(
    uid UInt32,
    sku_id String,
    total_amount Decimal(16,2) ,
    create_time  Datetime 
 ) engine =ReplacingMergeTree(create_time)
 partition by toYYYYMMDD(create_time)
   primary key (uid)
   order by (uid,sku_id)

ReplacingMergeTree() 填入的参数为版本字段，重复数据保留版本字段值最大的。如果不填版本字段，默认保留最后一条。

insert into  t_order_rmt
values(101,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(102,'sku_002',2000.00,'2020-06-01 11:00:00'),
(102,'sku_004',2500.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 13:00:00')
(102,'sku_002',12000.00,'2020-06-01 13:00:00')
(102,'sku_002',600.00,'2020-06-02 12:00:00')

SELECT * FROM t_order_rmt

重复插入几次，然后执行强制合并分区操作

OPTIMIZE TABLE t_order_rmt FINAL

SELECT * FROM t_order_rmt

通过测试得到结论：

实际上是使用order by 字段作为唯一键。
去重不能跨分区。
只有合并分区才会进行去重。
认定重复的数据保留，版本字段值最大的。
如果版本字段相同则保留最后一条。

6 SummingMergeTree

对于不查询明细，只关心以维度进行汇总聚合结果的场景。如果只使用普通的MergeTree的话，无论是存储空间的开销，还是查询时临时聚合的开销都比较大。

Clickhouse 为了这种场景，提供了一种能够“预聚合”的引擎，SummingMergeTree。

表定义

create table t_order_smt(
    uid UInt32,
    sku_id String,
    total_amount Decimal(16,2) ,
    create_time  Datetime 
 ) engine =SummingMergeTree(total_amount)
 partition by toYYYYMMDD(create_time)
   primary key (uid)
   order by (uid,sku_id)

插入数据

insert into  t_order_smt
values(101,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(102,'sku_002',2000.00,'2020-06-01 11:00:00'),
(102,'sku_004',2500.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 13:00:00')
(102,'sku_002',12000.00,'2020-06-01 13:00:00')
(102,'sku_002',600.00,'2020-06-02 12:00:00')

optimize table t_order_smt final;

通过结果可以得到以下结论：

以SummingMergeTree（）中指定的列作为汇总数据列。可以填写多列必须数字列，如果不填，以所有非维度列且为数字列的字段为汇总数据列。
以order by 的列为准，作为维度列。
其他的列保留第一行。
不在一个分区的数据不会被聚合。

设计聚合表的话，唯一键值、流水号可以去掉，所有字段全部是维度、度量或者时间戳。

不能直接使用 select total_amount from province_name=’’ and create_date=’xxx’ 来得到汇总值，因为可能会包含一些还没来得及聚合的临时明细。

 select sum(total_amount) from province_name=’’ and create_date=’xxx’

即使使用SummingMergeTree 引擎也要手工进行sum，聚合的效率肯定远远高于没有预聚合数据库或者其他引擎。

SummingMergeTree是非幂等的。

OneTenTwo76

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【用户画像】ClickHouse中的数据类型、表引擎介绍及使用、项目几个问题的解决办法

minmax GRANULARITY 5的含义就是为每5 * 8192 行数据计算一对该列的最大最小值，当扫描行扫描到该区间时，会对比最大最小值，如果不在该范围，就可以直接跳过该区域的扫描。当插入第一份数据时，其会自动进入主分区，插入第二份数据时，会将数据放到临时分区（独立的目录、文件）中，当触发某总条件会自动产生合并，也可以通过一行命令去强行合并，固定长度的可以保存一些定长的内容，比如一些编码，性别等但是考虑到一定的变化风险，带来收益不够明显，所以定长字符串使用意义有限。建议尽可能以整数形式存储数据。
复制链接

扫一扫