1 Clickhouse介绍
1.1 Clickhouse简介
ClickHouse最初是为Yandex.Metrica世界第二大Web分析平台而开发的。多年来一直作为该系统的核心组件被该系统持续使用着。目前为止,该系统在ClickHouse中有超过13万亿条记录,并且每天超过200多亿个事件被处理。它允许直接从原始数据中动态查询并生成报告。
在Yandex.Metrica中,ClickHouse被用于多个场景中。 它的主要任务是使用原始数据在线地提供各种数据报告。它使用374台服务器的集群,存储了20.3万亿行的数据。在去除重复与副本数据的情况下,压缩后的数据达到了2PB。未压缩前(TSV 格式)它大概有17PB。
Clickhouse已经被Microsoft、GitLab、cailbre、NGINX、resmo、eBay等国外企业,国家信息中心、赛迪新材料所、北京经信局等国家部委、院所,新浪、今日头条、腾讯、携程、京东、神州租车、东鹏特饮等多家公司所使用。
1.2 Clickhouse技术特点
- 现代化MPP架构
- 秒级查询返回延时
- 支持标准SQL语言,兼容MySql协议
- 向量化执行器:为了高效的使用CPU,数据不仅仅按列存储,同时还按向量(列的一部分)进行处理,这样可以更加高效地使用CPU
- 高性能、高可用(多分片,多副本):在ClickHouse中,数据可以保存在不同的shard上,每一个shard都由一组用于容错的replica组成,查询可以并行地在所有shard上进行处理。当数据被写入任何一个可用副本后,系统会在后台将数据分发给其他副本,以保证系统在不同副本上保持相同的数据
- 多样化的数据库引擎和表引擎
- 极致的数据压缩存储(能够达到10倍)
- 完备的DBMS特性:包括数据权限控制、DDL、DML等。
1.3 Clickhouse 就是快
ClickHouse数据处理速度,明显优于其它数据库,从官方对比测试中,可以看出:是Vertica的6倍,是MonetDB的23倍,是Greenplum的24倍,是InfiniDB的31倍,是Hive的289倍,是MySQL的831倍。
1.4 Clickhouse是OLAP的最佳拍档
OLAP 是 OnLine Analytical Processing 的缩写,即联机分析处理。它的关键特征主要包括:
- 单个查询时需要高吞吐量
- 存在大量宽表
- 速度快
- 数据量大
- 大量统计分析需求
- 数据源种类繁多
- 自主分析
而clickhouse具备以下特性:
- 列式存储带来高速IO,并计算带来高速计算
- 列式存储,对宽表支持更友好
- 查询计算性能远高于其它引擎
- 按列压缩,更高的效率,更小的空间占用
- 大量统计分析函数
- 一条SQL可解决消息引擎、数据库、文件、API接口等多种数据源接入
- Clickhouse远高于hive、greenplum等工具的并发和性能,让普通用户可直接利数据数据进行自主分析
列式数据库更适合于OLAP场景(对于大多数查询而言,处理速度至少提高了100倍),clickhouse具有的特性正好能够满足OLAP应用场景的需求!
2 万山数据clickhouse企业版WSDCK
2017年clickhouse进入中国后,万山数据的技术团队开始做clickhouse本土化的事情。2017年大CIIM-泸州电子商务大数据开放实验室开始,2018年贵州政务服务中心,2019年国家信息中心……,截止目前为止已经在国家部委、省级平台、地市级平台,以及互联网、快销、家居制造、旅游、医疗、军工、钢铁等多个行业落地应用。
WSDCK是万山数据在clickhouse多年应用基础上推出的更简单、更稳定、更便捷的企业版。万山数据于2021年正式推出了WSDCK V1.0版本,为用户解决clickhouse应用的一系列难题。2023年正式推出WSDCK V2.0版本。
3 万山数据WSDCK与clickhouse开源版本对比
特性 | CLICKHOUSE开源版 | CLICKHOUSE企业版-WSDCK |
统一SQL界面接入外部数据库 | 仅部分开源数据库经过验证 | 国产数据库,以及HANA、Oracle、SQLServer等商业数据库均通过验证,并有大量实践 |
自然语言处理 | 不支持 | 支持多种模式分词、语义提取,支持拼音、简繁体等处理 |
全文检索 | 性能较差,配置复杂 | 性能更优,操作更简单 |
API接口操作 | 无 | 支持GET、POST等方法,支持多种认证 |
国密加解密 | 不支持 | 支持 |
文件读写 | 只支持固定格式 | 支持多种文件格式 |
字典 | 字典基本功能 | 附带行业字典库 |
定时任务 | 不支持 | 支持 |
功能定制 | 不支持 | 支持 |