ClickHouse初级学习

夏夜迷

已于 2022-05-08 17:09:08 修改

阅读量1.2k

点赞数

分类专栏：大数据文章标签：大数据数据分析数据库

于 2022-04-30 15:45:56 首次发布

本文链接：https://blog.csdn.net/weixin_49415186/article/details/124513864

版权

本文介绍了ClickHouse，一个由Yandex开发的用于实时数据分析的列式数据库管理系统。它支持SQL查询，具有列式存储、多样化的存储引擎、高吞吐写入能力、数据分区和线程级并行处理等特点。在CentOS上安装单机ClickHouse的过程也进行了讲解。

摘要由CSDN通过智能技术生成

文章目录

一、第一章：入门

一、第一章：入门

1. 背景来源

ClickHouse是俄罗斯的Yandex公司使用C++语言编写，于2016年开源的列式存储数据块库（DBMS）,主要用于在线分析处理查询（OLAP）,能够使用SQL查询实时生成分析数据报告。

OLTP: 联机事务处理过程

2. ClickHouse的特点

2.1 列式存储与行式存储

对于列的聚合、计数、求和等统计操作优于行式存储
由于某一列的数据类型都是相同的，针对于数据存储更容易进行数据压缩，每一列选择更优的数据压缩算法，大大提高了数据的压缩比重。
由于数据压缩更好，一方面节省了磁盘空间，另一方面对于cache也有了更大的发挥空间。

1）采用行式存储时，数据在磁盘上的组织结构为：
在这里插入图片描述
2）采用列式存储时，数据在磁盘上的组织结构为：

2.2 DBMS的功能

几乎覆盖了标准SQL的大部分语法，包括DDL和DML以及配套的各种函数，用户管理及权限管理，数据的备份与恢复。

2.3 多样化引擎

ClickHouse和MySQL类似，把表级的存储引擎插件化，根据表的不同需求可以设定不同的存储引擎。目前包括合并树、日志、接口和其他四大类20多种引擎。

2.4 高吞吐写入能力

ClickHouse采用类LSM Tree的结构，数据写入后定期在后台Compaction，通过类LSM Tree的结构，ClickHouse在数据导入时全部顺序append写，写入后数据段不可更改，在后台Compaction时也是多个段merge sort后顺序写回磁盘，顺序写的特性，充分利用了磁盘的吞吐能力，即便在HDD（硬盘驱动器）上也有着优异的写入性能。

2.5 数据分区与线程级并行

ClickHouse将数据分为多个partition，每个partition再进一步划分为多个index granularity(索引粒度)，然后通过多个CPU核心分别处理其中的一部分来实现并行数据的处理，在这种设计下，单条Query就能利用整机所有的CPU。极致的并行处理能力，极大的降低了查询延时。

不擅长于高QPS(每秒查询率)的查询业务，擅长于宽表（离线、数仓处理完的大量的数据以及字段多的数据）

3.CentOS安装单机clickhouse

在线安装命令：

sudo yum install -y yum-utils
sudo yum-config-manager --add-repo https://packages.clickhouse.com/rpm/clickhouse.repo
sudo yum install -y clickhouse-server clickhouse-client

默认的配置：

rpm -qa | grep clickhouse
默认配置文件路径：/etc/clickhouse-server
-- config.xml : 服务等的配置，例如集群 去掉注释，不限制ip访问<listen_host>::</listen_host> 
-- users.xml :

最低0.47元/天解锁文章

夏夜迷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ClickHouse初级学习

文章目录一、第一章：入门1. 背景一、第一章：入门1. 背景ClickHouse是俄罗斯的Yandex于2016年开源的列式存储数据块库（DBMS）,使用C++语言编写，主要用于在线分析处理查询（OLAP）,能够使用SQL查询实时生成分析数据报告。...
复制链接

扫一扫

专栏目录