clickhouse
文章平均质量分 84
乖乖猪001
这个作者很懒,什么都没留下…
展开
-
ClickHouse 内核分析--MergeTree 的存储结构和查询加速
ClickHouse 内核分析–MergeTree 的存储结构和查询 加速ClickHouse 是最近比较火的一款开源列式存储分析型数据库,它最核心的特点就是极致存储压缩率和查询性能,本人最近正在学习 ClickHouse 这款产品中。从我个人的视角来看存储是决定一款数据库核心竞争力、 适用场景的关键所在,所以接下来我会陆续推出一系列文章来分析 ClickHouse 中最重要的 MergeTree 存储 内核。本文主旨在于介绍 MergeTree 的存储格式,并且彻底剖析 MergeTree 存储的极致原创 2021-04-16 14:23:24 · 449 阅读 · 0 评论 -
Clickhouse 架构设计
Clickhouse 架构设计Column 与 FieldColumn 和 Field 是 ClickHouse 数据最基础的映射单元。作为一款百分之百的列式存储数据库,ClickHouse 按列存储数据,内存中的一列数据由一个 Column 对象表示。Column 对象分为接口和实现 两个部分,在 IColumn接口对象中,定义了对数据进行各种关系运算的方法,例如插入数据的 insertRangeFrom 和 insertFrom 方法、用于分页的 cut,以及用于过滤的 filter 方法等。原创 2021-04-16 14:05:47 · 335 阅读 · 0 评论 -
Clickhouse引擎四: 内存引擎
Clickhouse引擎四: 内存引擎表引擎,都是面向内存查询的,数据会从内存中被直接访问,所以它们被归纳为内存类型。但这并不意味着内存类表引擎不支持物理存储,事实上,除了 Memory 表引擎之外,其 余的几款表引擎都会将数据写入磁盘,这是为了防止数据丢失,是一种故障恢复手段。而在数据表被 加载时,它们会将数据全部加载至内存,以供查询之用。将数据全量放在内存中,对于表引擎来说是 一把双刃剑:一方面,这意味着拥有较好的查询性能;而另一方面,如果表内装载的数据量过大,可 能会带来极大的内存消耗和负担!M原创 2021-04-16 13:54:00 · 650 阅读 · 0 评论 -
Clickhouse引擎三: 外部存储引擎
Clickhouse引擎二: 外部存储引擎HDFSClickhouse 可以直接从 HDFS 中指定的目录下加载数据 , 自己根本不存储数据, 仅仅是读取数据 ENGINE = HDFS(hdfs_uri,format) ·hdfs_uri 表示 HDFS 的文件存储路径; ·format 表示文件格式(指 ClickHouse 支持的文件格式,常见的有 CSV、TSV 和 JSON 等)。 注意的是 HDFS 引擎在处理数据的时候分为两种处理方式:1 可以读写 HDFS 上的数据在建表的时候指定H原创 2021-04-16 13:45:44 · 582 阅读 · 0 评论 -
Clickhouse引擎二: MergeTree 家族引擎
Clickhouse引擎二: MergeTree 家族引擎MergeTree 系列的表引擎是 ClickHouse 数据存储功能的核心。它们提供了用于弹性和高性能数据检索的大多数功能:列存储,自定义分区,稀疏的主索引,辅助数据跳过索引等。 基本 MergeTree 表引擎可以被认为是单节点 ClickHouse 实例的默认表引擎,因为它在各种用例中通用 且实用。除了基础表引擎 MergeTree 之 外,常用的表引擎还有 ReplacingMergeTree、SummingMergeTree、Agg原创 2021-04-16 13:38:57 · 413 阅读 · 0 评论 -
Clickhouse引擎一: Log 系列引擎
Clickhouse引擎一: Log 系列引擎Log 家族具有最小功能的轻量级引擎。当您需要快速写入许多小表(最多约 100 万行)并在以后整体 读取它们时,该类型的引擎是最有效的。TinyLog 引擎最简单的表引擎,用于将数据存储在磁盘上。每列都存储在单独的压缩文件中,写入时,数据将 附加到文件末尾。该引擎没有并发控制 - 只支持并发读 - 如果同时从表中读取和写入数据,则读取操作将抛出异常; - 如果同时写入多个查询中的表,则数据将被破坏。这种表引擎的典型用法是 write-once:首先只写原创 2021-04-16 11:53:06 · 338 阅读 · 0 评论 -
Clickhouse基本概念
Clickhouse 系统架构ClickHouse 拥有完备的管理功能,所以它称得上是一个 DBMS(Database Management System,数据库管理系统),而不仅是一个数据库。作为一个 DBMS,它具备了一些基本功能,如下所示。·DDL(数据定义语言):可以动态地创建、修改或删除数据库、表和视图,而无须重启服务。 ·DML(数据操作语言):可以动态查询、插入、修改或删除数据。 ·权限控制:可以按照用户粒度设置数据库或者表的操作权限,保障数据的安全性。 ·数据备份与恢复:提供了数据备份原创 2021-04-16 11:40:29 · 434 阅读 · 0 评论 -
Clickhouse简介
Clickhouse简介ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的一个用于联机分析(OLAP:Online AnalyticalProcessing) 的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询(OLAP),能够 使用 SQL 查询实时生成分析数据报告。 ClickHouse 的全称是 Click Stream,Data WareHouse,简称 ClickHouse。ClickHouse 是一个完全原创 2021-04-15 13:24:47 · 360 阅读 · 0 评论 -
HIVE数据导入CLICKHOUSE
import java.util.Propertiesimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionobject HiveToClickHouseDF { final val USERNAME = "root" final val PASSWORD = "LdouQdtmc3AClWD" final val APPNAME = "HiveToClickHouseDF-JOB" fin原创 2020-06-18 14:25:16 · 1919 阅读 · 2 评论