大数据运维
文章平均质量分 84
介绍大数据运维相关的知识技能
小枫@码
多做一步、多说一句话、多做一件正向的事情
展开
-
ClickHouse存储引擎之ReplacingMergeTree引擎
使用order by 排序键,作为判断数据是否重复的唯一键只有在合并分区时,才会触发数据的去重逻辑删除重复数据,是以数据分区为单位。同一个数据分区的重复数据才会被删除,不同数据分区的重复数据仍会保留在进行数据去重时,由于已经基于ORDER BY排序,所以可以找到相邻的重复数据数据去重策略为:若指定了ver参数,则会保留重复数据中,ver字段最大的那一行。若未指定ver参数,则会保留重复数据中最末的那一行数据。原创 2024-03-05 09:49:13 · 669 阅读 · 0 评论 -
clickhouse的多路径存储策略
HOT/COLD策略,由多个disk组成volume组。每当一个新数据分区生成的时候,按照阈值(max_data_part_size_bytes)的大小,分区目录会按照volume组中定义的顺序依次写入。JBOD策略,每当生成一个新数据分区的时候,分区目录会根据volume中定义的disk顺序依次轮询并写入各个disk。合并分区或者一次性写入的分区大小超过max_data_part_size_bytes,也会被写入到COLD卷中。虽然MergeTree定义完存储策略后不能修改,但却可以移动分区。原创 2024-03-01 14:48:48 · 949 阅读 · 0 评论 -
ClickHouse为何这么快
ClickHouse 全称 Click Stream, Data WareHouse,是一个用于联机分析 (OLAP) 的列式数据库管理系统 (DBMS)。由俄罗斯本土搜索引擎企业 Yandex 公司为了自己公司自家的 Web 流量分析产品 Yandex.Metrica 开发,后来经过演变,逐渐形成为现在的 ClickHouse。原创 2024-02-02 15:12:14 · 870 阅读 · 0 评论 -
数据监控-Prometheus/Grafana
拓扑图监控目标通过脚本或者其他的程序push日志到pushgateway中,prometheus通过pull的方式拉取pushgateway的日志pushgateway的重要性因为Prometheus是以pull的形式采集监控的指标,这样的话就会存在两个这样的问题:1、每次新增监控目标就需要修改Prometheus的配置2、如果监控目标所在网络和Prometheus所在网络不通,就无法通过Prometheus的pull形式采集指标Prometheus的缺点。原创 2024-01-27 13:40:12 · 1240 阅读 · 0 评论 -
Linux
在为主机添加硬盘前,首先要了解Linux系统下对硬盘和分区的命名方法。首先介绍几个概念:SCSI:Small Computer System Interface(小型计算机系统接口)的缩写。IDE:Integrated Drive Electrionics,IDE是表示硬盘的传输接口,它的本意是把控制器与盘体集成在一起的硬盘驱动器。1)在Linux下对SCSI的设备是以sd命名的,第一个ide设备是sda,第二个是sdb,依此类推。一般主板上有两个SCSI接口,一共可以安装四个SCSI设备。原创 2024-01-26 20:37:27 · 314 阅读 · 0 评论 -
Ranger概述及安装配置
Apache Ranger是一个用来在Hadoop平台上进行监控,启动服务,以及全方位数据安全访问管理的安全框架。Ranger愿景是在Apache Hadoop生态系统中提供全面的安全管理。随着企业业务的扩展,企业可能在多用户环境中运行多个工作任务,这就要求Hadoop内的数据安全性需要扩展为同时支持多种不同的需求进行数据访问,同时还需要提供一个可以可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生。原创 2024-01-21 19:56:42 · 1016 阅读 · 0 评论 -
hbase预分区
HBase在创建表时,默认会自动创建一个Region分区。在导入数据时,所有客户端都向这个Region写数据,直到这个Region足够大才进行切分。这样在大量数据并行写入时,容易引起单点负载过高,从而影响入库性能。一个好的方法是在建立HBase表时预先分配数个Region,这样写入数据时,会按照Region分区情况,在集群内做数据的负载均衡。--自定义预分区的RowKey--使用文件内容预分区--使用内置的分区算法HexStringSplit--指定列族'info'使用'GZ'压缩。原创 2024-01-19 13:12:53 · 495 阅读 · 0 评论 -
confluence安装部署
confluence官方文档:https://www.atlassian.com/software/confluence/download-archives下载版本可通过confluence官方文档来进行选择:https://product-downloads.atlassian.com/software/confluence/downloads/atlassian-confluence-8.5.4-x64.binconfluence安装包下载完毕后,需要下载破解包,不同版本的confluence,破解包原创 2024-01-16 09:36:40 · 959 阅读 · 0 评论 -
Clickhouse 分布式表&本地表详解
Clickhouse的表分为两种一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.实际存储数据的表。原创 2024-01-14 14:41:42 · 3289 阅读 · 0 评论