- 博客(20)
- 资源 (2)
- 收藏
- 关注
原创 Apache ORC项目编译
包括依赖的第三方库文件,在目录:${CMAKE_BINARY_DIR}/c++/libs/thirdparty,因为手动cmake编译选择 目录是build目录,所以clion使用cmake 工具链时,也选择build目录。可能遇到某些第三方包无法下载的问题,可以手动下载之后,把包名放在对应的目录下。cmake 不编译源码,它只生产编译源码的中间产物,如makeFile 文件。在编译的过程中 会下载项目依赖的第三方库的源码,并编译。如果clion使用的是远程编译,先把源码同步下来。
2023-09-15 09:36:49 227
原创 C++学习笔记1
拷贝构造函数是一种特殊类型的构造函数,用于创建新对象并将其初始化为与现有对象相同的值。智能指针会在对象不再需要时自动释放所占用的内存,从而提高程序的安全性和可维护性。delete[] arr 释放数组,不能使用 delete arr,delete运算符只会释放数组的第一个元素,而不是整个数组。的值,分别表示整数变量的值、整数变量的地址、指针变量的值、指针变量的地址和指针变量所指向的值。的值,分别表示整数变量的值、指针变量的值和指针变量所指向的值。运算符动态分配的内存,那么在不释放该内存的情况下,
2023-08-19 09:10:11 121
原创 Starrocks数据导入方式
FE收到作业请求之后,会分配给每个任务消费kakfa的分区每个任务会把任务封装成 Stream Load ,选择一台BE作为Coordinator,Coordinator从kafka拉取足够的数据,分拣之后发送到ExecuteBE上 完成数据导入然后再把执行结果一步步往上汇报kafka数据导入作业,已导入的数据的offset 是保存在SR端的。
2023-08-13 16:22:15 388 1
原创 Presto&Trino缓存配置
由于Presto进程是使用presto用户启动的,所以Presto进程作为Alluxio客户端会通过presto用户模拟hdfs访问Alluxio集群,需要在Alluxio的alluxio-site.properties配置允许presto 用户模拟hdfs访问Alluxio集群。由于Alluxio 的进程是使用alluxio用户启动的,在挂载alluxio文件目录时,也会用alluxio用户创建目录。Alluxio 2.9.3 之后不支持以下方式,访问现有的hive表,具体步骤官网没有明确说明。
2023-08-03 21:05:37 715
原创 Apache Druid集群运维梳理
Task进程运行一段时间后会把本地segment数据 上传到hdfsTask发送SegmentTransactionalInsertAction请求到OverlordOverlord运行SegmentTransactionalInsertAction将已发布的segment信息(used=1)写入元数据库(mysql)的druid_segments表中,并更新druid_datasource表中的kafka数据偏移量。
2023-07-24 07:49:31 173
原创 Apache Druid 数据结构及架构原理介绍
Druid 是一个专为大型数据集上的高性能切片和 OLAP 分析而设计的数据存储系统。由于Druid 能够同时提供离线和实时数据的查询,因此Druid最常用作为GUI分析、业务监控、实时数仓的数据存储系统。此外Druid拥有一个多进程,分布式架构,每个Druid组件类型都可以独立配置和扩展,为集群提供最大的灵活性。由于Druid架构设计和数据(离线,实时)的特殊性,导致Druid元数据管理逻辑比较复杂,主要体现在Druid具有众多的元数据存储介质以及众多不同类型组件之间元数据传输逻辑上。
2023-07-15 22:23:37 1269 1
原创 关于OLAP技术选型的思考
数据仓库的替代品还是 解决数据到达用户的最后1公里问题的方案回答1:数据时效要求比较高查询数据类型没有数据湖那么宽泛大数据中是一个重要的组件回答2:支持查询qps比较高presto也属于OLAPOLAP就是即席分析,在小一点的公司可以替代数仓,大一点的公司仅仅是解决一部分的问题对性能要求比较高的需求,还是要把数据导入OLAP引擎,根据业务的需求 是否移动数据,如果性能要求高就移动数据,性能要求低就不需要移动数据回答3:OLAP数据应用的一部分,离用户比较近数据时效要求比较高。
2023-07-10 09:38:49 147 1
原创 Doris 最新技术能力调研
不同用户的查询实现资源隔离,查询和写入都可以指定资源组,也可以单独控制某个用户的查询资源使用量。1、配置一个Hive Catalog 配置时,可以配置Hive超管用户,在Doris这边再对每个用户重新赋权,在Doris侧做权限管控,查询Hive时使用超管去查询hive数据。Doris 支持联邦查询,查询多种Catalog,能缓存元数据信息,从而支持查询多种数据源,可以通过Doris作为统一查询网关去查询。查询Hive表时,某个用户Hive有的权限查询的表,Doris这边没有,需要重新赋权。
2023-06-15 10:06:37 983 1
原创 Clickhouse MergeTree引擎配置说明
分区目录可以不断被合并,最终可能被合并成一个目录分区目录数据量最大可达150G插入的数据只有落地到磁盘之后,客户端才能查询到数据数据写入类似于kafka:支持同步,异步写入。支持最近数据插入去重校验数据块合并之后,旧的数据块默认情况下会在480s之后 被删除不活动的数据块:数据被合并后旧的数据块活动的数据块:合并新生成 或 刚写入的 数据块数据块就是:表数据目录下生成的存储数据的目录。
2023-06-09 10:50:50 2202 1
原创 三、kylin读写分离集群部署
1、部署图注意:1、在kylin服务机器上hbase shell 作为存储Hbase集群的客户端,配置需要存储集群的客户端配置,cdh 的hbase配置路径在/etc/hbase/conf下,hbase-site.xml 中不能包含hdfs的信息,不然计算集群会使用Hbase的hdfs配置,只包含zk的信息即可2、hadoop 的配置包含计算集群的所有配置,需要在hdfs-s...
2019-04-30 16:22:36 1002 1
原创 二、kylin优化
目录1、为什么要优化2、从哪些方面去优化3、根据业务需求减少子Cube数目4、避免高基维度参与太多维度组合5、优化Hbase-RowKey,提高查询效率6、其他优化方法1、为什么要优化(1)kylin主要通过空间换时间的方式来提高查询性能,但是如果cube的所有子cube(2的n次方-1 个)都构建出来,会占用很多计算和存储资源,并且很多子cube的...
2019-04-30 16:18:22 535
原创 一、kylin介绍
目录离线OLAP需求多维立方体(Cube)概念Kylin中的数据模型Kylin构建步骤数据在Hbase存储格式查询优化常见问题离线OLAP需求1. 即席查询:指用户在BI系统上通过拖拽现有的查询维度和度量的方式来完成一些临时的数据分析需求。这类需求属于交互式查询,对响应时间有较高的要求(20s)2. 固化查询:对一些固化下来的取数、看数的需求...
2019-04-30 16:07:26 477
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人