数据存储工具
文章平均质量分 88
存储
「已注销」
这个作者很懒,什么都没留下…
展开
-
Hbase Distcp
需要注意的是,distcp命令只会复制表的数据,不会复制表的结构。因此,在执行distcp之前,确保在目标HBase集群上创建了与源表结构相同的表。此外,如果源表包含任何的HBase过滤器或者复杂的结构,可能需要额外的处理来保证数据的完整性。但是,实际的map数可能会受到其他因素的影响,比如输入数据的大小、文件数量等。HBase中的distcp命令用于在不同的HBase集群之间复制表。确保源和目标HBase集群的连接参数正确配置,并且目标集群上已经准备好了要导入的表的空间。原创 2024-04-13 16:01:18 · 779 阅读 · 0 评论 -
StarRocks
单表上过多的物化视图会影响导入的效率:导入数据时,物化视图和 base 表数据是同步更新的,如果一张表的物化视图表超过10张,则有可能导致导入速度很慢。为适配不同的数据导入需求,StarRocks 系统提供了5种不同的导入方式,以支持不同的数据源(如HDFS、Kafka、本地文件等),或者按不同的方式(异步或同步)导入数据。f) 如果能用范围小的整数,就不要用范围大的类型,比如age 导购年龄,我们用户不会超过100,那么tinyint (-128 - 127)就是一个合理的选择。原创 2023-11-08 12:00:00 · 558 阅读 · 0 评论 -
Clickhouse
我们有3个分片节点,有一张本地表t_data_local,共100W数据,那么节点1可能存储30W数据,节点2有20W数据,节点3有50W数据;另外有一张分布式表t_data关联到t_data_local。分布式表需要关联到本地表,本身不存储数据,实际上相当于一张分布式视图,在任意节点查询分布式表,clickhouse会把计算分发到各分片节点,汇总各节点的计算结果后返回全局结果。本地表指各个分片节点自身的表,在各个分片节点上分别存储各自的数据,在不同的分片节点上查询本地表也只会展示当前节点上的数据;原创 2023-11-06 20:30:00 · 2868 阅读 · 0 评论 -
Redis
关系型结构太复杂,数据库,表,字段,类型,主键,外键,索引,表之间关系。Redis Sentinel(哨兵)是一个用于监控和管理 Redis 高可用性的系统,它能够自动检测主节点的故障并进行切换,以确保系统的持续可用性。Sentinel 定期监测 Redis 主节点和从节点的健康状态,如果发现主节点不可用,会自动将一个从节点升级为新的主节点。当主节点不可用时,Sentinel 会自动从可用的从节点中选举一个作为新的主节点,从而保证系统的可用性。当主节点故障时,哨兵会自动完成切换过程,无需人工介入。原创 2023-09-04 22:21:33 · 134 阅读 · 0 评论 -
Hbase实践
HBase 中的行是按照 rowkey 的字典顺序排序的,这种设计优化了 scan 操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于 scan。比起传统的关系型数据库,可以存储半结构化非结构化的数据,可以存储和处理更大级别的数据,提供高效的查询,对于稀疏数据的处理更好,具有更好的横向扩展性,免费开源性价比很高。rowkey 是按照字典顺序排序存储的,因此,设计 rowkey 的时候,要充分利用这个排序的特点,将经常读取的数据存储到一块,将最近可能会被访问 的数据放到一块。原创 2023-09-28 18:03:57 · 174 阅读 · 0 评论