![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据专栏
文章平均质量分 91
spark
越吃越胖
学
展开
-
hologres实战_使用总结
字典编 码可以将字符串的比较转成数字的比较,加速 group by 查询,因此建议用户将 group by 的字段都建成 dictionary_encoding_columns,但是不建议将基数高的列建为 dictionary_encoding_columns,会导致查询性能变差。选择JOIN查询时的连接条件列作为分布列。列存会默认创建更多的索引,包括对字符串类型创建bitmap索引,这些索引可以显著加速查询过滤和统计,因此列比较多的表,会占用更多的存储空间,您可以通过关闭这些默认创建的索引,释放空间。原创 2023-12-31 14:46:03 · 1614 阅读 · 0 评论 -
Hologres实战_基本原理
首先,要有一套非常强大的存储,能够把实时的数据和离线的数据存储进来,实现数据的通存,同时还要有一种高效的查询服务,能够支持高 QPS 的查询,支持复杂的分析以及联邦查询和分析,这样的话就可以把离线数据和实时数据都导入到系统里去,然后将前端的数据应用,比如 BI 报表和一些在线服务,对接到系统中去。对于典型的 Lambda 架构,是 将实时数据通过实时数据的链路写入到实时数据存储中,离线数据通过离线数据的链路写入 到离线存储中,然后将不同的 Query 放到不同的存储中,再做一个 Merge。原创 2023-12-31 14:43:49 · 1721 阅读 · 0 评论 -
向量数据库调研
查询复杂度主要是哈希函数的计算复杂度和哈希表的遍历复杂度,一般时间复杂度达到O(N^p),其中N是数据库中向量的数量。时间复杂度主要是与K(最近邻数目)、N(向量数目)和D(向量空间维数)相关,因此时间复杂度能够低至O(log N)。预处理时间复杂度为O(N * D),其中N是数据库中向量的数量,D是向量的维度;自定义实现的 HNSW,调整到规模,并支持完整的 CRUD。搜索复杂度为O(N log N),其中N是数据库中向量的数量。预处理时间复杂度为O(N * log N),其中N是数据库中向量的数量;原创 2023-12-31 14:42:24 · 1178 阅读 · 0 评论 -
分布式数据库事务故障恢复的原理与实践
关系数据库领域虽然历史悠久,但是仍然充满了活力。这些年来,随着硬件的发展,新的技术和思路也不断的涌现出来,从本文描述的单机数据库到分布式数据库中事务故障恢复的的方案,相信大家也都能感受到这些年来数据库技术的发展是如何一步步适应着硬件的发展趋势。未来又会怎样?更大的内存、更快速的网络、更廉价的硬盘、甚至是非易失性内存的普及,这些变化会给数据库技术带来怎样的可能性?让我们一起拭目以待。(迫不及待的同学,欢迎加入 OceanBase 团队,一起创造数据库技术的未来!原创 2023-12-31 14:39:46 · 1334 阅读 · 0 评论 -
ES应用_ES实战
依靠知识库使用es总结一些使用技巧。原创 2023-12-31 14:36:37 · 1519 阅读 · 0 评论 -
ES应用_ES原理
Elasticsearch:基于Apache Lucene并使用Java开发的分布式开源搜索和分析引擎。是 Elastic Stack 的核心,它集中存储您的数据。Elastic Stack:包括 Elasticsearch、Logstash 、 Kibana 和Beats (也称为 ELK Stack)。能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。ES是一个分布式、可扩展的、近实时的数据搜索、分析与存储引擎。原创 2023-12-31 14:30:46 · 1697 阅读 · 0 评论 -
ES应用_Lucene知识
近期的工作逐渐从移动端转向Java后端,现正在做一个Elastic Search(ES)相关的应用,需要提供关键词全文检索及聚合筛选功能。在翻阅了一堆文档后发现,原来ES就是分布式版的Lucene,内核还是Lucene。这就让我联想起了两三年前在移动端上基于Lucene做的聊天记录全文检索SDK,借此机会,重新回顾了Lucene的基本原理及实践,在此整理一番。当然现在基于最新的Lucene 8.0 API在后端更容易实现相同功能了。原创 2023-12-31 14:26:15 · 986 阅读 · 0 评论