自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(377)
  • 资源 (1)
  • 问答 (4)
  • 收藏
  • 关注

原创 从一到无穷大 #61 Hive史诗

当新的诸神在云端宴饮,很少有人还记得,第一盏点亮黑暗机房的火,是由谁举起。

2025-11-29 15:11:00 1017

原创 从一到无穷大 #60 时序数据库到底有多实时?

本作品采用进行许可。本作品 (博文, 由创作),由确认,转载请注明版权。

2025-11-23 16:44:23 873

原创 从一到无穷大 #59 实时OLAP系统到底有多实时?

现代数据系统几乎都在追求同一个目标:低成本、实时、并且具备高性能的查询能力。但当真正落地到工程实现时,人们会迅速发现,这三点无法同时做到最优。

2025-11-23 12:11:22 938

原创 娱乐至死?短视频时代的“认知税”:信息流、情感与专注力

当娱乐成为主导,一切严肃思考都会衰退

2025-11-16 16:30:04 1034

原创 从一到无穷大 #58 构建 Lakehouse 通用 Compaction 框架

时序数据库相比于Lakehouse的优势到底是什么?

2025-11-15 18:55:00 873

原创 从一到无穷大 #57:Snowflake的剪枝方案

The fastest way of processing data is to not process it at all.

2025-11-15 18:54:03 1076

原创 从一到无穷大 #56 Disaggregated Infrastructure 与 Compaction-as-a-Service 适用场景与解决方案

Disaggregated Infrastructure与Compaction-as-a-Service是应对现代数据中心挑战的两个互补的技术方向。前者解决资源弹性和成本问题,后者解决性能稳定性问题。两者可以独立部署,但结合后能产生更大价值。

2025-11-15 18:53:24 829

原创 从一到无穷大 #55 提升Lakehouse查询性能:数据层面

Lakehouse的加速可以总结为两个方面,计算引擎的优化和存储引擎(数据分布)的优化。之前的文章已经讨论了很多计算引擎方面的优化,本篇文章来总结基于数据分布的优化措施,用于指导技术选型以及明确当前的定位。

2025-11-07 20:30:32 1135

原创 从一到无穷大 #54 数据管理中宽表(Wide Table)的问题阐述与解决方案

宽表的问题本质是存储布局与查询需求的错配,也是业务场景演进过程中必然会发生的问题。当存储格式无法适配宽表的列数规模和访问模式时,各种痛点自然会暴露。解决问题的关键不在于追求万能格式,而在于实现场景-存储-查询的三重匹配。

2025-11-02 17:19:29 738

原创 从一到无穷大 #53 Beyond TSDB Query performance: Homomorphic Compression

同态压缩的本质是让压缩与计算具备代数同态性(algebraic homomorphism)

2025-10-31 20:03:58 664

原创 从一到无穷大 #52:Lakehouse 不适用时序?打破范式 —— Catalog 架构选型复盘

Lakehouse 表格式通过统一开放存储与仓库级管理功能,极大地拓展了数据基础架构的边界。然而,技术选型没有银弹,需要结合具体业务场景审慎考量。在云原生时序数据库场景下,我们基于对 Lakehouse 元数据机制优劣的分析,选择了自研 Catalog 服务的道路。这一路径使我们能够聚焦于时序数据的特定需求,实现跨表事务、高效元数据访问等能力,并规避许多通用方案的不必要开销和限制。在实践中证明,自研方案很好地支撑了我们大规模时序数据的管理,性能和可靠性均满足预期。

2025-10-26 18:08:41 1108

原创 问津集 #5:Crystal: A Unified Cache Storage System for Analytical Databases

语义缓存,文件缓存,查询结果缓存,中间过程缓存;AP计算中的缓存是一个非常大的话题,基于不同的需求,查询特征,有很多设计的余地在里面,这篇文章基于对于对象存储支持谓词下推能力的观察,设计了一套对应的缓存系统,以跨多个查询缓存和重用计算结果。

2025-08-17 22:33:36 750

原创 问津集 #4:The Five-Minute Rule for the Cloud: Caching in Analytics Systems

CIDR2025的这篇文章对云环境中使用缓存的成本效益进行了建模,主要是为了找到对象缓存和对象存储之间。近40年来,Gray和Putzolu的指引开发人员找到了内存缓存与直接本地存储访问之间的,这篇文章认为分离式云数据库系统设计中,对象缓存和存储也需要类似的经验法则。本来想详细的看下前面几年的文章,但是发现熟悉的大佬[1]已经完成了类似的工作了,那我只需要聚焦在这篇文章就好。

2025-08-10 22:25:22 1160

原创 问津集 #3:TSCache: An Efficient Flash-based Caching Scheme for Time-series Data Workloads

本文分析了时序数据缓存系统TsCache的设计思路与关键技术。文章指出TsCache针对监控场景中频繁查询固定时间范围的特点,通过部分命中机制提升查询效率,对于大请求可将延迟降低36.2%。系统采用创新的混合缓存策略,将缓存分为LRU和FIFO两个分区,分别处理热点历史数据和最新数据,实现了智能的缓存替换机制。虽然部分设计如数据块共享机制在实际应用中存在局限性,但论文提出的时间感知缓存策略和部分命中优化思路具有重要参考价值,为时序数据缓存领域提供了有价值的理论探索。

2025-08-10 19:13:09 986

原创 从一到无穷大 #51:突破阿姆达尔定律:COZ因果剖析与串行优化八法

设想未来整个优化流程——从性能监测,解决方案设计,代码生成,性能评估——都将实现自动化。

2025-08-03 18:34:04 1168

原创 问津集 #2:High Compression and Fast Search on Semi-Structured Logs

很深入的观察,发现Semi-Structured Logs可以通过对schema分组,而不是传统思路按照时间线分组,这种思路对于日志场景非常有帮助,其实非结构化日志也可以通过分词后使用这种方案。

2025-07-27 19:15:19 1028

原创 从一到无穷大 #50:Velox CoalescedIO & LazyVector 原理解析

远端IO请求是没有缓存的情况下轻量级查询中最耗时的地方,对象存储的一次查询又非常久, 使用Velox查询远端存储Parquet文件的过程中发起几次IO请求就成了小查询冷读性能的关键点。

2025-07-23 19:17:25 1032

原创 从一到无穷大 #49:Velox Window Operator 源码解析

Window算子是分区后执行复杂计算的第一选择,其提供基于PartitionKey,SortKey排序,Frame为边界的聚合能力,使其可以实现众多特性,比如Compact的执行流程。

2025-07-23 18:34:33 1183

原创 问津集 #1:Rethinking The Compaction Policies in LSM-trees

Investment View,只学计算机可没法说出这样的话,跨界的知识储备对个人还是非常重要的,很多时候可以提供更为创新的视角。

2025-07-19 20:29:18 911

原创 从一到无穷大 #48:Vector Bucket,S3如何把向量玩成新范式?

摘要 AWS S3最新推出的Vector Bucket功能标志着对象存储从基础存储层向多模态服务转型,通过扩展索引层支持向量检索等垂类场景。该服务以低成本为卖点,单桶支持500亿向量存储,提供sub-second查询性能,并原生集成AWS AI生态。其接口设计类似向量数据库,支持批处理操作和元数据过滤,但存在写入QPS限制(5次/秒/索引)。产品形态体现了存储服务向计算领域渗透的趋势,可能对传统专用数据库市场形成冲击。这种创新思路可延伸至时序、图数据等场景,反映了基础存储服务通过功能扩展寻求增长的新方向。

2025-07-17 23:47:46 921

原创 从一到无穷大 #47:浅谈对象存储加速

我们这一行好奇和品味才是核心竞争力。

2025-07-11 18:40:02 1176

原创 从一到无穷大 #46:探讨时序数据库Deduplicate与Compaction的设计权衡

时序数据库与关系型数据库一个比较大的功能差异为`Deduplicate`,时序数据库默认携带,而关系型数据库依赖于索引和查询时主动去重。

2025-05-30 21:49:21 1460

原创 从一到无穷大 #45:InfluxDB MCP Server 构建:从工程实践到价值重构

本文主要聚焦于构建 Influxdb MCP Server工程实践中遇到的问题,最终的结果展现,MCP的可能性展望,和MCP给工作生活带来的变化四个方面来讨论。

2025-04-13 20:30:27 1641 1

原创 问题解决:glog中的LOG(INFO)与VLOG无法打印

具体的思路是大概了解下glog框架的原理,然后直接gdb去对比LOG(INFO),VLOG和LOG(WARNING),LOG(ERROR)执行路径的区别,确定没有打印的实际原因是什么。

2025-04-03 18:45:19 1036

原创 从一到无穷大 #44:AWS Glue: Data integration + Catalog

Glue官方的定义是Data integration cloud service,我第一次认识到Glue其实是因为其一统了AWS的元数据管理市场,可以作为Hive,Trio,Spark,Athena的Catalog模块用于查询服务,但在研究了论文后,发现Glue其实是一个巨无霸系统

2025-03-30 22:29:22 1397

原创 从一到无穷大 #43:Presto History Based Optimizer,基于PlanNode粒度统计的查询计划选择策略

HBO(History Based Optimizer) 在 `Operator Node` 级别统计 `Query Execution Statistics`,并使用这些数据来预测相似查询的未来性能。HBO基于一种假设,即用户查询虽然复杂,但本质上是重复性的,一般使用使用模版生成相同结构的查询,这会造成查询计划基本一致,进而可以通过简易的方法找到之前的统计信息,然后用来执行精确的估计。

2025-02-03 14:26:41 1222

原创 从一到无穷大 #42:ClickHouse - 极致工程优化的Lightning Fast Analytics

ClickHouse当今的流行程度毋庸置疑,可以说是业界极致工程优化的代名词,ClickHouse - Lightning Fast Analytics for Everyone这篇论文整体的基调也是这样,即真正意义上的`Industrial Paper

2025-01-19 20:38:44 1147

原创 从一到无穷大 #41:大浪淘沙:Presto演进史

从Presto的演进史我们可以看到一个顶级OLAP系统从零到一百的关键技术发展路径;可以看到一个顶级项目在公司内开疆拓土的历程;也可以看到一个合格的基础架构团队如何支持Meta以至于全球各大公司对于计算日益增长的需求。

2024-11-23 11:27:38 1032

原创 问题排查:C++ exception with description “getrandom“ thrown in the test body

确定是内核版本问题

2024-11-06 19:38:28 1587

原创 从一到无穷大 #40:DB & AI 融合

像TDengine的TDgpt,使用LLM做时序预测和时序异常检测的实用主义是我所推崇的。

2024-11-03 18:20:43 710

原创 从一到无穷大 #39:从 Vectorized Mode vs Code Gen 权衡特定场景执行引擎技术选型标准

Vectorized Mode vs Code Gen

2024-11-03 16:27:30 1247

原创 从一到无穷大 #38:讨论 “Bazel 集成仅使用 Cmake 的依赖项目” 通用方法

Bazel集成仅使用Cmake的依赖项目的通用方法就是:把所有的文件打包成一个Target

2024-10-30 19:16:31 1468 3

原创 从一到无穷大 #37 Databricks Photon:打响 Spark Native Engine 第一枪

The execution engine needs to provide good performance on the raw uncurated datasets that are ubiquitous in data lakes, and excellent performance on structured data stored in popular columnar file formats like Apache Parquet.

2024-10-19 16:18:41 1584

原创 从一到无穷大 #36 Lindorm 宽表:东西互联,南北互联,AI一体

从Lindorm的发展上我们可以看到其在技术架构上明确的构想。即单模型独立提供基础服务,多模型间数据互联,对外提供导入导出服务,AI赋能 。宽列作为Lindorm的基本盘,把这些核心理念发挥到了淋漓尽致。

2024-09-30 19:40:42 1836

原创 从一到无穷大 #35 Velox Parquet Reader 能力边界

肉眼可见的,Velox社区还有大量的核心特性的贡献机会,虽然Meta的开源社区维护一直被人诟病,但是有Presto,Spark背书近五年到不必担心项目爆雷。

2024-09-22 14:43:35 1470

原创 从一到无穷大 #34 从Columnar Storage Formats评估到时序存储格式的设计权衡

本篇文章从[3],[11]入手,分析Parquet,ORC,TsFile的数据格式和索引格式,并通过论文的实验来观察其更适合哪些场景,最后从时序数据库场景入手,推断在设计权衡下现有的存储格式是否可以满足多样化的时序场景(Metric,logging,traceing),是否需要更多的额外索引,是否需要使用开源格式本身提供的辅助结构与功能。

2024-09-01 11:43:55 1178

原创 从一到无穷大 #33 ESTELLE,细分场景下优化的 Cloud Log Engine

高性能基础架构领域组件化发展意味着开发一个世界顶级的OLAP系统的门槛下降了一个台阶,开发团队应该将更多的人力投入到增值功能上去。其次因为SQL的对多种模态的统一,目前各个数据模型,系统间的核心差异化竞争应该集中在存储引擎针对于不同场景的索引定制化上,更彻底的就像阿里云盘古这样从用户态内核栈,定制服务器,定制加速硬件入手了。

2024-08-17 16:09:56 1396

原创 从一到无穷大 #32 TimeCloth,云上的快速 Point-in-Time Recovery

在不同的数据模型下PITR拥有不同的目标,在这个基础上有不同的预期,从而诞生不同的解决方案。

2024-08-03 15:28:21 999

原创 从一到无穷大 #31 Stand on the shoulders of those who came before and not on their toes,从DBMS演化看时序数据库市场发展方向

Michael Stonebraker祖师爷和Andrew Pavlo大师合作的《What Goes Around Comes Around... And Around...》发表在sigmod2024上,作为二十年一个轮回的综述文章,这篇文章宏观上很好的概括了过去两个十年内数据模型和查询语言的演进,并由此引出几种典型系统的消亡史。

2024-07-21 15:14:25 1215

原创 从一到无穷大 #30 从阿里云盘古的屠龙之术看使用blob storage作为统一存储层的优势

存算分离中统一存储层最核心的驱动因素是吞吐量足够的情况下iops/gb足够高(低成本的情况下提供强大的性能)。这意味着要在高密存储机型下达到内存/cpu/网络吞吐/io吞吐的平衡,以此增加总体资源利用率,降低总成本。

2024-06-30 11:20:23 1761

GCC 10.2 2020年7月23日发布

外网上下的太慢,直接来这里取果实就好。ps:开源软件,收钱违法 虽然官网上说这个版本已经支持了C++20的部分特性,比如Coroutinue,Concept,飞船运算符等,但经过我的测试发现其实并没有支持,换句话来说编译C++20代码失败了,可能是我哪里操作有问题,大家使用以后也欢迎给出自己的想法。

2020-10-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除