- 博客(377)
- 资源 (1)
- 问答 (4)
- 收藏
- 关注
原创 从一到无穷大 #59 实时OLAP系统到底有多实时?
现代数据系统几乎都在追求同一个目标:低成本、实时、并且具备高性能的查询能力。但当真正落地到工程实现时,人们会迅速发现,这三点无法同时做到最优。
2025-11-23 12:11:22
938
原创 从一到无穷大 #57:Snowflake的剪枝方案
The fastest way of processing data is to not process it at all.
2025-11-15 18:54:03
1076
原创 从一到无穷大 #56 Disaggregated Infrastructure 与 Compaction-as-a-Service 适用场景与解决方案
Disaggregated Infrastructure与Compaction-as-a-Service是应对现代数据中心挑战的两个互补的技术方向。前者解决资源弹性和成本问题,后者解决性能稳定性问题。两者可以独立部署,但结合后能产生更大价值。
2025-11-15 18:53:24
829
原创 从一到无穷大 #55 提升Lakehouse查询性能:数据层面
Lakehouse的加速可以总结为两个方面,计算引擎的优化和存储引擎(数据分布)的优化。之前的文章已经讨论了很多计算引擎方面的优化,本篇文章来总结基于数据分布的优化措施,用于指导技术选型以及明确当前的定位。
2025-11-07 20:30:32
1135
原创 从一到无穷大 #54 数据管理中宽表(Wide Table)的问题阐述与解决方案
宽表的问题本质是存储布局与查询需求的错配,也是业务场景演进过程中必然会发生的问题。当存储格式无法适配宽表的列数规模和访问模式时,各种痛点自然会暴露。解决问题的关键不在于追求万能格式,而在于实现场景-存储-查询的三重匹配。
2025-11-02 17:19:29
738
原创 从一到无穷大 #53 Beyond TSDB Query performance: Homomorphic Compression
同态压缩的本质是让压缩与计算具备代数同态性(algebraic homomorphism)
2025-10-31 20:03:58
664
原创 从一到无穷大 #52:Lakehouse 不适用时序?打破范式 —— Catalog 架构选型复盘
Lakehouse 表格式通过统一开放存储与仓库级管理功能,极大地拓展了数据基础架构的边界。然而,技术选型没有银弹,需要结合具体业务场景审慎考量。在云原生时序数据库场景下,我们基于对 Lakehouse 元数据机制优劣的分析,选择了自研 Catalog 服务的道路。这一路径使我们能够聚焦于时序数据的特定需求,实现跨表事务、高效元数据访问等能力,并规避许多通用方案的不必要开销和限制。在实践中证明,自研方案很好地支撑了我们大规模时序数据的管理,性能和可靠性均满足预期。
2025-10-26 18:08:41
1108
原创 问津集 #5:Crystal: A Unified Cache Storage System for Analytical Databases
语义缓存,文件缓存,查询结果缓存,中间过程缓存;AP计算中的缓存是一个非常大的话题,基于不同的需求,查询特征,有很多设计的余地在里面,这篇文章基于对于对象存储支持谓词下推能力的观察,设计了一套对应的缓存系统,以跨多个查询缓存和重用计算结果。
2025-08-17 22:33:36
750
原创 问津集 #4:The Five-Minute Rule for the Cloud: Caching in Analytics Systems
CIDR2025的这篇文章对云环境中使用缓存的成本效益进行了建模,主要是为了找到对象缓存和对象存储之间。近40年来,Gray和Putzolu的指引开发人员找到了内存缓存与直接本地存储访问之间的,这篇文章认为分离式云数据库系统设计中,对象缓存和存储也需要类似的经验法则。本来想详细的看下前面几年的文章,但是发现熟悉的大佬[1]已经完成了类似的工作了,那我只需要聚焦在这篇文章就好。
2025-08-10 22:25:22
1160
原创 问津集 #3:TSCache: An Efficient Flash-based Caching Scheme for Time-series Data Workloads
本文分析了时序数据缓存系统TsCache的设计思路与关键技术。文章指出TsCache针对监控场景中频繁查询固定时间范围的特点,通过部分命中机制提升查询效率,对于大请求可将延迟降低36.2%。系统采用创新的混合缓存策略,将缓存分为LRU和FIFO两个分区,分别处理热点历史数据和最新数据,实现了智能的缓存替换机制。虽然部分设计如数据块共享机制在实际应用中存在局限性,但论文提出的时间感知缓存策略和部分命中优化思路具有重要参考价值,为时序数据缓存领域提供了有价值的理论探索。
2025-08-10 19:13:09
986
原创 从一到无穷大 #51:突破阿姆达尔定律:COZ因果剖析与串行优化八法
设想未来整个优化流程——从性能监测,解决方案设计,代码生成,性能评估——都将实现自动化。
2025-08-03 18:34:04
1168
原创 问津集 #2:High Compression and Fast Search on Semi-Structured Logs
很深入的观察,发现Semi-Structured Logs可以通过对schema分组,而不是传统思路按照时间线分组,这种思路对于日志场景非常有帮助,其实非结构化日志也可以通过分词后使用这种方案。
2025-07-27 19:15:19
1028
原创 从一到无穷大 #50:Velox CoalescedIO & LazyVector 原理解析
远端IO请求是没有缓存的情况下轻量级查询中最耗时的地方,对象存储的一次查询又非常久, 使用Velox查询远端存储Parquet文件的过程中发起几次IO请求就成了小查询冷读性能的关键点。
2025-07-23 19:17:25
1032
原创 从一到无穷大 #49:Velox Window Operator 源码解析
Window算子是分区后执行复杂计算的第一选择,其提供基于PartitionKey,SortKey排序,Frame为边界的聚合能力,使其可以实现众多特性,比如Compact的执行流程。
2025-07-23 18:34:33
1183
原创 问津集 #1:Rethinking The Compaction Policies in LSM-trees
Investment View,只学计算机可没法说出这样的话,跨界的知识储备对个人还是非常重要的,很多时候可以提供更为创新的视角。
2025-07-19 20:29:18
911
原创 从一到无穷大 #48:Vector Bucket,S3如何把向量玩成新范式?
摘要 AWS S3最新推出的Vector Bucket功能标志着对象存储从基础存储层向多模态服务转型,通过扩展索引层支持向量检索等垂类场景。该服务以低成本为卖点,单桶支持500亿向量存储,提供sub-second查询性能,并原生集成AWS AI生态。其接口设计类似向量数据库,支持批处理操作和元数据过滤,但存在写入QPS限制(5次/秒/索引)。产品形态体现了存储服务向计算领域渗透的趋势,可能对传统专用数据库市场形成冲击。这种创新思路可延伸至时序、图数据等场景,反映了基础存储服务通过功能扩展寻求增长的新方向。
2025-07-17 23:47:46
921
原创 从一到无穷大 #46:探讨时序数据库Deduplicate与Compaction的设计权衡
时序数据库与关系型数据库一个比较大的功能差异为`Deduplicate`,时序数据库默认携带,而关系型数据库依赖于索引和查询时主动去重。
2025-05-30 21:49:21
1460
原创 从一到无穷大 #45:InfluxDB MCP Server 构建:从工程实践到价值重构
本文主要聚焦于构建 Influxdb MCP Server工程实践中遇到的问题,最终的结果展现,MCP的可能性展望,和MCP给工作生活带来的变化四个方面来讨论。
2025-04-13 20:30:27
1641
1
原创 问题解决:glog中的LOG(INFO)与VLOG无法打印
具体的思路是大概了解下glog框架的原理,然后直接gdb去对比LOG(INFO),VLOG和LOG(WARNING),LOG(ERROR)执行路径的区别,确定没有打印的实际原因是什么。
2025-04-03 18:45:19
1036
原创 从一到无穷大 #44:AWS Glue: Data integration + Catalog
Glue官方的定义是Data integration cloud service,我第一次认识到Glue其实是因为其一统了AWS的元数据管理市场,可以作为Hive,Trio,Spark,Athena的Catalog模块用于查询服务,但在研究了论文后,发现Glue其实是一个巨无霸系统
2025-03-30 22:29:22
1397
原创 从一到无穷大 #43:Presto History Based Optimizer,基于PlanNode粒度统计的查询计划选择策略
HBO(History Based Optimizer) 在 `Operator Node` 级别统计 `Query Execution Statistics`,并使用这些数据来预测相似查询的未来性能。HBO基于一种假设,即用户查询虽然复杂,但本质上是重复性的,一般使用使用模版生成相同结构的查询,这会造成查询计划基本一致,进而可以通过简易的方法找到之前的统计信息,然后用来执行精确的估计。
2025-02-03 14:26:41
1222
原创 从一到无穷大 #42:ClickHouse - 极致工程优化的Lightning Fast Analytics
ClickHouse当今的流行程度毋庸置疑,可以说是业界极致工程优化的代名词,ClickHouse - Lightning Fast Analytics for Everyone这篇论文整体的基调也是这样,即真正意义上的`Industrial Paper
2025-01-19 20:38:44
1147
原创 从一到无穷大 #41:大浪淘沙:Presto演进史
从Presto的演进史我们可以看到一个顶级OLAP系统从零到一百的关键技术发展路径;可以看到一个顶级项目在公司内开疆拓土的历程;也可以看到一个合格的基础架构团队如何支持Meta以至于全球各大公司对于计算日益增长的需求。
2024-11-23 11:27:38
1032
原创 问题排查:C++ exception with description “getrandom“ thrown in the test body
确定是内核版本问题
2024-11-06 19:38:28
1587
原创 从一到无穷大 #39:从 Vectorized Mode vs Code Gen 权衡特定场景执行引擎技术选型标准
Vectorized Mode vs Code Gen
2024-11-03 16:27:30
1247
原创 从一到无穷大 #38:讨论 “Bazel 集成仅使用 Cmake 的依赖项目” 通用方法
Bazel集成仅使用Cmake的依赖项目的通用方法就是:把所有的文件打包成一个Target
2024-10-30 19:16:31
1468
3
原创 从一到无穷大 #37 Databricks Photon:打响 Spark Native Engine 第一枪
The execution engine needs to provide good performance on the raw uncurated datasets that are ubiquitous in data lakes, and excellent performance on structured data stored in popular columnar file formats like Apache Parquet.
2024-10-19 16:18:41
1584
原创 从一到无穷大 #36 Lindorm 宽表:东西互联,南北互联,AI一体
从Lindorm的发展上我们可以看到其在技术架构上明确的构想。即单模型独立提供基础服务,多模型间数据互联,对外提供导入导出服务,AI赋能 。宽列作为Lindorm的基本盘,把这些核心理念发挥到了淋漓尽致。
2024-09-30 19:40:42
1836
原创 从一到无穷大 #35 Velox Parquet Reader 能力边界
肉眼可见的,Velox社区还有大量的核心特性的贡献机会,虽然Meta的开源社区维护一直被人诟病,但是有Presto,Spark背书近五年到不必担心项目爆雷。
2024-09-22 14:43:35
1470
原创 从一到无穷大 #34 从Columnar Storage Formats评估到时序存储格式的设计权衡
本篇文章从[3],[11]入手,分析Parquet,ORC,TsFile的数据格式和索引格式,并通过论文的实验来观察其更适合哪些场景,最后从时序数据库场景入手,推断在设计权衡下现有的存储格式是否可以满足多样化的时序场景(Metric,logging,traceing),是否需要更多的额外索引,是否需要使用开源格式本身提供的辅助结构与功能。
2024-09-01 11:43:55
1178
原创 从一到无穷大 #33 ESTELLE,细分场景下优化的 Cloud Log Engine
高性能基础架构领域组件化发展意味着开发一个世界顶级的OLAP系统的门槛下降了一个台阶,开发团队应该将更多的人力投入到增值功能上去。其次因为SQL的对多种模态的统一,目前各个数据模型,系统间的核心差异化竞争应该集中在存储引擎针对于不同场景的索引定制化上,更彻底的就像阿里云盘古这样从用户态内核栈,定制服务器,定制加速硬件入手了。
2024-08-17 16:09:56
1396
原创 从一到无穷大 #32 TimeCloth,云上的快速 Point-in-Time Recovery
在不同的数据模型下PITR拥有不同的目标,在这个基础上有不同的预期,从而诞生不同的解决方案。
2024-08-03 15:28:21
999
原创 从一到无穷大 #31 Stand on the shoulders of those who came before and not on their toes,从DBMS演化看时序数据库市场发展方向
Michael Stonebraker祖师爷和Andrew Pavlo大师合作的《What Goes Around Comes Around... And Around...》发表在sigmod2024上,作为二十年一个轮回的综述文章,这篇文章宏观上很好的概括了过去两个十年内数据模型和查询语言的演进,并由此引出几种典型系统的消亡史。
2024-07-21 15:14:25
1215
原创 从一到无穷大 #30 从阿里云盘古的屠龙之术看使用blob storage作为统一存储层的优势
存算分离中统一存储层最核心的驱动因素是吞吐量足够的情况下iops/gb足够高(低成本的情况下提供强大的性能)。这意味着要在高密存储机型下达到内存/cpu/网络吞吐/io吞吐的平衡,以此增加总体资源利用率,降低总成本。
2024-06-30 11:20:23
1761
GCC 10.2 2020年7月23日发布
2020-10-01
出现内存泄露,但是用valgrind和mtrace都没办法找到泄露位置。
2020-07-02
做操作系统实验的时候编译内核出现问题,
2020-09-27
这段简单实现switch的汇编代码如何修改?
2020-06-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅