数据仓库
文章平均质量分 91
非著名野生程序员
互联网创业人/全栈开发者/硬核技术博主
展开
-
SQL 时间范围和时间粒度
大多数情况下,我们需要根据计算时间和时间范围,计算出业务数据的开始时间和结束时间,用于过滤业务数据;然后再根据业务数据的业务时间和时间粒度,计算出业务时间点,用于分组统计业务数据。原创 2022-09-20 19:05:12 · 3063 阅读 · 0 评论 -
微博数仓数据延时优化方案
前言本文以离线数据仓库为背景,重点介绍因传输链路数据延时的不确定性,可能导致部分延迟文件无法参与正常的调度计算或同步,导致数据缺失的问题成因、业务影响及相应的解决方案。关于这类问题的处理,有这么一种论调:我们认为正常情况下,脏 或 缺失 数据的比例是很小的,可以大致认为数据是可用的的;或者我们可以推后一下计算的时间,让数据尽可能的传输完整;诸如此类…。如果认可这种论调,可以直接忽略本文的内容。我们是一个有 态度 的数据团队,旨在精确评估用户(整体/个体)的性能或行为情况,以优质的数据驱动业原创 2020-06-29 17:05:05 · 413 阅读 · 0 评论