前言
在夜莺监控中推荐用的时序库是VM,后来在使用中知道了VM查询中使用的是兼容PromQL的另一套查询语法MetricsQL,虽然知道中rate不会像prometheus进行数据外推,而是用回溯窗口第一个遇到的数据,但是具体怎么选择不是特别清楚,我找了一些资料,并通过查询的原始数据,来验证一下这个说法是否正确。
问题定义
原始数据如下表:
value | time | time_1 | time_2 |
---|---|---|---|
242236796790 | @1690390711.625 | 2023-07-27 00:58:31 | 0 |
242237434970 | @1690390726.626 | 2023-07-27 00:58:46 | +15 |
242237857924 | @1690390741.627 | 2023-07-27 00:59:01 | +15 |
242238425386 | @1690390756.628 | 2023-07-27 00:59:16 | +15 |
242238849822 | @1690390771.628 | 2023-07-27 00:59:31 | +15 |
242239535711 | @1690390786.629 | 2023-07-27 00:59:46 | +15 |
242239952165 | @1690390801.641 | 2023-07-27 01:00:01 | +15 |
242240510835 | @1690390816.641 | 2023-07-27 01:00:16 | +15 |
原始公式是 rate(m[d]) = (vCurr - vPrev) / (tCurr - tPrev)
经计算rate(net_bytes_recv[1m]) 的结果如下:
- 在时间段00:59:47-00:59:56的结果为35010.5994700265
- 在时间段00:59:57-01:00:01的结果为37282.49855561975
- 在时间段01:00:02-01:00:11的结果为34895.8742959976
那么推测一下rate(net_bytes_recv[1m]) 是怎么选择Curr和Prev的?是否和预期一致 —— 在一个采集数据的时间序列上,在时间戳t查询rate(m[d])函数,Curr取t之前最近的真实样本数据,Prev取t-d之前最近的真实样本数据。如果t-d之前没有真实样本或者丢失,Prev则会取t-d内时间最远的真实样本(个别特殊情况除外,如d<2*scrape_interval等)。
问题拓展
由于我其实对这个比较迷糊,逻辑上没有理解清楚,我就多试了些例子,并且像是发现一些新问题。
End_head | End_tail | End_Dist | Start_head | Start_tail | Curr | Prev | C_P_dist | E_t-Curr | S_t-Prev | Calc_rate | Rate | diff |
---|---|---|---|---|---|---|---|---|---|---|---|---|
0:59:42 | 00:59:46 | 0:00:04 | 0:58:42 | 0:58:46 | 00:59:31 | 00:58:46 | 4 | 0:00:15 | 0:00:00 | 31439.7581676734 | 31439.7582329674 | 0.0000652939997962676 |
0:59:47 | 0:59:56 | 0:00:09 | 0:58:47 | 0:58:56 | 00:59:46 | 00:58:46 | 5 | 0:00:10 | 0:00:10 | 35010.5994577846 | 35010.5994700265 | 0.0000122419005492702 |
0:59:57 | 01:00:01 | 0:00:04 | 0:58:57 | 0:59:01 | 00:59:46 | 00:59:01 | 4 | 0:00:15 | 0:00:00 | 37282.4986757125 | 37282.49855561975 | -0.000120092699944507 |
1:00:02 | 1:00:11 | 0:00:09 | 0:59:02 | 0:59:11 | 01:00:01 | 00:59:01 | 5 | 0:00:10 | 0:00:10 | 34895.8743314873 | 34895.8742959976 | -0.0000354896983481012 |
1:00:12 | 1:00:16 | 0:00:04 | 0:59:12 | 0:59:16 | 01:00:01 | 00:59:16 | 4 | 0:00:15 | 0:00:00 | 33918.6235001407 | 33918.62350876414 | 0.00000862340675666928 |
value | time | time_1 | time_2 |
---|---|---|---|
242236796790 | 1690390711.625 | 00:58:31 | 0 |
242237434970 | 1690390726.626 | 00:58:46 | 15 |
242237857924 | 1690390741.627 | 00:59:01 | 15 |
242238425386 | 1690390756.628 | 00:59:16 | 15 |
242238849822 | 1690390771.628 | 00:59:31 | 15 |
242239535711 | 1690390786.629 | 00:59:46 | 15 |
242239952165 | 1690390801.641 | 01:00:01 | 15 |
242240510835 | 1690390816.641 | 01:00:16 | 15 |
242241187794 | 1690390831.642 | 01:00:31 | 15 |
问题1.为什么相同rate值的查询时间点End的时间范围差不一致,当前样本是有4,9
问题2.获取rate的真实取样间隔数目不一致是为什么,当前样本有4,5
分析数据
从Calc_rate结果上来看,连续值变更时候,样本选取的Curr和Prev在并不是同步变化的,而是依次变化,如上次选取Curr变化,这次选取Prev变化,多次之间重复,也就是导致了rate选取真实样本间隔数目来回跳变。
当查询时间点为真实数据点时,回查真实数据点时间最长,Curr取值为上一次真实数据值,同时Prev正好是另一个真实数据点,这点和d有关,这里d是60s,采集频次是15s,所以Curr和Prev最少间隔是4。
没有缺少数据的情况,数据回溯时间的最大区间为采集频次(在0:59:47-01:00:01,Curr均为00:59:46)
结果
通过这样数据分析,从一方面证明了VM在rate实现上和他所预期的效果是一致的,回溯数据范围为(t-d … t]。其次这些数据里给我的一个重要的认知就是数据范围,即查询点所产生数据不能被看到。具体来说,查询时间点是00:59:47可以看到00:59:46数据;而00:59:46只能选00:59:31数据,这点逻辑上可以类比更通俗例子,报名考试,假如截止日期是明天0点,提交报名信息在0点是不可以的,而11:59:59就是有效的,0点可能是关闭入口,要是没关闭入口提交记录了,在数据记录中会有0点数据,在统计报名有效报考的人中0点整的数据就需要被排除。
至于End时间范围不一致主要是因为虽然Curr选用相同数据,但是不同开始时间导致选用的Prev会不一致,Prev选取里不同的数据,从而产生了变化。取样间隔数不一致和采集数据频率有关,其他规律暂时没有发现。