滑动平均基本知识点

最新推荐文章于 2025-02-01 00:15:00 发布

XiaomengYe

最新推荐文章于 2025-02-01 00:15:00 发布

阅读量2.9w

点赞数 14

分类专栏：深度学习

本文链接：https://blog.csdn.net/xiaomeng29/article/details/93408059

版权

深度学习专栏收录该内容

5 篇文章

订阅专栏

滑动平均

在对于数据做统计的时，数据抖动是一个很常见的现象，如何防止这种抖动是我们感兴趣的。滑动平均就是这样一种技术，其本质是借助历史记录来创造可以替代原始数据的数据。

举个例子，下图是伦敦一年四季温度变化的图片，横轴为时间（天为单位），纵轴为一天的平均温度：

温度记录theta为如下所示：

我们使用以下公式来计算加权平均温度vt：

(1)

其中v0 = 0。我们把beta称为衰减率，设beta = 0.9，则数据转为下图红点所示：

是不是数据平稳了很多？

滑动平均的原理

可以对公式做一下展开：

$v_t = (1-\beta) \beta^0 \theta_t + (1-\beta) \beta^1 \theta_{t-1} + ... + (1 - \beta) \beta^{t-1} \theta_1$ (2)

可以发现，当前的滑动平均值受前面所有温度的影响，其中时间点越近影响越大。这也说明了为什么滑动平均值比较平稳，因为其实综合之前所有历史记录的值。

参数beta起到了调节作用，beta增大说明历史值的影响也比较大，反之则当前值占主导地位。

滑动平均值修改

滑动平均值存在一个问题， $v1 = \beta v_0 + (1 - \beta) \theta_1$ 但v_0为0，所以v1相比较theta_1是比较小的，同理初阶段的滑动平均值也有这样的问题（ beta较大时尤为明显），如图的紫色曲线：

为了解决这个问题，我们对于滑动品均值做进一步的调整：

$v_t := \frac{v_t}{1 - \beta^t}$ (3)

这样，即使初期的滑动平均值也不会低于原始值很多，而随着跌打的增加分母的影响也将越来越小。

Tensorflow中的滑动平均

tensorflow中的滑动平均衰减率并不是一个固定值。请看下面的函数，我们发现它是一个增函数，且以MOVING_AVERAGE_DECAY为最大值。

# decay为衰减率 MOVING_AVERAGE_DECAY，num_updates为实施滑动平均的步数，默认不填
ema = tf.train.ExponentialMovingAverage(decay=, num_updates=)
# ema.apply 返回滑动平均操作对象，其参数为可训练变量
# 实际应用中会使用 tf.trainable_variables()自动将所有等待训练的参数汇总成列表
ema_op = ema.apply(tf.trainable_variables())

# 以下步骤将滑动平均和训练步骤合并在一起
with tf.control_dependencies([train_step, ema_op]):
    train_op = tf.no_op(name='train')

参考文献：

[1] 吴恩达深度学习

[2] 【北京大学】人工智能实践：Tensorflow笔记