导数
我们首先讨论导数的计算,这是几乎所有深度学习优化算法的关键步骤。在深度学习中,我们通常选择对于模型参数可微的损失函数。简而言之,这意味着,对于每个参数, 如果我们把这个参数增加或减少一个无穷小的量,我们可以知道损失会以多快的速度增加或减少,
假设我们有一个函数 f : R → R f: \mathbb{R} \rightarrow \mathbb{R} f:R→R ,其输入和输出都是标量。(方法f
的 导数被定义为)
f ′ ( x ) = lim h → 0 f ( x + h ) − f ( x ) h f'(x) = \lim_{h \rightarrow 0} \frac{f(x+h) - f(x)}{h} f′(x)=h→0limhf(x+h)−f(x)
极值
函数的极值我们可以通俗地讲在定义域内某个区间内的最大值和最小值。
对于函数 y = f ( x ) y=f(x) y=f(x),对于定义域内某个点 x = x 0 x = x_0 x</