对于标题其实完整的陈述是这样的:
神经网络可以在一个紧致集(compact set)上逼近任意连续函数。
划重点,首先是紧致集,这是集合论中的知识,你可以把它想象为在一个确切的闭区间 [a, b] 内,可以用神经网络接近任何函数。这个边界必须要明确,实际上你是不可能使用神经网络对输入 x 在 ( − ∞ , + ∞ ) (-\infin,+\infin) (−∞,+∞)区间上逼近 f ( x ) = x 2 f(x)=x^{2} f(x)=x2 。
第二是逼近这个在数学上的定义:Universal approximation theorem实际上逼近就是对于原函数 f(x) 来说,定义一个逼近函数函数的实现为F(x),则对于任意小的误差
ϵ
\epsilon
ϵ ,都有:
∣
F
(
x
)
−
f
(
x
)
∣
<
ϵ
|F(x)-f(x)|<\epsilon
∣F(x)−f(x)∣<ϵ。数学上的证明你可以看这一篇,使用 sigmoid 进行函数逼近Universal Approximation Bounds for Superpositions of a Sigmoidal Function
而从图形上来理解其实那么多节点组合起来总是能拼成一个类似的图形。相关文献:A visual proof that neural nets can compute any function
实际上能逼近任何连续函数的特性也并不是神经网络独有的,像多项式函数,样条曲线,径向基函数都可以实现逼近任意连续函数。因此这个问题的实质和函数逼近理论相关。
参考链接:
知乎回答