一、空间的推广
我们回忆最简单的导数定义,给定一个从
x
0
∈
R
x_0\in \mathbb{R}
x0∈R 某邻域到
R
\mathbb{R}
R 的函数,若有下述极限存在有限:
lim
Δ
x
→
0
Δ
y
Δ
x
=
lim
Δ
x
→
0
f
(
x
0
+
Δ
x
)
−
f
(
x
0
)
Δ
x
\underset{\Delta x \rightarrow 0}{\lim} \frac{\Delta y}{\Delta x} = \underset{\Delta x \rightarrow 0}{\lim} \frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}
Δx→0limΔxΔy=Δx→0limΔxf(x0+Δx)−f(x0) 则称
f
(
x
)
f(x)
f(x) 在
x
0
x_0
x0 可导,该极限为
f
(
x
)
f(x)
f(x) 在
x
0
x_0
x0 处的导数,记作
f
′
(
x
0
)
f'(x_0)
f′(x0).
上述经典定义中,导数概念与函数的定义域所处的空间 R \mathbb{R} R 是有紧密联系的,要想推广导数定义,我们首先来推广空间的概念。首先它是一个拓扑空间,其次还满足向量空间的线性性质,我们称之为拓扑向量空间(其中的元素可以是任何具有某类共同特征的数学对象,包括函数也可以作为其元素)。
定义1 设 X X X 是数域 K \mathbb{K} K 上的向量空间, τ \tau τ 是 X X X 上的一个拓扑。如果 X X X 上的加法 + + + 和数乘 ⋅ \cdot ⋅ 都是连续的,则称 ( X , τ ) (X, \tau) (X,τ) 是(实或复的)拓扑向量空间, τ \tau τ 为 X X X 上的向量拓扑。
其中加法视作由乘积拓扑空间 ( X × X , τ × τ ) (X\times X, \tau \times \tau) (X×X,τ×τ) 到 ( X , τ ) (X, \tau) (X,τ) 的映射。关于加法的连续性可以这样理解:
∀ x , y ∈ X \forall x, y \in X ∀x,y∈X,对于 x + y x+y x+y 在 ( X , τ ) (X, \tau) (X,τ) 中的任一邻域 V x + y V_{x+y} Vx+y,存在 x x x 在 ( X , τ ) (X, \tau) (X,τ) 中的邻域 V x V_x Vx 以及 y y y 在 ( X , τ ) (X, \tau) (X,τ) 中的邻域 V y V_y Vy,使得 V x + V y ⊆ V x + y V_x+V_y \subseteq V_{x+y} Vx+Vy⊆Vx+y. 其中, V x + V y V_x+V_y Vx+Vy 遵循向量空间的相应定义,即 V x + V y = { u + v ∣ u ∈ V x , v ∈ V y } V_x+V_y = \{ u+v | \; u \in V_x, v \in V_y \} Vx+Vy={u+v∣u∈Vx,v∈Vy}.
同样,数乘视作由乘积拓扑空间 ( K × X , τ K × τ ) (\mathbb{K}\times X, \tau_{\mathbb{K}} \times \tau) (K×X,τK×τ) 到 ( X , τ ) (X, \tau) (X,τ) 的映射。关于数乘的连续性可以这样理解:
∀
λ
∈
K
\forall \lambda \in \mathbb{K}
∀λ∈K,
∀
x
∈
X
\forall x \in \mathbb{X}
∀x∈X,以及
λ
x
\lambda x
λx 的任一邻域
V
λ
x
V_{\lambda x}
Vλx,存在
δ
>
0
\delta>0
δ>0,以及
x
x
x 的邻域
V
x
V_x
Vx 使得下面的蕴含关系成立:
⋃
∣
μ
−
λ
∣
<
δ
μ
V
x
⊆
V
λ
x
\underset{|\mu - \lambda|<\delta}{\bigcup} \mu V_x \subseteq V_{\lambda x}
∣μ−λ∣<δ⋃μVx⊆Vλx 其中
μ
V
x
=
{
μ
x
∣
x
∈
V
x
}
\mu V_x = \{ \mu x| \; x \in V_x \}
μVx={μx∣x∈Vx}.
此处连续性的本质便是,对于值的任一邻域,都有二元运算对象的两个相应邻域,使得在这两个邻域内任意作加法或数乘运算,其结果都不会超出之前的值的邻域。这跟通常连续性的定义是一致的。
显然, R \mathbb{R} R 配备了通常拓扑,是一个实拓扑向量空间,因为其上的加法和数乘关于通常拓扑显然是连续的。
值的注意的是,在上述最一般的拓扑向量空间情形中,我们没有“距离”的概念,也就是说不一定能够度量向量空间中任意两个点之间的长度,并且这个空间也不一定是有限维的(极大线性无关组里面可以有无穷个元素)。但很多时候,我们要求这个拓扑向量空间中的拓扑 τ \tau τ 是 Hausdorff 空间(满足 T2 分离性公理),是因为该空间满足了我们根深蒂固的观念——极限若存在则一定是唯一的。
关于 Hausdorff 空间,有下面值的注意的一个结论:
给定两个非空拓扑空间 X , Y X, Y X,Y,则 X , Y X, Y X,Y 为 Hausdorff 空间,当且仅当其积空间是 Hausdorff 空间。
以下给出拓扑向量空间的重要性质(证明留给读者):
定理1 给定拓扑向量空间
(
X
,
τ
)
(X, \tau)
(X,τ),设
α
∈
K
\alpha \in \mathbb{K}
α∈K,
α
≠
0
\alpha \neq 0
α=0,
z
∈
X
z\in X
z∈X,则由
T
z
:
x
⟼
x
+
z
,
S
α
:
x
⟼
α
x
T_z: x \longmapsto x+z, \quad S_{\alpha}: x \longmapsto\alpha x
Tz:x⟼x+z,Sα:x⟼αx 定义的从
X
X
X 到
X
X
X 的映射是
(
X
,
τ
)
(X, \tau)
(X,τ) 的自同胚映射。
如果拓扑向量空间 ( X , τ ) (X, \tau) (X,τ) 中的拓扑能够由同一向量空间 X X X 中的某个范数诱导,那么这个拓扑向量空间就被称为线性赋范空间,完备的线性赋范空间被称为 Banach 空间。
注意这里的诱导是指,我们可以由范数可以诱导出距离: d ( x , y ) = N ( x − y ) d(x,y)=\text{N}(x-y) d(x,y)=N(x−y),其中 N ( ⋅ ) \text{N}(\cdot) N(⋅) 是指某一范数,又由距离可以定义一系列开球,进而由这些开球作为拓扑基,则可构成一个拓扑,由范数诱导的拓扑也叫做范数拓扑。这里范数的定义如下:
定义2 给定向量空间
X
X
X,设
∥
⋅
∥
:
X
→
R
\Vert \cdot \Vert : \; X \rightarrow \mathbb{R}
∥⋅∥:X→R 满足条件:
1)
∥
x
∥
≥
0
\Vert x \Vert \geq 0
∥x∥≥0,且
∥
x
∥
=
0
⟺
x
=
0
\Vert x \Vert = 0 \iff x=0
∥x∥=0⟺x=0;
2)
∥
x
+
y
∥
≤
∥
x
∥
+
∥
y
∥
\Vert x+y \Vert \leq \Vert x \Vert + \Vert y \Vert
∥x+y∥≤∥x∥+∥y∥;
3)
∥
α
x
∥
=
∣
α
∣
∥
x
∥
\Vert \alpha x \Vert = |\alpha|\Vert x \Vert
∥αx∥=∣α∣∥x∥,
则称
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 为
X
X
X 上的范数,
(
X
,
∥
⋅
∥
)
(X, \Vert \cdot \Vert)
(X,∥⋅∥) 被称为线性赋范空间。
注意到,不是任何拓扑向量空间都是 Banach 空间(不可赋范),但 Banach 空间一定是拓扑向量空间。拓扑向量空间还有可能不是度量空间(不可度量化),自然更不可赋范。但若一个拓扑向量空间是可度量化的,这时称其为线性度量空间,关于该空间我们有下述结论:
线性度量空间和线性赋准范空间是同一类拓扑向量空间。
赋准范的意思是指,将定义2 中的第 3)条改为:
3’)
∥
−
x
∥
=
∥
x
∥
\Vert -x \Vert=\Vert x \Vert
∥−x∥=∥x∥;
4’)
lim
α
n
→
0
∥
α
n
x
∥
=
0
\underset{\alpha_n \rightarrow 0}{\lim} \Vert \alpha_n x \Vert=0
αn→0lim∥αnx∥=0,
lim
∥
x
n
∥
→
0
∥
α
x
n
∥
=
0
\underset{\Vert x_n\Vert \rightarrow 0}{\lim} \Vert \alpha x_n \Vert=0
∥xn∥→0lim∥αxn∥=0.
我们称完备的线性度量空间为 Fréchet 空间,也就是指的完备赋准范空间。显然 Fréchet 空间也是拓扑向量空间,但不一定是 Banach 空间。反之,Banach 空间一定是 Fréchet 空间。
下面不加证明地给出拓扑向量空间的可度量化定理。
定理2 给定拓扑向量空间 ( X , τ ) (X, \tau) (X,τ),则 ( X , τ ) (X, \tau) (X,τ) 是线性度量空间当且仅当 ( X , τ ) (X, \tau) (X,τ) 是具有可数原点邻域基的 Hausdorff 拓扑向量空间。
其中邻域基的定义如下:
定义3 在拓扑空间 ( X , τ ) (X, \tau) (X,τ),设 x ∈ X x \in X x∈X, B x \mathscr{B}_x Bx 是 x x x 的邻域子族。如果对于 x x x 的任一邻域 U U U,存在 V ∈ B x V \in \mathscr{B}_x V∈Bx 使得 V ⊆ U V \subseteq U V⊆U,则称 B x \mathscr{B}_x Bx 是 x x x 的一个邻域基。
因此具备不可数的原点邻域基的 Hausdorff 拓扑向量空间,是不可度量化的。
二、导数概念的推广
设
X
X
X、
Y
Y
Y 是两个拓扑向量空间,
φ
\varphi
φ 是从
X
X
X 的原点某邻域到
Y
Y
Y 的映射。称
φ
\varphi
φ 与
0
0
0 相切,如果对于
Y
Y
Y 中原点的任一邻域
W
W
W,存在
X
X
X 中的原点某邻域
V
V
V(系
φ
\varphi
φ 的定义域),使得:
φ
(
t
V
)
⊆
o
(
t
)
W
\varphi(tV) \subseteq o(t) W
φ(tV)⊆o(t)W 其中
o
(
t
)
o(t)
o(t) 是指当
t
→
0
t\rightarrow 0
t→0 时
t
t
t 的高阶无穷小。
上述概念意味着 φ \varphi φ 映射的“扩张速率”随着 t t t 接近零而下降得比 t t t 本身更快,这体现了“相切”时的“柔和接触”,即在 t t t 充分小时,映射 φ \varphi φ 的输出也非常“谦逊”,几乎与 Y Y Y 的原点融为一体。
当
X
X
X、
Y
Y
Y 为线性赋范空间时,
W
W
W、
V
V
V 取定之后,根据
φ
(
t
v
)
=
o
(
t
)
w
\varphi(tv)=o(t)w
φ(tv)=o(t)w 有
∥
φ
(
t
v
)
∥
∥
t
v
∥
∥
t
v
∥
=
∥
φ
(
t
v
)
∥
∣
t
∣
1
∥
w
∥
∥
t
v
∥
∥
w
∥
∥
v
∥
≤
C
(
∥
φ
(
t
v
)
∥
∣
t
∣
1
∥
w
∥
)
∥
t
v
∥
\frac{\Vert\varphi(tv)\Vert}{\Vert tv\Vert} \Vert tv\Vert=\frac{\Vert\varphi(tv)\Vert}{|t|}\frac{1}{\Vert w\Vert} \Vert tv\Vert \frac{\Vert w\Vert}{\Vert v\Vert} \leq C \left(\frac{\Vert\varphi(tv)\Vert}{|t|}\frac{1}{\Vert w\Vert}\right) \Vert tv\Vert
∥tv∥∥φ(tv)∥∥tv∥=∣t∣∥φ(tv)∥∥w∥1∥tv∥∥v∥∥w∥≤C(∣t∣∥φ(tv)∥∥w∥1)∥tv∥ 记
ψ
(
t
v
)
=
C
(
∥
φ
(
t
v
)
∥
∣
t
∣
1
∥
w
∥
)
=
C
∣
o
(
t
)
∣
∣
t
∣
\psi(tv)=C \left(\frac{\Vert\varphi(tv)\Vert}{|t|}\frac{1}{\Vert w\Vert}\right)=C\frac{|o(t)|}{|t|}
ψ(tv)=C(∣t∣∥φ(tv)∥∥w∥1)=C∣t∣∣o(t)∣,则得
∥
φ
(
t
v
)
∥
≤
ψ
(
t
v
)
∥
t
v
∥
\Vert\varphi(tv)\Vert\leq \psi(tv) \Vert tv\Vert
∥φ(tv)∥≤ψ(tv)∥tv∥ 其中
v
v
v 取定之后
w
w
w 也取定,并且
lim
t
→
0
ψ
(
t
v
)
=
0
\underset{t\to0}{\lim} \psi(tv)=0
t→0limψ(tv)=0.
若此时邻域 W W W 是有界的,并取 ∥ v ∥ ≥ c 0 > 0 \Vert v \Vert \geq c_0>0 ∥v∥≥c0>0,则 ∥ w ∥ ∥ v ∥ ≤ c 1 \frac{\Vert w\Vert}{\Vert v\Vert}\leq c_1 ∥v∥∥w∥≤c1( 此时 c 1 c_1 c1 与 w w w、 v v v 的选取无关)。在这样的情况下, ψ ( t v ) = C ( ∥ φ ( t v ) ∥ ∣ t ∣ 1 ∥ w ∥ ) \psi(tv)=C \left(\frac{\Vert\varphi(tv)\Vert}{|t|}\frac{1}{\Vert w\Vert}\right) ψ(tv)=C(∣t∣∥φ(tv)∥∥w∥1) 中的常数 C C C 就是一个固定常数。无论 v v v 取 V V V 中任何一个不充分接近于 0 0 0 的点,都有 lim t → 0 ψ ( t v ) = 0 \underset{t\to0}{\lim} \psi(tv)=0 t→0limψ(tv)=0. 若 V V V 还是一个原点的凸邻域(是凸集的邻域),那么任意的点 v ∈ V v\in V v∈V,我们有 v = t 0 v 0 v=t_0v_0 v=t0v0,其中 ∥ v 0 ∥ ≥ c 0 \Vert v_0 \Vert\geq c_0 ∥v0∥≥c0, v 0 ∈ V v_0\in V v0∈V. 这个显然的结论留给读者证明。
综上所述,我们可以将
t
v
tv
tv 换成
∀
x
∈
V
\forall x\in V
∀x∈V,有
∥
φ
(
x
)
∥
≤
ψ
(
x
)
∥
x
∥
\Vert\varphi(x)\Vert\leq \psi(x) \Vert x\Vert
∥φ(x)∥≤ψ(x)∥x∥其中
lim
∥
x
∥
→
0
ψ
(
x
)
=
0
\underset{\Vert x\Vert \to0}{\lim} \psi(x)=0
∥x∥→0limψ(x)=0.
进一步,我们有 lim ∥ x ∥ → 0 ∥ φ ( x ) ∥ ∥ x ∥ = 0 \underset{\Vert x\Vert \to 0}{\lim} \frac{\Vert \varphi(x)\Vert}{\Vert x\Vert}=0 ∥x∥→0lim∥x∥∥φ(x)∥=0,这时我们已经看到了导数的影子,若 φ ( 0 ) = 0 \varphi(0)=0 φ(0)=0,则有 φ ′ ( 0 ) = 0 \varphi'(0)=0 φ′(0)=0. 这便是对 φ \varphi φ 与 0 0 0 相切的直观解释。
下面给出导数的一般定义。
定义4 设
X
X
X、
Y
Y
Y 是两个拓扑向量空间,
U
U
U 是
X
X
X 中的非空开集。设
f
:
U
→
Y
f: U\to Y
f:U→Y 是一个连续映射。我们称
f
f
f 在
x
0
∈
U
x_0\in U
x0∈U 处可导,若存在一个从
X
X
X 到
Y
Y
Y 的连续线性映射
λ
\lambda
λ,使得对于较小的
y
y
y,都有
f
(
x
0
+
y
)
=
f
(
x
0
)
+
λ
y
+
φ
(
y
)
f(x_0+y)=f(x_0)+\lambda y + \varphi(y)
f(x0+y)=f(x0)+λy+φ(y) 且其中的
φ
\varphi
φ 与
0
0
0 相切。这里的
λ
\lambda
λ 是
f
f
f 在
x
0
x_0
x0 处的导数,记作
D
f
(
x
0
)
Df(x_0)
Df(x0) 或
f
′
(
x
0
)
f'(x_0)
f′(x0).
若记
y
=
t
y
0
y=ty_0
y=ty0,此时
φ
(
t
y
0
)
=
o
(
t
)
w
0
\varphi(ty_0)=o(t)w_0
φ(ty0)=o(t)w0,且有
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
=
λ
y
0
+
o
(
t
)
t
w
0
\frac{f(x_0+ty_0)-f(x_0)}{t} = \lambda y_0 + \frac{o(t)}{t}w_0
tf(x0+ty0)−f(x0)=λy0+to(t)w0 令
t
→
0
t \to 0
t→0,即得
lim
t
→
0
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
=
λ
y
0
\underset{t\to 0}{\lim}\frac{f(x_0+ty_0)-f(x_0)}{t} = \lambda y_0
t→0limtf(x0+ty0)−f(x0)=λy0 上述极限描述了当标量
t
t
t 趋向于
0
0
0 时,函数
f
f
f 在点
x
0
x_0
x0 沿着
y
0
y_0
y0 方向的“变化率”,这正是拓扑向量空间中方向导数的一个定义。该极限是按拓扑向量空间
Y
Y
Y 中的拓扑而定义的收敛。
想必一定有读者对于这个极限的收敛意义非常关注,等后面我们定义了吸收集和平衡集后,再给出上述极限收敛的一个拓扑证明。
特别地,若
X
X
X、
Y
Y
Y 是 Fréchet 空间,则我们有其上的两个准范数
∥
⋅
∥
X
\Vert \cdot \Vert_{X}
∥⋅∥X 和
∥
⋅
∥
Y
\Vert \cdot \Vert_{Y}
∥⋅∥Y. 从而有:
∥
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
−
λ
y
0
∥
Y
=
∥
o
(
t
)
t
w
0
∥
Y
\left\Vert \frac{f(x_0+ty_0)-f(x_0)}{t} - \lambda y_0 \right\Vert_{Y} = \left\Vert \frac{o(t)}{t} w_0\right\Vert_{Y}
tf(x0+ty0)−f(x0)−λy0
Y=
to(t)w0
Y 当
t
→
0
t\to 0
t→0 时上式右边极限为
0
0
0,便有
lim
t
→
0
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
=
λ
y
0
\underset{t\to 0}{\lim} \frac{f(x_0+ty_0)-f(x_0)}{t} = \lambda y_0
t→0limtf(x0+ty0)−f(x0)=λy0,此时的极限按准范数收敛。这就是 Fréchet 空间中的方向导数。
此时观察到,由三角不等式可得:
∣
∥
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
∥
Y
−
∥
λ
y
0
∥
Y
∣
≤
∥
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
−
λ
y
0
∥
Y
\left| \left\Vert \frac{f(x_0+ty_0)-f(x_0)}{t} \right\Vert_{Y} - \Vert\lambda y_0 \Vert_{Y} \right| \leq \\ \left\Vert \frac{f(x_0+ty_0)-f(x_0)}{t} - \lambda y_0 \right\Vert_{Y}
tf(x0+ty0)−f(x0)
Y−∥λy0∥Y
≤
tf(x0+ty0)−f(x0)−λy0
Y 从而有
lim
t
→
0
∥
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
∥
Y
=
∥
λ
y
0
∥
Y
\underset{t\to 0}{\lim} \left\Vert \frac{f(x_0+ty_0)-f(x_0)}{t} \right\Vert_{Y} = \Vert\lambda y_0 \Vert_{Y}
t→0lim
tf(x0+ty0)−f(x0)
Y=∥λy0∥Y 因为准范数往往不满足
∥
λ
y
0
∥
Y
=
∥
λ
∥
∥
y
0
∥
X
\Vert\lambda y_0 \Vert_{Y}=\Vert \lambda \Vert \Vert y_0\Vert_{X}
∥λy0∥Y=∥λ∥∥y0∥X,所以上式不能再计算了。
据此,我们自然有 Gâteaux 导数的定义,作为数学分析中方向导数的推广。
定义5 假设有 Fréchet 空间
X
X
X 和
Y
Y
Y,
U
⊂
X
U ⊂ X
U⊂X 是点
x
0
∈
X
x_0 ∈ X
x0∈X 的一个开邻域,设
f
:
U
→
Y
f: U\to Y
f:U→Y 是一个映射。
f
f
f 在点
x
0
x_0
x0 处存在关于
y
0
y_0
y0 的Gâteaux 导数是指:给定
y
0
∈
X
y_0 ∈ X
y0∈X,存在和
x
0
x_0
x0,
y
0
y_0
y0 有关的映射
λ
x
0
\lambda_{x_0}
λx0 使得
lim
t
→
0
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
=
λ
x
0
(
y
0
)
\underset{t\to 0}{\lim} \frac{f(x_0+ty_0)-f(x_0)}{t} = \lambda_{x_0} (y_0)
t→0limtf(x0+ty0)−f(x0)=λx0(y0) 等价地,
lim
t
→
0
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
−
t
λ
x
0
(
y
0
)
t
=
0
\underset{t\to 0}{\lim} \frac{f(x_0+ty_0)-f(x_0)-t \lambda_{x_0} (y_0)}{t} = 0
t→0limtf(x0+ty0)−f(x0)−tλx0(y0)=0 此时的极限按准范数收敛。Gâteaux 导数记作
λ
x
0
(
y
0
)
=
f
G
′
(
x
0
,
y
0
)
\lambda_{x_0} (y_0) =f'_G(x_0, y_0)
λx0(y0)=fG′(x0,y0).
显然
λ
x
0
(
y
0
)
\lambda_{x_0} (y_0)
λx0(y0) 关于
y
0
y_0
y0 是齐次的,即:
λ
x
0
(
α
y
0
)
=
lim
t
→
0
f
(
x
0
+
t
α
y
0
)
−
f
(
x
0
)
t
=
lim
t
→
0
α
(
f
(
x
0
+
α
t
y
0
)
−
f
(
x
0
)
)
α
t
=
α
λ
x
0
(
y
0
)
\lambda_{x_0} (\alpha y_0) =\underset{t\to 0}{\lim} \frac{f(x_0+t \alpha y_0)-f(x_0)}{t} = \\ \underset{t\to 0}{\lim} \frac{\alpha(f(x_0+\alpha t y_0)-f(x_0))}{\alpha t}= \alpha \lambda_{x_0} ( y_0)
λx0(αy0)=t→0limtf(x0+tαy0)−f(x0)=t→0limαtα(f(x0+αty0)−f(x0))=αλx0(y0) 上面最后一个等式成立是因为准范数的极限性质 4’)而得:
lim
t
→
0
∥
α
(
f
(
x
0
+
α
t
y
0
)
−
f
(
x
0
)
)
α
t
−
α
λ
x
0
(
y
0
)
∥
Y
=
lim
t
→
0
∥
α
[
f
(
x
0
+
α
t
y
0
)
−
f
(
x
0
)
α
t
−
λ
x
0
(
y
0
)
]
∥
Y
=
0
\underset{t\to 0}{\lim} \left\Vert \frac{\alpha(f(x_0+\alpha t y_0)-f(x_0))}{\alpha t} - \alpha \lambda_{x_0} ( y_0) \right \Vert_{Y} = \\ \underset{t\to 0}{\lim} \left\Vert \alpha \left[ \frac{f(x_0+\alpha t y_0)-f(x_0)}{\alpha t} - \lambda_{x_0} ( y_0) \right] \right \Vert_{Y} = 0
t→0lim
αtα(f(x0+αty0)−f(x0))−αλx0(y0)
Y=t→0lim
α[αtf(x0+αty0)−f(x0)−λx0(y0)]
Y=0 即便
λ
x
0
(
y
0
)
\lambda_{x_0} (y_0)
λx0(y0) 是齐次的,但是我们仍然没有
λ
x
0
(
y
0
+
y
1
)
=
λ
x
0
(
y
0
)
+
λ
x
0
(
y
1
)
\lambda_{x_0} (y_0+y_1) = \lambda_{x_0}(y_0)+\lambda_{x_0} (y_1)
λx0(y0+y1)=λx0(y0)+λx0(y1) 成立。也就是说,Gâteaux 导数
λ
x
0
\lambda_{x_0}
λx0 未必是线性的。
这也符合方向导数的本质意义,只要确定 λ x 0 \lambda_{x_0} λx0 沿着某一点 y 0 y_0 y0 是Gâteaux 可导的,那么沿着 y 0 y_0 y0 方向的直线上的任何点的 Gâteaux 导数就都确定了。因此,我们只需要讨论沿着 { y 0 ∣ ∥ y 0 ∥ X = 1 } \{ y_0 | \; \Vert y_0 \Vert_X=1 \} {y0∣∥y0∥X=1} 规定的所有方向的 Gâteaux 导数即可。
显然此处定义的 Gâteaux 导数比定义4 中定义的导数要广泛些,因为 Gâteaux 导数不一定是连续线性的了。但由性质更强的定义4,我们可以推出,在 Fréchet 空间情形下,会有一个连续线性的 Gâteaux 导数。
如果对任意的 y 0 ∈ X y_0 ∈ X y0∈X 上述 Gâteaux 导数都存在,我们就说 f f f 在 x 0 x_0 x0 处是 Gâteaux 可微的。
进一步,若 X X X、 Y Y Y 是 Banach 空间,其上有两个范数 ∥ ⋅ ∥ X \Vert \cdot \Vert_{X} ∥⋅∥X 和 ∥ ⋅ ∥ Y \Vert \cdot \Vert_{Y} ∥⋅∥Y. 则在 Fréchet 空间中成立的上述所有性质,在 Banach 空间中仍然成立。下面我们考虑导数定义中,关于 y 0 y_0 y0 的一致极限(即与 y 0 y_0 y0 无关的导数)。
结合定义4,对于取定的
y
0
y_0
y0 和
w
0
w_0
w0,我们有
∥
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
−
λ
t
y
0
∥
Y
∥
t
y
0
∥
X
=
∥
o
(
t
)
w
0
∥
Y
∥
t
y
0
∥
X
\frac{\left\Vert f(x_0+ty_0)-f(x_0) - \lambda ty_0 \right\Vert_{Y}}{\Vert ty_0 \Vert_{X}} = \frac{\left\Vert o(t) w_0\right\Vert_{Y}}{\Vert ty_0 \Vert_{X}}
∥ty0∥X∥f(x0+ty0)−f(x0)−λty0∥Y=∥ty0∥X∥o(t)w0∥Y 令
t
→
0
t\to 0
t→0,得
lim
t
→
0
∥
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
−
λ
t
y
0
∥
Y
∥
t
y
0
∥
X
=
0
\underset{t \to 0}{\lim} \frac{\left\Vert f(x_0+ty_0)-f(x_0) - \lambda ty_0 \right\Vert_{Y}}{\Vert ty_0 \Vert_{X}} = 0
t→0lim∥ty0∥X∥f(x0+ty0)−f(x0)−λty0∥Y=0 考虑
∥
y
0
∥
X
≥
c
0
>
0
\Vert y_0 \Vert_{X} \geq c_0>0
∥y0∥X≥c0>0,
∥
w
0
∥
Y
≤
c
1
\Vert w_0 \Vert_{Y} \leq c_1
∥w0∥Y≤c1. 即是取遍满足范数大于等于
c
0
c_0
c0 的
X
X
X 的原点某开邻域中的
y
0
y_0
y0,那么
t
y
0
→
0
ty_0 \to 0
ty0→0(按范数收敛) 也就等价于
y
→
0
y \to 0
y→0. 于是便有(关于
y
y
y 的一致极限):
lim
y
→
0
∥
f
(
x
0
+
y
)
−
f
(
x
0
)
−
λ
y
∥
Y
∥
y
∥
X
=
0
\underset{y\to 0}{\lim} \frac{\left\Vert f(x_0+y)-f(x_0) - \lambda y \right\Vert_{Y}}{\Vert y \Vert_{X}} = 0
y→0lim∥y∥X∥f(x0+y)−f(x0)−λy∥Y=0 我们称,满足上述条件的
f
:
U
→
Y
f: U \to Y
f:U→Y 在
x
0
∈
U
x_0 \in U
x0∈U 处 Fréchet 可微,连续线性映射
λ
\lambda
λ 为
f
f
f 在
x
0
x_0
x0 处的 Fréchet 导数,记作
D
f
(
x
0
)
Df(x_0)
Df(x0) 或
f
′
(
x
0
)
f'(x_0)
f′(x0). 此时,我们还有一阶展开式:
f
(
x
0
+
y
)
=
f
(
x
0
)
+
λ
y
+
o
(
y
)
f(x_0+y) = f(x_0) + \lambda y + o(y)
f(x0+y)=f(x0)+λy+o(y) 这是对定义4 的进一步精确化。需要注意的是,Fréchet 导数是定义在 Banach 空间上的,而非 Fréchet 空间。Fréchet 导数与方向
y
y
y 没有任何关系,
λ
y
\lambda y
λy 可以认为是全微分概念的推广。
在 Banach 空间场合,关于 Gâteaux 可微与 Fréchet 可微,我们有下面的反例:
存在 Gâteaux 可微但不 Fréchet 可微的函数,比如 f ( x ) = ∣ x ∣ f(x)=|x| f(x)=∣x∣,在 x = 0 x=0 x=0 沿 h h h 的 Gâteaux 导数为 ∣ h ∣ |h| ∣h∣,但 ∣ h ∣ |h| ∣h∣ 不是关于 h h h 线性的,因此 Fréchet 导数不存在。
反过来我们有,已知 Fréchet 可微显然能够推出 Gâteaux 可微。
最后我们不加证明地给出拓扑向量空间中的两个已知结论:
定理3 设 ( X , τ ) (X, \tau) (X,τ) 是拓扑向量空间,则原点邻域都是吸收集,即对任何原点邻域 V V V, x ∈ X x \in X x∈X,均存在 α > 0 \alpha >0 α>0 使得 x ∈ α V x \in \alpha V x∈αV.
定理4 设 ( X , τ ) (X, \tau) (X,τ) 是拓扑向量空间,则有由平衡原点邻域构成的原点邻域基。
定理4 中的平衡原点邻域是指平衡集 V V V,满足 ∪ ∣ α ∣ ≤ 1 α V ⊂ V \cup_{|\alpha|\leq 1} \alpha V \subset V ∪∣α∣≤1αV⊂V,并且 V V V 还是一个原点邻域.
有了上面关于吸收集和平衡集的定义,我们现在可以证明前面一个极限是如何在向量拓扑意义下进行收敛的了。原问题还原为已知等式:
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
=
λ
y
0
+
o
(
t
)
t
w
0
\frac{f(x_0+ty_0)-f(x_0)}{t} = \lambda y_0 + \frac{o(t)}{t}w_0
tf(x0+ty0)−f(x0)=λy0+to(t)w0 令
t
→
0
t \to 0
t→0,则要证明下述极限成立:
lim
t
→
0
f
(
x
0
+
t
y
0
)
−
f
(
x
0
)
t
=
λ
y
0
\underset{t\to 0}{\lim}\frac{f(x_0+ty_0)-f(x_0)}{t} = \lambda y_0
t→0limtf(x0+ty0)−f(x0)=λy0 事实上,只需证明当
t
→
0
t \to 0
t→0 时,
o
(
t
)
t
w
0
→
0
\frac{o(t)}{t}w_0 \to 0
to(t)w0→0 即可。对于
Y
Y
Y 中原点的任一平衡吸收邻域
U
U
U,以及
w
0
∈
Y
w_0 \in Y
w0∈Y,由
U
U
U 吸收可得,存在
α
>
0
\alpha>0
α>0,使得
w
0
∈
α
U
w_0 \in \alpha U
w0∈αU,此即
w
0
=
α
u
0
w_0=\alpha u_0
w0=αu0,
u
0
∈
U
u_0 \in U
u0∈U,固有
1
α
w
0
=
u
0
∈
U
\frac{1}{\alpha}w_0=u_0 \in U
α1w0=u0∈U. 另一方面,存在
δ
>
0
\delta>0
δ>0,当
∣
t
∣
<
δ
|t|<\delta
∣t∣<δ 时,我们有:
∣
o
(
t
)
t
∣
<
min
(
1
α
,
1
)
\left | \frac{o(t)}{t} \right| < \min \left( \frac{1}{\alpha}, 1 \right)
to(t)
<min(α1,1) 由
U
U
U 是平衡集与
1
α
w
0
∈
U
\frac{1}{\alpha}w_0 \in U
α1w0∈U 可得
o
(
t
)
t
w
0
∈
U
\frac{o(t)}{t} w_0 \in U
to(t)w0∈U. 此即证明了
o
(
t
)
t
w
0
→
0
\frac{o(t)}{t}w_0 \to 0
to(t)w0→0 (
t
→
0
t \to 0
t→0) 在
Y
Y
Y 的向量拓扑中是成立的,原极限的证。
根据定理3 和定理4,我们还可以证明上述定义4 中的 λ \lambda λ 若存在,则唯一。
事实上,如果
X
X
X 中原点某平衡邻域
V
V
V 是
φ
\varphi
φ 的定义域,则对任意的
y
∈
V
y \in V
y∈V,
∣
t
∣
≤
1
|t| \leq 1
∣t∣≤1,都有
t
y
∈
V
ty\in V
ty∈V. 假设我们有
f
(
x
0
+
t
y
)
=
f
(
x
0
)
+
λ
1
t
y
+
φ
1
(
t
y
)
f(x_0+ty)=f(x_0)+\lambda_1 ty + \varphi_1(ty)
f(x0+ty)=f(x0)+λ1ty+φ1(ty) 以及
f
(
x
0
+
t
y
)
=
f
(
x
0
)
+
λ
2
t
y
+
φ
2
(
t
y
)
f(x_0+ty)=f(x_0)+\lambda_2 ty + \varphi_2(ty)
f(x0+ty)=f(x0)+λ2ty+φ2(ty),那么
λ
1
t
y
−
λ
2
t
y
=
φ
2
(
t
y
)
−
φ
1
(
t
y
)
=
o
(
t
)
w
2
−
o
(
t
)
w
1
\lambda_1 ty - \lambda_2 ty = \varphi_2(ty) - \varphi_1(ty) = o(t)w_2 - o(t)w_1
λ1ty−λ2ty=φ2(ty)−φ1(ty)=o(t)w2−o(t)w1 两边除以
t
t
t 并令
t
→
0
t \to 0
t→0 有
λ
1
y
=
λ
2
y
\lambda_1 y = \lambda_2 y
λ1y=λ2y. 结合定理3,对于任何
x
∈
X
x \in X
x∈X,存在
α
>
0
\alpha >0
α>0 使得
x
∈
α
V
x \in \alpha V
x∈αV. 因此,
x
=
α
y
0
x = \alpha y_0
x=αy0,由于
y
0
∈
V
y_0 \in V
y0∈V,则得
λ
1
x
=
λ
1
α
y
0
=
λ
2
α
y
0
=
λ
2
x
\lambda_1 x = \lambda_1 \alpha y_0 = \lambda_2 \alpha y_0 = \lambda_2 x
λ1x=λ1αy0=λ2αy0=λ2x 因此
λ
1
=
λ
2
\lambda_1=\lambda_2
λ1=λ2.
如果我们记
L
(
X
,
Y
)
L(X, Y)
L(X,Y) 为从
X
X
X 到
Y
Y
Y 的连续线性映射,则
λ
∈
L
(
X
,
Y
)
\lambda \in L(X, Y)
λ∈L(X,Y). 若
f
f
f 在
U
U
U(
X
X
X 中的非空开集)的每一个点可微,则
f
′
f'
f′ 构成下述映射:
f
′
:
U
→
L
(
X
,
Y
)
f': U \to L(X, Y)
f′:U→L(X,Y) 关于复合映射,我们仍然有下述链式法则:
定理5 若
f
:
U
→
V
f: U \to V
f:U→V 在
x
0
x_0
x0 是 Fréchet 可微的,
g
:
V
→
W
g:V \to W
g:V→W 在
f
(
x
0
)
f(x_0)
f(x0) 是 Fréchet 可微的,则
g
∘
f
g\circ f
g∘f 在
x
0
x_0
x0 是 Fréchet 可微的,并且
(
g
∘
f
)
′
(
x
0
)
=
g
′
(
f
(
x
0
)
)
∘
f
′
(
x
0
)
(g \circ f)'(x_0) = g'(f(x_0)) \circ f'(x_0)
(g∘f)′(x0)=g′(f(x0))∘f′(x0) 证明 由可微性有,
f
(
x
0
+
y
)
=
f
(
x
0
)
+
λ
1
y
+
o
(
y
)
,
g
(
f
(
x
0
)
+
w
)
=
g
(
f
(
x
0
)
)
+
λ
2
w
+
o
(
w
)
.
f(x_0+y) = f(x_0)+\lambda_1y+o(y) , \\ g(f(x_0)+w)=g(f(x_0)) + \lambda_2 w + o(w).
f(x0+y)=f(x0)+λ1y+o(y),g(f(x0)+w)=g(f(x0))+λ2w+o(w). 从而
g
(
f
(
x
0
+
y
)
)
−
g
(
f
(
x
0
)
)
=
g
(
f
(
x
0
)
+
λ
1
y
+
o
(
y
)
)
−
g
(
f
(
x
0
)
)
=
λ
2
(
λ
1
y
+
o
(
y
)
)
+
o
(
λ
1
y
+
o
(
y
)
)
=
λ
2
∘
λ
1
(
y
)
+
λ
2
(
o
(
y
)
)
+
o
(
λ
1
y
+
o
(
y
)
)
g(f(x_0+y))-g(f(x_0)) = \\ g(f(x_0)+\lambda_1 y +o(y))-g(f(x_0)) = \\ \lambda_2(\lambda_1 y +o(y)) + o(\lambda_1 y +o(y)) = \\ \lambda_2 \circ \lambda_1(y) + \lambda_2(o(y)) +o(\lambda_1 y +o(y))
g(f(x0+y))−g(f(x0))=g(f(x0)+λ1y+o(y))−g(f(x0))=λ2(λ1y+o(y))+o(λ1y+o(y))=λ2∘λ1(y)+λ2(o(y))+o(λ1y+o(y)) 结合
λ
1
\lambda_1
λ1 和
λ
2
\lambda_2
λ2 有界,故有
y
→
0
y \to 0
y→0 时,
∥
g
(
f
(
x
0
+
y
)
)
−
g
(
f
(
x
0
)
)
−
λ
2
∘
λ
1
(
y
)
∥
W
∥
y
∥
U
=
∥
λ
2
(
o
(
y
)
)
+
o
(
λ
1
y
+
o
(
y
)
∥
W
∥
y
∥
U
≤
C
1
∥
o
(
y
)
∥
V
∥
y
∥
U
+
∥
λ
1
y
+
o
(
y
)
∥
V
∥
y
∥
U
⋅
∥
o
(
λ
1
y
+
o
(
y
)
∥
W
∥
∥
λ
1
y
+
o
(
y
)
∥
V
≤
C
1
∥
o
(
y
)
∥
V
∥
y
∥
U
+
C
2
∥
o
(
λ
1
y
+
o
(
y
)
∥
W
∥
∥
λ
1
y
+
o
(
y
)
∥
V
\frac{\Vert g(f(x_0+y))-g(f(x_0))-\lambda_2 \circ \lambda_1(y) \Vert_W}{\Vert y \Vert_U} = \\ \frac{\Vert \lambda_2(o(y)) +o(\lambda_1 y +o(y) \Vert_W}{\Vert y \Vert_U} \leq \\ C_1 \frac{\Vert o(y) \Vert_V}{\Vert y \Vert_U} + \frac{\Vert \lambda_1y+o(y) \Vert_V}{\Vert y \Vert_U} \cdot \frac{\Vert o(\lambda_1 y +o(y) \Vert_W \Vert}{\Vert \lambda_1 y +o(y) \Vert_V} \leq \\ C_1 \frac{\Vert o(y) \Vert_V}{\Vert y \Vert_U} + C_2 \frac{\Vert o(\lambda_1 y +o(y) \Vert_W \Vert}{\Vert \lambda_1 y +o(y) \Vert_V}
∥y∥U∥g(f(x0+y))−g(f(x0))−λ2∘λ1(y)∥W=∥y∥U∥λ2(o(y))+o(λ1y+o(y)∥W≤C1∥y∥U∥o(y)∥V+∥y∥U∥λ1y+o(y)∥V⋅∥λ1y+o(y)∥V∥o(λ1y+o(y)∥W∥≤C1∥y∥U∥o(y)∥V+C2∥λ1y+o(y)∥V∥o(λ1y+o(y)∥W∥ 显然上式最右边趋近于
0
0
0,这便证明了
(
g
∘
f
)
′
(
x
0
)
=
λ
2
∘
λ
1
(
y
)
=
g
′
(
f
(
x
0
)
)
∘
f
′
(
x
0
)
.
(g\circ f)' (x_0) = \lambda_2 \circ \lambda_1(y) = g'(f(x_0))\circ f'(x_0).
(g∘f)′(x0)=λ2∘λ1(y)=g′(f(x0))∘f′(x0).