内容概述
本节先从矩阵方程引入了向量变换的一系列概念,接着以矩阵变换为例,探讨了引入向量变换概念后,一些思考问题的新角度以及和之前章节一些概念的结合。最后,由矩阵变换的性质引入了一类比较重要的变换:线性变换,并探讨了线性变换的性质和几个线性变换的例子。需要注意的是,之前学习的线性组合的概念是针对同一空间的向量而言的,而这里线性变换的概念则是针对不同空间的向量而言的。
变换的概念
矩阵方程
A
x
=
b
A\boldsymbol x = \boldsymbol b
Ax=b:
在线性代数中的应用不仅仅是直接与向量的线性组合问题有关,通常的情况是把矩阵
A
A
A当作一种对象,它通过乘法“作用”于向量
x
\boldsymbol x
x,产生的新向量称为
A
x
A\boldsymbol x
Ax。
例:
参考下面的方程
A
x
=
b
A\boldsymbol x = \boldsymbol b
Ax=b:
[
4
−
3
1
3
2
0
5
1
]
[
1
1
1
1
]
=
[
5
8
]
\begin{bmatrix}4 & -3 & 1 & 3 \\ 2 & 0 & 5 & 1\end{bmatrix}\begin{bmatrix}1 \\ 1 \\ 1 \\ 1\end{bmatrix} = \begin{bmatrix}5 \\ 8\end{bmatrix}
[42−301531]⎣⎢⎢⎡1111⎦⎥⎥⎤=[58]
和下面的方程
A
u
=
0
A\boldsymbol u = \boldsymbol 0
Au=0:
[
4
−
3
1
3
2
0
5
1
]
[
1
4
−
1
3
]
=
[
0
0
]
\begin{bmatrix}4 & -3 & 1 & 3 \\ 2 & 0 & 5 & 1\end{bmatrix}\begin{bmatrix}1 \\ 4 \\ -1 \\ 3\end{bmatrix} = \begin{bmatrix}0 \\ 0\end{bmatrix}
[42−301531]⎣⎢⎢⎡14−13⎦⎥⎥⎤=[00]
乘以矩阵
A
A
A后,将
x
\boldsymbol x
x变成
b
\boldsymbol b
b,将
u
\boldsymbol u
u变成
0
\boldsymbol 0
0
由这个新观点,解方程
A
x
=
b
A\boldsymbol x = \boldsymbol b
Ax=b就是要求出
R
4
\mathbb R^4
R4中所有经过乘以
A
A
A的“作用”后,变为
R
2
\mathbb R^2
R2中
b
\boldsymbol b
b的向量的
x
\boldsymbol x
x。
由 x \boldsymbol x x到 A x A\boldsymbol x Ax对应由一个向量集到另一个向量集的函数。这个概念推广了通常的函数概念。
由
R
n
\mathbb R^n
Rn到
R
m
\mathbb R^m
Rm的一个变换
T
\boldsymbol T
T是一个规则,它把
R
n
\mathbb R^n
Rn中每个向量
x
\boldsymbol x
x对应以
R
m
\mathbb R^m
Rm中的一个向量
T
(
x
)
\boldsymbol T(\boldsymbol x)
T(x)。集
R
n
\mathbb R^n
Rn称为
T
\boldsymbol T
T的定义域,而
R
m
\mathbb R^m
Rm称为
T
\boldsymbol T
T的余定义域。符号
T
:
R
n
→
R
m
\boldsymbol T: \mathbb R^n \rightarrow \mathbb R^m
T:Rn→Rm说明
T
\boldsymbol T
T的定义域是
R
n
\mathbb R^n
Rn而余定义域是
R
m
\mathbb R^m
Rm。对于
R
n
\mathbb R^n
Rn中的向量
x
\boldsymbol x
x,
R
m
\mathbb R^m
Rm中向量
T
(
x
)
\boldsymbol T(\boldsymbol x)
T(x)称为
x
\boldsymbol x
x(在
T
\boldsymbol T
T作用下)的像。所有像
T
(
x
)
\boldsymbol T(\boldsymbol x)
T(x)的集合称为
T
\boldsymbol T
T的值域。
这里要注意余定义域和值域的区别:
余定义域仅仅说明了定义域中 x \boldsymbol x x的像存在于哪个空间,而值域则说明了 x \boldsymbol x x的像的具体的取值范围。从这个意义上来说,值域一定是余定义域的子集。
这里引入了向量变换的重要概念,至于变换的类型和性质,则由下文继续深入。
矩阵变换
对于一个
m
×
n
m \times n
m×n的矩阵
A
A
A,将矩阵变换
A
x
A\boldsymbol x
Ax记为
x
→
A
x
\boldsymbol x \rightarrow A\boldsymbol x
x→Ax。需要注意的是,根据矩阵运算的法则,上述变换
T
\boldsymbol T
T的定义域为
R
n
\mathbb R^n
Rn(
A
A
A有
n
n
n列意味着有
n
n
n个未知数,说明
x
\boldsymbol x
x属于
R
n
\mathbb R^n
Rn),余定义域为
R
m
\mathbb R^m
Rm(
A
x
A\boldsymbol x
Ax的计算结果可以看成是矩阵
A
A
A各列的线性组合,因此计算出来的结果向量肯定和组成
A
A
A的各列的向量元素个数相等,属于
R
m
\mathbb R^m
Rm),
T
\boldsymbol T
T的值域为
A
A
A的列的所有线性组合(从等价的向量方程的角度去看待矩阵方程可以得出这个观点)。
例:
设
A
=
[
1
−
3
3
5
−
1
7
]
A=\begin{bmatrix}1 & -3 \\ 3 & 5 \\ -1 & 7\end{bmatrix}
A=⎣⎡13−1−357⎦⎤,
u
=
[
2
−
1
]
\boldsymbol u=\begin{bmatrix}2 \\ -1\end{bmatrix}
u=[2−1],
b
=
[
3
2
−
5
]
\boldsymbol b=\begin{bmatrix}3 \\ 2 \\-5\end{bmatrix}
b=⎣⎡32−5⎦⎤,
c
=
[
3
2
5
]
\boldsymbol c=\begin{bmatrix}3 \\ 2 \\5\end{bmatrix}
c=⎣⎡325⎦⎤,定义变换
T
:
R
2
→
R
3
\boldsymbol T: \mathbb R^2 \rightarrow \mathbb R^3
T:R2→R3为
T
(
x
)
=
A
x
\boldsymbol T(\boldsymbol x) = A\boldsymbol x
T(x)=Ax,于是:
T
(
x
)
=
A
x
=
[
1
−
3
3
5
−
1
7
]
[
x
1
x
2
]
=
[
x
1
−
3
x
2
3
x
1
+
5
x
2
−
x
1
+
7
x
2
]
\boldsymbol T(\boldsymbol x) = A\boldsymbol x = \begin{bmatrix}1 & -3 \\ 3 & 5 \\ -1 & 7\end{bmatrix}\begin{bmatrix}x_1 \\ x_2\end{bmatrix} = \begin{bmatrix}x_1 - 3x_2 \\ 3x_1 + 5x_2 \\ -x_1 + 7x_2\end{bmatrix}
T(x)=Ax=⎣⎡13−1−357⎦⎤[x1x2]=⎣⎡x1−3x23x1+5x2−x1+7x2⎦⎤
a. 求
u
\boldsymbol u
u在变换
T
\boldsymbol T
T下的像
T
(
x
)
\boldsymbol T(\boldsymbol x)
T(x)
b. 求
R
2
\mathbb R^2
R2中的向量
x
\boldsymbol x
x,使它在
T
\boldsymbol T
T下的像是
b
\boldsymbol b
b
c. 是否有其他向量在
T
\boldsymbol T
T下的像也是
b
\boldsymbol b
b?
d. 确定
c
\boldsymbol c
c是否属于变换
T
\boldsymbol T
T的值域。
解:
a. 通过计算,可得
T
(
u
)
=
[
5
1
9
]
\boldsymbol T(\boldsymbol u) = \begin{bmatrix}5 \\ 1 \\ 9\end{bmatrix}
T(u)=⎣⎡519⎦⎤,也就是说,变换
T
\boldsymbol T
T将
R
2
\mathbb R^2
R2中的向量
u
\boldsymbol u
u变换为了
R
3
\mathbb R^3
R3中的另一个向量。如图所示:
b. 本质就是要求解矩阵方程
A
x
=
b
A\boldsymbol x = \boldsymbol b
Ax=b,增广行化简得到:
[
1
0
1.5
0
1
−
0.5
0
0
0
]
\begin{bmatrix}1 & 0 & 1.5 \\ 0 & 1 & -0.5 \\ 0 & 0 & 0 \end{bmatrix}
⎣⎡1000101.5−0.50⎦⎤
易知,向量
x
=
[
1.5
−
0.5
]
\boldsymbol x = \begin{bmatrix}1.5 \\ -0.5\end{bmatrix}
x=[1.5−0.5]在
T
\boldsymbol T
T下的像是给定的向量
b
\boldsymbol b
b。
c. 由上述增广矩阵的形式可以看出,方程的解是唯一的,所以仅有一个
x
\boldsymbol x
x使它的像是
b
\boldsymbol b
b。
d. 问题表达的是:对某个
x
\boldsymbol x
x,
c
=
T
(
x
)
\boldsymbol c = \boldsymbol T(\boldsymbol x)
c=T(x),也就是说,方程组
A
x
=
c
A\boldsymbol x = \boldsymbol c
Ax=c是否相容。将对应的增广矩阵进行行化简后得:
[
1
−
3
3
0
1
2
0
0
−
35
]
\begin{bmatrix}1 & -3 & 3 \\ 0 & 1 & 2 \\ 0 & 0 & -35 \end{bmatrix}
⎣⎡100−31032−35⎦⎤
明显的,该方程组不相容,因此
c
\boldsymbol c
c不属于
T
\boldsymbol T
T的值域(但根据定义,
c
\boldsymbol c
c仍属于
T
\boldsymbol T
T的余定义域,
T
\boldsymbol T
T的余定义域为
R
3
\mathbb R^3
R3)。
下面是矩阵变换的几个例子,可以从图形学的角度感受下矩阵变换的作用:
线性变换
1.4节引入了如下定理:
若 A A A是 m × n m \times n m×n矩阵,则变换 x → A x \boldsymbol x \rightarrow A\boldsymbol x x→Ax有以下性质:
A ( u + v ) = A u + A v A(\boldsymbol u + \boldsymbol v) = A\boldsymbol u + A\boldsymbol v A(u+v)=Au+Av
A ( c u ) = c A u A(c\boldsymbol u) = cA\boldsymbol u A(cu)=cAu
参考矩阵的上述性质,引入线性代数中最重要的一类变换:
定义:
变换(或映射) T \boldsymbol T T称为线性的,若:
a. 对 T \boldsymbol T T的定义域中一切 u \boldsymbol u u, v \boldsymbol v v, T ( u + v ) = T ( u ) + T ( v ) \boldsymbol T(\boldsymbol u + \boldsymbol v) = \boldsymbol T(\boldsymbol u) + \boldsymbol T(\boldsymbol v) T(u+v)=T(u)+T(v)
b. 对 T \boldsymbol T T的定义域中一切 u \boldsymbol u u和数 c c c, T ( c u ) = c T ( u ) \boldsymbol T(c\boldsymbol u) = c\boldsymbol T(\boldsymbol u) T(cu)=cT(u)
显然,每个矩阵变换都是线性变换(下面一节将说明,所有的线性变换都是矩阵变换)。
上述性质(a)说明,先将
R
n
\mathbb R^n
Rn中的
u
\boldsymbol u
u和
v
\boldsymbol v
v相加然后再作用以
T
\boldsymbol T
T的结果
T
(
u
+
v
)
\boldsymbol T(\boldsymbol u + \boldsymbol v)
T(u+v)等于先把
T
\boldsymbol T
T作用于
u
\boldsymbol u
u和
v
\boldsymbol v
v然后将
R
m
\mathbb R^m
Rm中的
T
(
u
)
\boldsymbol T(\boldsymbol u)
T(u)和
T
(
v
)
\boldsymbol T(\boldsymbol v)
T(v)相加。
由上述性质又可以推出如下的性质:
若 T \boldsymbol T T是线性变换,则:
T ( 0 ) = 0 \boldsymbol T(\boldsymbol 0) = \boldsymbol 0 T(0)=0
且对 T \boldsymbol T T的定义域中一切向量 u \boldsymbol u u和 v \boldsymbol v v以及数 c c c和 d d d有:
T ( c u + d v ) = c T ( u ) + d T ( v ) \boldsymbol T(c\boldsymbol u + d\boldsymbol v) = c\boldsymbol T(\boldsymbol u) + d\boldsymbol T(\boldsymbol v) T(cu+dv)=cT(u)+dT(v)
证明如下:
T ( 0 ) = T ( 0 ⋅ 0 ) = 0 T ( 0 ) = 0 \boldsymbol T(\boldsymbol 0) = \boldsymbol T(0 \cdot \boldsymbol0) = 0\boldsymbol T(\boldsymbol 0) = \boldsymbol 0 T(0)=T(0⋅0)=0T(0)=0
T ( c u + d v ) = T ( c u ) + T ( d v ) = c T ( u ) + d T ( v ) \boldsymbol T(c\boldsymbol u + d\boldsymbol v) = \boldsymbol T(c\boldsymbol u) + \boldsymbol T(d\boldsymbol v) = c\boldsymbol T(u) + d\boldsymbol T(v) T(cu+dv)=T(cu)+T(dv)=cT(u)+dT(v)
并且,对于所有
u
\boldsymbol u
u,
v
\boldsymbol v
v和
c
c
c,
d
d
d,若一个变换满足
T
(
c
u
+
d
v
)
=
c
T
(
u
)
+
d
T
(
v
)
\boldsymbol T(c\boldsymbol u + d\boldsymbol v) = c\boldsymbol T(\boldsymbol u) + d\boldsymbol T(\boldsymbol v)
T(cu+dv)=cT(u)+dT(v),它必是线性的(取
c
=
d
=
1
c = d =1
c=d=1可得
T
(
u
+
v
)
=
T
(
u
)
+
T
(
v
)
\boldsymbol T(\boldsymbol u + \boldsymbol v) = \boldsymbol T(\boldsymbol u) + \boldsymbol T(\boldsymbol v)
T(u+v)=T(u)+T(v)),取
d
=
0
d = 0
d=0可得
T
(
c
u
)
=
c
T
(
u
)
\boldsymbol T(c\boldsymbol u) = c\boldsymbol T(\boldsymbol u)
T(cu)=cT(u)
可以推广到大于两个向量的向量集的情况:
T
(
c
1
v
1
+
⋯
+
c
p
v
p
)
=
c
1
T
(
v
1
)
+
⋯
+
c
p
T
(
v
p
)
\boldsymbol T(c_1\boldsymbol v_1 + \cdots + c_p\boldsymbol v_p) = c_1\boldsymbol T(\boldsymbol v_1) + \cdots + c_p\boldsymbol T(\boldsymbol v_p)
T(c1v1+⋯+cpvp)=c1T(v1)+⋯+cpT(vp)
上式称为叠加原理。设想
v
1
,
v
2
,
⋯
,
v
p
\boldsymbol v_1,\boldsymbol v_2,\cdots,\boldsymbol v_p
v1,v2,⋯,vp为进入某个系统的信号,
T
(
v
1
)
,
T
(
v
2
)
,
⋯
,
T
(
v
p
)
\boldsymbol T(\boldsymbol v_1),\boldsymbol T(\boldsymbol v_2),\cdots,\boldsymbol T(\boldsymbol v_p)
T(v1),T(v2),⋯,T(vp)为系统对这些信号的响应。系统满足叠加原理,若某一输入可表示为这些信号的线性组合,则系统的响应是对各个信号的响应的同样的线性组合。
例:
给定实数 r r r,定义 T : R 2 → R 2 \boldsymbol T: \mathbb R^2 \rightarrow \mathbb R^2 T:R2→R2为 T ( x ) = r x \boldsymbol T(\boldsymbol x) = r\boldsymbol x T(x)=rx。设 r = 3 r=3 r=3,证明 T \boldsymbol T T是线性变换。
解:
设 u \boldsymbol u u, v \boldsymbol v v属于 R 2 \mathbb R^2 R2, c c c, d d d为数,则有:
T ( c u + d v ) = 3 ( c u + d v ) = 3 c u + 3 d v = c ( 3 u ) + d ( 3 v ) = c T ( u ) + d T ( v ) \boldsymbol T(c\boldsymbol u + d\boldsymbol v)=3(c\boldsymbol u + d\boldsymbol v) = 3c\boldsymbol u + 3d \boldsymbol v=c(3\boldsymbol u) + d(3 \boldsymbol v)=c\boldsymbol T(\boldsymbol u) + d\boldsymbol T(\boldsymbol v) T(cu+dv)=3(cu+dv)=3cu+3dv=c(3u)+d(3v)=cT(u)+dT(v)
因此, T \boldsymbol T T是线性变换。
事实上,当
0
≤
r
≤
1
0 \leq r \leq 1
0≤r≤1时,
T
\boldsymbol T
T称为压缩变换,当
r
>
1
r > 1
r>1时,
T
\boldsymbol T
T称为拉伸变换。
例:
下图是 u = [ 4 1 ] \boldsymbol u = \begin{bmatrix}4 \\ 1\end{bmatrix} u=[41], v = [ 2 3 ] \boldsymbol v = \begin{bmatrix}2 \\ 3\end{bmatrix} v=[23],和 v + v = [ 6 4 ] \boldsymbol v + \boldsymbol v = \begin{bmatrix}6 \\ 4\end{bmatrix} v+v=[64]在 T = A = [ 0 − 1 1 0 ] \boldsymbol T = A = \begin{bmatrix}0 & -1 \\ 1 & 0\end{bmatrix} T=A=[01−10]下的像:
这里可以从几何意义上分别看到该变换的意义((这是一个从 R 2 \mathbb R^2 R2到 R 2 \mathbb R^2 R2的线性变换,因此可以用同一个坐标系来描述,这个变换让 R 2 \mathbb R^2 R2中的向量逆时针旋转90°)逆时针旋转90°)以及变换的性质( T ( u + v ) = T ( u ) + T ( v ) \boldsymbol T(\boldsymbol u + \boldsymbol v) = \boldsymbol T(\boldsymbol u) + \boldsymbol T(\boldsymbol v) T(u+v)=T(u)+T(v))