张量CP分解原理及Python实现

最新推荐文章于 2023-11-27 21:13:09 发布

yao1249736473

最新推荐文章于 2023-11-27 21:13:09 发布

阅读量5.1k

点赞数 21

分类专栏：人工智能、机器学习文章标签：数据挖掘线性代数张量

本文链接：https://blog.csdn.net/yao1249736473/article/details/115552171

版权

人工智能、机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

张量分解

参考文献：Kolda TG, Bader BW. Tensor Decomposition and Application. SIAM Rev 2009;51:455–500. https://doi.org/10/dzcrv6.

张量可以视为多维数组，其“形状”取决于张量的阶（order）数。标量是第0阶张量，向量是第1阶张量，矩阵是第2阶张量，第3阶或阶数更高的张量被称为高阶张量（higher-order tensor），一般提到的张量都是特指高阶张量。

在矩阵中，我们需要用第 $i$ 行第 $j$ 列的形式定位一个元素，需要两个索引确定一个元素的位置。如果要确定高阶张量中某一元素的位置则需要更多的索引，所需索引数量与张量阶数相同。如下图所示的三阶张量，就可以用 $(i, j, k)$ 的形式确定元素位置。
在这里插入图片描述

数学符号说明

向量以加粗小写字母表示，如 $\bold{a}$ 、 $\bold{b}$
矩阵以加粗大写字母表示，如 $\bold{A}$ 、 $\bold{B}$
高阶张量以加粗花体字母显示，如 $\boldsymbol{\mathcal{X}}$ 、 $\boldsymbol{\mathcal{Y}}$
一个由 $M$ 个矩阵（向量）组成的集合表示为 $\left\{\bold{A}_{[m]}\in\mathbb{R}^{I_m\times N}\right\}_m^M$ （ $\left\{\bold{a}_{[m]}\in\mathbb{R}^{I_m\times N}\right\}_m^M$ ）
定位张量中某一具体元素时以下标展示，如向量 $\bold{a}$ 中第 $i$ 个元素为 $a_i$ ，矩阵 $\bold{A}$ 的第 $i$ 行第 $j$ 列元素为 $a_{ij}$ ,张量 $\boldsymbol{\mathcal{X}}$ 的某一元素可用 $x_{ijk}$ 表示
元素切片表示方法与numpy保持一致，用下标表示。矩阵 $\bold{A}$ 切片如 $\bold{a}_{i:}$ 表示矩阵第 $i$ 行，张量切片如下图所示。

在这里插入图片描述

$\left|\left| \boldsymbol{\mathcal{X}}\right|\right|_p$ 表示张量的 $p$ 范数，缺省状态下取 $p = 2$
$\left|\left| \boldsymbol{\mathcal{X}}\right|\right|_p= \left(\sum_i\sum_j\sum_k{\left| x_{ijk}\right|^p}\right)^{\frac{1}{p}}$
$\left<\boldsymbol{\mathcal{X}}，\boldsymbol{\mathcal{Y}}\right>$ 表示张量的内积
$\left<\boldsymbol{\mathcal{X}}，\boldsymbol{\mathcal{Y}}\right>= \sum_i\sum_j\sum_k{ x_{ijk}y_{ijk}}$
$\boldsymbol{\mathcal{X}}\ast\boldsymbol{\mathcal{Y}}$ 表示张量的哈达玛积，或element-wise product
$\boldsymbol{\mathcal{Z}}=\boldsymbol{\mathcal{X}}\ast\boldsymbol{\mathcal{Y}}$

$z_{ijk}=x_{ijk}y_{ijk}$
$\bold{A}\otimes\bold{B}$ 表示Kronecker积，若 $\bold{A}\in\mathbb{R}^{I\times J}，\boldsymbol{Y}\in\mathbb{R}^{M\times N}$ ，则 $\left\{\bold{A}\otimes\bold{B}\right\}\in\mathbb{R}^{IM\times JN}$ ，计算方式如下：
$\bold{A}\otimes \bold{B}= \left[\begin{array}{cccc} a_{11}\bold{B}&a_{12}\bold{B}&\cdots&a_{1m_2}\bold{B}\\ a_{21}\bold{B}&a_{22}\bold{B}&\cdots&a_{2m_2}\bold{B}\\ \vdots&\vdots&\ddots&\vdots\\ a_{m_11}\bold{B}+&+a_{m_12}\bold{B}&\cdots&a_{m_1m_2}\bold{B} \end{array}\right]$
$\bold{A}\odot\bold{B}$ 表示Khatri-Rao积，若 $\bold{A}\in\mathbb{R}^{I\times J}，\boldsymbol{Y}\in\mathbb{R}^{K\times J}$ ，则 $\left\{\bold{A}\odot\bold{B}\right\}\in\mathbb{R}^{IK\times J}$ ，计算方式如下：
$\bold{A}\odot\bold{B}= \left( \boldsymbol{a_{:1}}\otimes \boldsymbol{b_{:1}}, \boldsymbol{a_{:2}}\otimes \boldsymbol{b_{:2}}, \dots, \boldsymbol{a_{:n}}\otimes \boldsymbol{b_{:n}} \right)$

$\boldsymbol{A_{[1]}}\odot\boldsymbol{A_{[2]}}\odot\cdots\odot\boldsymbol{A_{[M]}} \dot{=}\bigodot^M_{m=1}\boldsymbol{A_{[m]}}$
$\bold{a}\circ\bold{b}$ 表示向量的外积
$\bold{a}\circ\bold{b}=\bold{a}\bold{b}^T$
$\boldsymbol{\mathcal{X}}\bar{\times}_n\boldsymbol{Y}$ ，表示张量 $\boldsymbol{\mathcal{X}}$ 与矩阵 $\boldsymbol{Y}$ 的 $n$ 模态积，若 $\boldsymbol{\mathcal{X}}\in\mathbb{R}^{I_1\times I_2\times\dots\times I_N}，\boldsymbol{Y}\in\mathbb{R}^{m\times I_n}$ ，则 $\left\{\boldsymbol{\mathcal{X}}\bar{\times}_n\boldsymbol{Y}\right\}\in\mathbb{R}^{I_1\times\dots\times I_{n-1}\times m \times I_{n+1}\times\dots\times I_N}$
$\boldsymbol{\mathcal{X}}\bar{\times}_1\boldsymbol{Y_{[1]}}\bar{\times}_2\boldsymbol{Y_{[2]}}\bar{\times}_3\cdots\bar{\times}_M\boldsymbol{Y_{[M]}}= \boldsymbol{\mathcal{X}}\prod_{m=1}^M\bar{\times}_mY_{[m]}$
$\boldsymbol{X}^{\dagger}$ 表示矩阵 $\boldsymbol{X}$ 的广义逆（Moore–Penrose pseudoinverse）
$\boldsymbol{\mathcal{X}}_{(n)}$ 表示张量以第 $n$ 模态（ $n - m o d e$ ）展开得到的矩阵，若 $\boldsymbol{\mathcal{X}}\in\mathbb{R}^{4\times 3\times 2}$ ，则
${\mathcal{X}}_{\left(1\right)}=\Big[{\mathcal{X}}\left(:,:,1\right),{\mathcal{X}}\left(:,:,2\right)\Big]\\ {\mathcal{X}}_{\left(2\right)}=\Big[{\mathcal{X}}\left(:,:,1\right)^T,{\mathcal{X}}\left(:,:,2\right)^T\Big]\\ {\mathcal{X}}_{\left(3\right)}=\Big[{\mathcal{X}}\left(:,1,:\right)^T,{\mathcal{X}}\left(:,2,:\right)^T, {\mathcal{X}}\left(:,3,:\right)^T\Big]$

CP分解

基本概念

首先我们将可以由多个向量外积得到的张量成为秩1（rank-one）张量，如 $\boldsymbol{\mathcal{Y}}=\bold{a}\circ\bold{b}\circ\bold{c}$ 就是一个秩1矩阵，CP分解就是将一个张量分解为多个形状相同的秩1张量的和，或者说用多个秩1张量去近似表示原始张量，如下图所示：

在这里插入图片描述

设 $\boldsymbol{\mathcal{X}}\in\mathbb{R}^{I\times J\times K}$ ， $\bold{A}=\left(\bold{a}_1,\bold{a}_2,\dots,\bold{a}_R\right)\in\mathbb{R}^I$ ， $\bold{B}=\left(\bold{b}_1,\bold{b}_2,\dots,\bold{b}_R\right)\in\mathbb{R}^J$ ， $\bold{C}=\left(\bold{c}_1,\bold{c}_2,\dots,\bold{c}_R\right)\in\mathbb{R}^K$ ，则CP分解可以公式化为：
$\boldsymbol{\mathcal{X}}\approx \sum_{r=1}^R \bold{a}_r\circ\bold{b}_r\circ\bold{c}_r$
CP分解公式还可以进一步矩阵化为：
$\boldsymbol{\mathcal{X}}_{(1)}\approx \bold{A}\left(\bold{C}\odot\bold{B}\right)^T$

$\boldsymbol{\mathcal{X}}_{(2)}\approx \bold{B}\left(\bold{C}\odot\bold{A}\right)^T$

$\boldsymbol{\mathcal{X}}_{(3)}\approx \bold{C}\left(\bold{B}\odot\bold{A}\right)^T$

与矩阵类似，张量也存在秩的概念，使 $\boldsymbol{\mathcal{X}}= \sum_{r=1}^R \bold{a}_r\circ\bold{b}_r\circ\bold{c}_r$ 时最小的 $R$ 值，或者说能够完美拟合原始张量所需的最少秩1张量数量，即为张量 $\boldsymbol{\mathcal{X}}$ 的秩。

在实际进行CP分解时，通常还会对 $\bold{A}、\bold{B}、\bold{C}$ 按列归一化，并将其范数作为权重存储为向量 $\boldsymbol{\lambda}\in\mathbb{R}^R$ ，则新的公式为：
$\boldsymbol{\mathcal{X}}\approx \sum_{r=1}^R \boldsymbol{\lambda}_r\bold{a}_r\circ\bold{b}_r\circ\bold{c}_r$
对于更高阶的张量 $\boldsymbol{\mathcal{X}}\in\mathbb{R}^{I_1\times I_2\times\cdots\times I_N}$ ，通用表达式为：
$\boldsymbol{\mathcal{X}}_{(n)}\approx \bold{A}_{[n]}\bold{\Lambda}\left( \bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]}\odot\cdots\odot\bold{A}_{[1]} \right)^T$
其中 $\bold{\Lambda}=diag(\boldsymbol{\lambda})$ ， $d i a g$ 为对角矩阵化。

ALS-CP

ALS（alternating least squares、交替最小二乘法）

公式推导

下面以三阶张量 $\boldsymbol{\mathcal{X}}$ 为例介绍如何使用ALS计算CP分解的因子矩阵 $\bold{A}、\bold{B}、\bold{C}$ 。首先我们的最终目标是让由

$\bold{A}、\bold{B}、\bold{C}$ 估计得到的张量 $\hat{\boldsymbol{\mathcal{X}}}$ 尽可能的接近原始张量 $\boldsymbol{\mathcal{X}}$ ，即：
$min\left|\left| \hat{\boldsymbol{\mathcal{X}}}-\boldsymbol{\mathcal{X}} \right|\right| \text{ with } \hat{\boldsymbol{\mathcal{X}}}= \sum_{r=1}^R \boldsymbol{\lambda}_r\bold{a}_r\circ\bold{b}_r\circ\bold{c}_r$
为此，我们利用公式(12)(16)可以得到如下估计因子矩阵 $\hat{\bold{A}}=\bold{A}\bold{\Lambda}$ 的方法：
$min\left|\left| \hat{\boldsymbol{\mathcal{X}}}_{(1)}-\boldsymbol{\mathcal{X}}_{(1)} \right|\right|= min\left|\left| \hat{\bold{A}}\left(\bold{C}\odot\bold{B}\right)^T -\boldsymbol{\mathcal{X}_{(1)}} \right|\right|$

$\hat{\bold{A}}=\boldsymbol{\mathcal{X}_{(1)}}\left[\left(\bold{C}\odot\bold{B}\right)^T\right]^{\dagger}$

根据Khatri-Rao的性质 $\left(\bold{A}\odot\bold{B}\right)^T=\bold{A}^T\bold{A}\ast\bold{B}^T\bold{B}$ 、 $\left(\bold{A}\odot\bold{B}\right)^{\dagger}=\left(\bold{A}^T\bold{A}\ast\bold{B}^T\bold{B}\right)^{\dagger}\left(\bold{A}\odot\bold{B}\right)^T$ ，公式(19)可转化为：
$\hat{\bold{A}}=\boldsymbol{\mathcal{X}_{(1)}} \left(\bold{C}\odot\bold{B}\right) \left(\bold{C}^T\bold{C}\ast\bold{B}^T\bold{B}\right)^{\dagger}$
在得到 $\hat{\bold{A}}$ 后，我们又可以通过 $\hat{\bold{A}}$ 和 $\bold{C}$ 得到 $\hat{\bold{B}}$ ，再通过 $\hat{\bold{A}}$ 和 $\hat{\bold{B}}$ 计算 $\hat{\bold{C}}$ ，从而完成一轮 $\bold{A}、\bold{B}、\bold{C}、\bold{\Lambda}$ 的更新，重复此过程即可使 $\hat{\boldsymbol{\mathcal{X}}}$ 不断接近原始张量 $\boldsymbol{\mathcal{X}}$ ，最终完成CP分解。
$\hat{\bold{B}}=\boldsymbol{\mathcal{X}_{(2)}} \left(\bold{C}\odot\bold{A}\right) \left(\bold{C}^T\bold{C}\ast\bold{A}^T\bold{A}\right)^{\dagger}$

$\hat{\bold{C}}=\boldsymbol{\mathcal{X}_{(2)}} \left(\bold{B}\odot\bold{A}\right) \left(\bold{B}^T\bold{B}\ast\bold{A}^T\bold{A}\right)^{\dagger}$

对高阶张量 $\boldsymbol{\mathcal{X}}\in\mathbb{R}^{I_1\times I_2\times\cdots\times I_N}$ 以及参数矩阵集合 $\left\{\bold{A}_{[n]}\in\mathbb{R}^{I_n\times R}\right\}_n^N$ 的通用表达式为:
$\bold{V}= \left( \bold{A}_{[N]}^T\bold{A}_{[N]}\ast\cdots\bold{A}_{[n+1]}^T\bold{A}_{[n+1]}\ast\bold{A}_{[n-1]}^T\bold{A}_{[n-1]}\ast\cdots\ast\bold{A}_{[1]}^T\bold{A}_{[1]} \right)$

$\hat{\bold{A}}_{[n]}=\boldsymbol{\mathcal{X}}_{(n)} \left( \bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]} \odot\cdots\odot\bold{A}_{[1]} \right)\bold{V}^{\dagger}$

程序实现

程序参照《Tensor Decompositions and Applications》实现，流程如下：

Step1: 初始化参数矩阵集合 $\left\{\bold{A}_{[n]}\in\mathbb{R}^{I_n\times R}\right\}_n^N=\text{A}$ 以及权重向量 $\boldsymbol{\lambda}=\text{lbd}$ :

# 使用tensorly提供的函数初始化
lbd, A = initialize_cp(tensor, rank, init='svd', svd='numpy_svd',
                       random_state=0,
                       normalize_factors=True)
# 或自己进行随机初始化
A = []
lbd = tl.ones(rank)
for n in range(N):
    A.append(tl.tensor(np.random.random((tensor.shape[n], rank))))

Step2: 通过公式(23)计算 $\bold{V}$ ：

# 使用None
V = None
for i in range(N):
	if i != n:
		if V is None:
			V = np.matmul(A[i].T, A[i])
		else:
			V = np.matmul(A[i].T, A[i]) * V

# 或将V初始化为RxR的1矩阵
V = np.ones((R, R))
for i in range(N):
	if i != n:
		V = np.matmul(A[i].T, A[i]) * V

Step3: 通过公式(24)计算 $\hat{\bold{A}}_{[n]}=\text{A[n]}$ ：

T = khatri_rao(A, skip_matrix=n)
A[n] = np.matmul(np.matmul(tl.unfold(tensor, mode=n), T), np.linalg.pinv(V))

$T=\left( \bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]} \odot\cdots\odot\bold{A}_{[1]} \right)$

$\boldsymbol{\mathcal{X}}_{(n)}=\text{tl.unfold(tensor, mode=n)}$

$\bold{V}^{\dagger}=\text{np.linalg.pinv(V)}$

Step4: 对 $\hat{\bold{A}}_{[n]}$ 的每一列做归一化得到权重向量 $\boldsymbol{\lambda}$ 以及 $\bold{A}_{[n]}$ ：

for r in range(R):
    lbd[r] = tl.norm(A[n][:, r])
A[n] = A[n] / tl.reshape(lbd, (1, -1))

Step5: 结束迭代的条件包括损失值足够小或不再变小，因子矩阵的变化很小，目标值接近于零，或者超过预定义的最大迭代次数。下面只实现了第一种作为示例：

tensor_pred = tl.fold(np.matmul(np.matmul(A[0], np.diag(lbd)), 
                                khatri_rao(A, skip_matrix=0).T),
                      mode=0,
                      shape=tensor.shape)
if tl.norm(tensor - tensor_pred) <= 1e-7:
    return A, lbd

$tensor_pred) loss=\left|\left| \hat{\boldsymbol{\mathcal{X}}}-\boldsymbol{\mathcal{X}} \right|\right| =\text{tl.norm(tensor - tensor\_pred)}$

$tensor_pred , 计算方式参考公式(16) \hat{\boldsymbol{\mathcal{X}}}=\text{tensor\_pred}, \text{ 计算方式参考公式(16)}$

$\bold{\Lambda}=\text{np.diag(lbd)}$

完整程序如下：

import numpy as np
import tensorly as tl
from tensorly.decomposition._cp import initialize_cp

from tensorly.tenalg import khatri_rao
from tqdm import tqdm

def cp_als(tensor: np.ndarray, R=1, max_iter=100):
    N = tl.ndim(tensor)
    # Step 1
    lbd, A = initialize_cp(tensor, R, init='svd', svd='numpy_svd',
                           random_state=0,
                           normalize_factors=True)
    # A = []
    # for n in range(N):
    #     np.random.seed(N)
    #     A.append(tl.tensor(np.random.random((tensor.shape[n], rank))))
    # lbd = tl.ones(rank)

    for epoch in tqdm(range(max_iter)):
        for n in range(N):
            # Step 2
            V = np.ones((R, R))
            for i in range(N):
                if i != n:
                    V = np.matmul(A[i].T, A[i]) * V
            # V = None
            # for i in range(N):
            #     if i != n:
            #         if V is None:
            #             V = np.matmul(A[i].T, A[i])
            #         else:
            #             V = np.matmul(A[i].T, A[i]) * V


            # Step 3
            T = khatri_rao(A, skip_matrix=n)
            A[n] = np.matmul(np.matmul(tl.unfold(tensor, mode=n), T), np.linalg.pinv(V))

            # Step 4
            for r in range(R):
                lbd[r] = tl.norm(A[n][:, r])
            A[n] = A[n] / tl.reshape(lbd, (1, -1))
		# Step 5
        tensor_pred = tl.fold(np.matmul(np.matmul(A[0], np.diag(lbd)),
                                        khatri_rao(A, skip_matrix=0).T),
                              mode=0,
                              shape=tensor.shape)
        if tl.norm(tensor - tensor_pred) <= 1e-7:
            return A, lbd, epoch

    return A, lbd, max_iter

if __name__ == '__main__':
    np.random.seed(10086)
    inpt = tl.tensor(np.random.random((3, 3, 3)), dtype=np.float32)
    A, lbd, epoch = cp_als(inpt, R=5, max_iter=1000)
    tensor_pred = tl.fold(np.matmul(np.matmul(A[0], np.diag(lbd)),
                                    khatri_rao(A, skip_matrix=0).T),
                          mode=0,
                          shape=inpt.shape)

    print(tl.norm(inpt - tensor_pred), epoch)

附加说明

initialize_cp中使用SVD初始化的方式：

为了初始化 $\bold{A}_{[n]}$ ，需要先对 $\boldsymbol{\mathcal{X}}_{(n)}$ 做SVD得到左奇异矩阵 $\bold{U}\in\mathbb{R}^{M\times N}$ :

$\boldsymbol{\mathcal{X}}_{(n)}=\bold{U}\bold{\Sigma}\bold{V}$

若选取的 $\bold{R}\leq N$ ，取左奇异矩阵 $\bold{U}$ 的前 $\bold{R}$ 列作为 $\bold{A}_{[n]}$ 即可：

$\bold{A}_{[1]}=\left[\bold{u}_{:1},\bold{u}_{:2},\dots,\bold{u}_{:R}\right]$

若选取的 $\bold{R}> N$ ，则还需要生成随机矩阵 $\bold{F}\in\mathbb{R}^{M\times\left(R-N\right)}$ 拼接到矩阵 $\bold{U}$ 的右侧作为 $\bold{A}_{[n]}$

BP-CP

BP（Back Propagation，反向传播），利用梯度下降法求解CP参数 $\left\{\bold{A}_{[n]}\in\mathbb{R}^{I_n\times R}\right\}^N_{n=1}$

公式推导

与ALS-CP相同，先以三阶张量为例，我们的目标是让由 $\bold{A}、\bold{B}、\bold{C}$ 估计得到的张量 $\hat{\boldsymbol{\mathcal{X}}}$ 尽可能的接近原始张量 $\boldsymbol{\mathcal{X}}$ ，因此将损失/目标函数设置为：
$\begin{aligned} \bold{L} &=\frac{1}{2}\left[\boldsymbol{\mathcal{X}}_{(1)}-\bold{A}(\bold{C}\odot\bold{B})^T\right]^2\\ &=\frac{1}{2}\left[\boldsymbol{\mathcal{X}}_{(2)}-\bold{B}(\bold{C}\odot\bold{A})^T\right]^2\\ &=\frac{1}{2}\left[\boldsymbol{\mathcal{X}}_{(3)}-\bold{C}(\bold{B}\odot\bold{A})^T\right]^2 \end{aligned}$
乘以 $\frac{1}{2}$ 是为了方便求导,为了简化表达式，设 $\bold{\Theta}=\boldsymbol{\mathcal{X}}_{(1)}-\bold{A}(\bold{C}\odot\bold{B})^T$ ，则公式(34)可以化作 $loss=\frac{1}{2}\left(\bold{\Theta}\right)^2$ ，对 $\bold{A}$ 求偏导的结果为：
$\begin{aligned} \frac{\partial\bold{L}}{\partial\bold{A}} &=2\times\frac{1}{2}\bold{\Theta}\times\frac{\partial\bold{\Theta}}{\partial\bold{A}}\\ &=\bold{\Theta}\frac{\partial\boldsymbol{\mathcal{X}}_{(1)}-\bold{A}(\bold{C}\odot\bold{B})^T}{\partial\bold{A}}\\ &=-\bold{\Theta}\left(\bold{C}\odot\bold{B}\right) \end{aligned}$
同理可以算出 $\frac{\partial\bold{L}}{\partial\bold{B}}$ 与 $\frac{\partial\bold{L}}{\partial\bold{C}}$ ，然后用梯度下降法更新参数即可，下式中 $l r$ 表示学习率：
$\begin{aligned} \bold{A}\leftarrow \bold{A}-lr\ast\frac{\partial\bold{L}}{\partial\bold{A}}\\ \bold{B}\leftarrow \bold{B}-lr\ast\frac{\partial\bold{L}}{\partial\bold{B}}\\ \bold{C}\leftarrow \bold{C}-lr\ast\frac{\partial\bold{L}}{\partial\bold{C}} \end{aligned}$
综上所述，高阶张量的通用公式如下，损失函数为：
$\begin{aligned} \bold{L} &=\frac{1}{2}\left[\boldsymbol{\mathcal{X}}_{(n)}-\bold{A}_{[n]}\left(\bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]} \odot\cdots\odot\bold{A}_{[1]}\right)^T\right]^2 \end{aligned}$
偏导为：
$\begin{aligned} \frac{\partial\bold{L}}{\partial\bold{A}_{[n]}} &=2\times\frac{1}{2}\bold{\Theta}\times\frac{\partial\bold{\Theta}}{\partial\bold{A}_{[n]}}\\ &=\bold{\Theta}\frac{\partial\boldsymbol{\mathcal{X}}_{(n)}-\bold{A}_{[n]}\left(\bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]} \odot\cdots\odot\bold{A}_{[1]}\right)^T}{\partial\bold{A}_{[n]}}\\ &=-\bold{\Theta}\left(\bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]} \odot\cdots\odot\bold{A}_{[1]}\right) \end{aligned}$

$\bold{\Theta}=\boldsymbol{\mathcal{X}}_{(n)}-\bold{A}_{[n]}\left(\bold{A}_{[N]}\odot\cdots\odot\bold{A}_{[n+1]}\odot\bold{A}_{[n-1]} \odot\cdots\odot\bold{A}_{[1]}\right)^T$

参数更新公式为：
$\bold{A}_{[n]}\leftarrow \bold{A}_{[n]}-lr\ast\frac{\partial\bold{L}}{\partial\bold{A}_{[n]}}$

程序实现

Step1: 初始化参数矩阵集合 $\left\{\bold{A}_{[n]}\in\mathbb{R}^{I_n\times R}\right\}_n^N=\text{A}$ 、梯度矩阵（Jacobian矩阵）集合 $grad_A \left\{\frac{\bold{L}}{\bold{A}_{[n]}}\in\mathbb{R}^{I_n\times R}\right\}_n^N=\text{grad\_A}$ 以及权重向量 $\boldsymbol{\lambda}=\text{lbd}$ :

# 使用tensorly提供的函数初始化
lbd, A = initialize_cp(tensor, rank, init='random', svd='numpy_svd',
                       random_state=0,
                       normalize_factors=True)
# 或自己进行随机初始化
A = []
lbd = tl.ones(rank)
for n in range(N):
    A.append(tl.tensor(np.random.random((tensor.shape[n], rank))))

Step2: 在每个epoch开始时计算 $\Theta=\text{theta}$ ，并将梯度矩阵（Jacobian矩阵）集合 $grad_A \left\{\frac{\bold{L}}{\bold{A}_{[n]}}\in\mathbb{R}^{I_n\times R}\right\}_n^N=\text{grad\_A}$ 归零:

tensor_pred = tl.fold(np.matmul(np.matmul(A[0], np.diag(lbd)), 
                                khatri_rao(A, skip_matrix=0).T),
                      mode=0,
                      shape=tensor.shape)
theta = (tensor - tensor_pred)
grad_A = []

Step3: 计算每个参数矩阵 $\bold{A}_{[n]}$ 对应的梯度矩阵 $\frac{\bold{L}}{\bold{A}_{[n]}}$ 并存储，对应公式47：

for n in range(N):
    grad_A.append(np.zeros_like(A[n]))
    grad_A[n] = np.matmul(tl.unfold(theta, n), khatri_rao(A, skip_matrix=n))

Step4: 更新参数矩阵，对应公式49，减法变成加法是因为由公式47求得的梯度矩阵带有负号：

for n in range(N):
    A[n] = A[n] + lr * grad_A[n]

Step5: 最后计算以下每个epoch的损失值并输出，方便观察收敛情况，这里对 $\bold{L}$ 内元素求和输出：

loss = np.sum(0.5 * np.square(tl.unfold(theta, 0)))
print("epoch {}: loss={}".format(epoch, loss))

完整程序如下：

import numpy as np
import tensorly as tl
from tensorly.decomposition._cp import initialize_cp

from tensorly.tenalg import khatri_rao
from tqdm import tqdm


def cp_bp(tensor: np.ndarray, R=1, lr=1e-2, max_iter=100):
    N = tl.ndim(tensor)
    # Step 1
    lbd, A = initialize_cp(tensor, R, init='random', svd='numpy_svd',
                         random_state=0,
                         normalize_factors=True)
    
    for epoch in range(max_iter):
        # Step 2
        tensor_pred = tl.fold(np.matmul(np.matmul(A[0], np.diag(lbd)), 
        								khatri_rao(A, skip_matrix=0).T),
                              mode=0,
                              shape=tensor.shape)
        theta = (tensor - tensor_pred)
        grad_A = []
        
        # Step 3
        for n in range(N):
            grad_A.append(np.zeros_like(A[n]))
            grad_A[n] = np.matmul(tl.unfold(theta, n), khatri_rao(A, skip_matrix=n))
            
        # Step 4
        for n in range(N):
            A[n] = A[n] + lr * grad_A[n]
            
        # Step 5
        loss = np.sum(0.5 * np.square(tl.unfold(theta, 0)))
        print("epoch {}: loss={}".format(epoch, loss))
        
    return A, lbd

if __name__ == '__main__':
    np.random.seed(10086)
    inpt = tl.tensor(np.random.random((3, 3, 3)), dtype=np.float32)
    A, lbd = cp_bp(inpt, R=5, lr=1e-2, max_iter=100)
    tensor_pred_cp = tl.fold(np.matmul(np.matmul(A[0], np.diag(lbd)),
                                    khatri_rao(A, skip_matrix=0).T),
                          mode=0,
                          shape=inpt.shape)

    print("tensor_pred_cp: ", tl.norm(inpt - tensor_pred_cp), epoch)

yao1249736473

关注

21
点赞
踩
83

收藏

觉得还不错? 一键收藏
12
评论
张量CP分解原理及Python实现

目录张量分解数学符号说明CP分解基本概念ALS-CP公式推导程序实现附加说明张量分解参考文献：Kolda TG, Bader BW. Tensor Decomposition and Application. SIAM Rev 2009;51:455–500. https://doi.org/10/dzcrv6.张量可以视为多维数组，其“形状”取决于张量的阶（order）数。标量是第0阶张量，向量是第1阶张量，矩阵是第2阶张量，第3阶或阶数更高的张量被称为高阶张量（higher-order ten
复制链接

扫一扫