（23）等概率假设、量子懒惰学习、监督/非监督张量网络机器学习

最新推荐文章于 2021-07-12 13:47:59 发布

计算机量子狗

最新推荐文章于 2021-07-12 13:47:59 发布

阅读量396

点赞数

分类专栏：冉仕举视频学习

本文链接：https://blog.csdn.net/weixin_49883619/article/details/111879912

版权

冉仕举视频学习专栏收录该内容

25 篇文章 37 订阅

订阅专栏

问题：如何求 $|\psi\rangle$ ？
注：只要我们知道 $|\psi\rangle$ ，就可以求出联合概率密度

1.等概率假设

对于一大类图片 $\mathbb{X}$ ，例如0到9的手写体数字（见MNIST数据集），我们可以训练量子态 $|\psi\rangle$ ，使得该类中每一张图片(记为 $X$ )出现的概率非零且相等，即：
$\mathrm{P}(X)=\left(\prod_{\otimes l=1}^{L}\left|\left\langle x_{l} \mid \psi\right\rangle\right|\right)^{2}=\text { const. } \forall \mathrm{X} \propto \mathbb{X}$ 注：找到一个 $|\psi\rangle$ ，使得 $|\psi\rangle$ 对应的联合概率中每一个样本出现的概率都等于一个非零的常数
等概率假设：当上式成立时，我们认为 $|\psi\rangle$ 给出的联合概率分布 $\mathrm{P}(X)$ 接近该类图片 $\mathbb{X}$ 给出的像素的联合概率分布。

2.量子懒惰学习

实际上。如果已知 $\mathbb{X}$ （例如MNIST训练集），我们可以直接写出一种满足等概率假设的量子态：
$\left|\psi^{\text {lazy }}\right\rangle=\frac{1}{\sqrt{|\mathbb{X}|}} \sum_{X \propto \mathbb{X}} \prod_{\otimes l=1}^{L}\left|x_{l}\right\rangle$ 其中| $\mathbb{X}$ |代表 $\mathbb{X}$ 中图片数量。上态称之为lazy态。
在这里插入图片描述

由于“正交灾难"，容易看出lazy态满足概率归一条件
$\left\langle\psi^{\mathrm{lazy}} \mid \psi^{\mathrm{lazy}}\right\rangle=\frac{1}{|\mathbb{X}|} \sum_{X, X^{\prime} \propto \mathbb{X}}\left\langle X \mid X^{\prime}\right\rangle \approx \frac{1}{|\mathbb{X}|} \sum_{X, X^{\prime} \propto \mathbb{X}} \delta_{X, X^{\prime}}=1$ 只要知道训练集 $\mathbb{X}$ ，即可通过特征映射计算出 $\left|\psi^{\mathrm{lazy}}\right\rangle,$ 而不需要通过任何训练过程, $\left|\psi^{\mathrm{lazy}}\right\rangle$ 中也不包含任何变分参数, 因此通过lazy态实现机器学习任务被称为量子懒惰学习 （quantun lazy learning）。唯一可调的超参数为特征映射中的形式与参数。
例如：我们可以通过lazy态实现监督性分类。以MNIST为例，对于训练集10类图片，定义10个lazy态
$\left|\psi_{k}^{\text {lazy }}\right\rangle=\frac{1}{\sqrt{\left|\mathbb{X}_{k}\right|}} \sum_{\mathbf{X} \propto x_{k}} \prod_{\otimes l=1}^{L}\left|x_{l}\right\rangle$ 其中 $\mathbb{X}_{k}$ 代表第k类训练集样本。
根据这10个lazy态 $\left\{\left|\psi_{k}^{\text {lazy }}\right\rangle\right\},$ 我们可以根据量子概率定义，估计任意图片 $($ 记为 $Y$ ) 出现在第k类的概率： $P_{k}(\boldsymbol{Y})=|\left\langle\boldsymbol{Y} \mid \psi_{k}^{\text {lazy }}\right\rangle|^2$ 显然，该图片最概然的分类是argmax $_{k}\left(P_{k}(Y)\right)$
即概率最大的那个类即为分类器 $\left\{\left|\psi_{k}^{\text {lazy }}\right\rangle\right\}$ 给出的该图片的分类预测
这种非参数的方法可以给出不错的分类结果：MNIST $\sim 97 \%$ , fashion-MNIST $\sim85 \%$
量子懒惰学习的表现虽然不及神经网络，但是超过了其它非参数学习方法， 以及SVM（调非常多的参数），朴素贝叶斯等方法（更多与SVM联系的讨论见PRB 101, 075135(2020))

3.监督/非监督张量网络机器学习

显然, $|\boldsymbol{\psi}\rangle$ 的参数复杂度会随着特征个数 $L$ 指数上升，张量网络机器学习的中心思想之一就是将 $|\psi\rangle$ 用张量网络表示，从而使参数复杂度降低到多项式级。
注：lazy态同样指数复杂，但计算概率 $P (X)$ 的复杂度仅为多项式级

问题：如果我们想进一步提高精度，想要进行对 $|\boldsymbol{\psi}\rangle$ 的优化，就需要将 $|\boldsymbol{\psi}\rangle$ 写出来

在给定N个训练集样本 $\left\{X^{[n]}\right\}$ 后，我们可以训练量子态，使其满足等概率假设 $\boldsymbol{P}\left(\boldsymbol{X}^{[1]}\right)=\boldsymbol{P}\left(\boldsymbol{X}^{[2]}\right)=\cdots,$ 这被称为MPS非监督机器学习。

3.1定义交叉熵损失函数：

$f\left(\left\{X^{[n]}\right\}\right)=-\frac{1}{N} \sum_{n=1}^{N} \ln P\left(X^{[n]}\right)=-\frac{1}{N} \sum_{n=1}^{N} \ln \left(\prod_{\otimes l=1}^{L}\left|\left\langle x_{l}^{[n]} \mid \psi\right\rangle\right|\right)^{2}$ 其中 $N$ 为训练集样本个数。显然, 当且仅当 $P\left(X^{[1]}\right)=P\left(X^{[2]}\right)=\cdots$ 时, $f$ 达到极小
MPS表示下损失函数如图：
在这里插入图片描述

3.2梯度更新方法

定义损失函数后, 我们可以通过梯度更新方法，更新张量网络中的张量, 使得损失函数降到极低，梯度更新公式为:
$A^{(l)} \leftarrow A^{(l)}-\eta \frac{\partial f}{\partial A^{(l)}}$ 梯度步长 $\eta$ 又被称为学习率。
使用MPS表示 $|\psi\rangle$ 时，可利用MPS中心正交形式，逐个更新各个张量, 步骤如下：
(1) 更新第 $l$ 个张量 $A^{(l)}$ 时，将正交中心移动至该张量;
(2) 利用张量网络的微分法则求出损失函数关于 $A^{(l)}$ 的梯度;
在这里插入图片描述
也可以考虑直接使用自动微分技术计算梯度, 以pytorch为例，设置MPS中张量的requires_grad=True, 即打开自动微分开关, 计算损失函数之后进行backward，所有打开了自动微分的张量的梯度, 将被自动计算出来。这样做可以同时更新所有张量，且不必保持MPS的中心正交形式。
同时, 可以使用torch.nn.optimizer进行学习了的自动优化，例如Adam, SGD等。
中心正则方式下逐个更新张量与自动微分同时更新所有张量相比，前者的精度与收致速度更好，这是由于前者的更新满足 “切空间更新原理"，具体细节参考：PRE 102,012152(2020)
在这里插入图片描述