1.非监督张量网络机器学习
当获得量子态
∣
ψ
)
|\psi)
∣ψ)后,不但可求出像素的联合概率密度, 还可计算条件概率。
以图像修复为例:
1.1求 P ( { x n ( B ] } ∣ { x m [ A ] } ) P\left(\left\{x_{n}^{(B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right) P({xn(B]}∣{xm[A]})
考虑已知
∣
ψ
⟩
|\psi\rangle
∣ψ⟩ 与图片中的部分像素 (记为
{
x
m
[
A
]
}
)
,
\left.\left\{x_{m}^{[A]}\right\}\right),
{xm[A]}), 则剩余未知像素
(
\left(\right.
(记为
{
x
n
[
B
]
}
)
\left.\left\{x_{n}^{[B]}\right\}\right)
{xn[B]})的概率分布可由如下条件概率给出(注:
{
x
m
[
A
]
}
∪
{
x
n
[
B
]
}
\left\{x_{m}^{[A]}\right\} \cup\left\{x_{n}^{[B]}\right\}
{xm[A]}∪{xn[B]} 给出整张图片):
P
(
{
x
n
[
B
]
}
∣
{
x
m
[
A
]
}
)
=
(
∏
⊗
n
⟨
x
n
[
B
]
∣
ψ
~
⟩
)
2
P\left(\left\{x_{n}^{[B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right)=\left(\prod_{\otimes n}\left\langle x_{n}^{[B]} \mid \tilde{\psi}\right\rangle\right)^{2}
P({xn[B]}∣{xm[A]})=(⊗n∏⟨xn[B]∣ψ~⟩)2量子态
∣
ψ
~
⟩
|\widetilde{\psi}\rangle
∣ψ
⟩ 为通过对
∣
ψ
⟩
|\psi\rangle
∣ψ⟩ 的投影测量获得
∣
ψ
~
⟩
=
1
Z
∏
⊗
m
⟨
x
m
[
A
]
∣
ψ
⟩
|\tilde{\psi}\rangle=\frac{1}{Z} \prod_{\otimes m}\left\langle x_{m}^{[A]} \mid \psi\right\rangle
∣ψ~⟩=Z1⊗m∏⟨xm[A]∣ψ⟩其中
Z
Z
Z 为归一化系数。
∣
ψ
~
⟩
|\tilde{\psi}\rangle
∣ψ~⟩ 即为
{
x
n
[
B
]
}
\left\{x_{n}^{[B]}\right\}
{xn[B]} 对应的量子概率模型,其包含的qubit数与
{
x
n
[
B
]
}
\left\{x_{n}^{[B]}\right\}
{xn[B]} 中像素个数一致。
在等概率的先验分布前提下,上述条件概率的定义与之前子系统概率公式自洽。根据概率公式:
P
(
{
x
n
[
B
]
}
)
=
∑
{
x
m
(
A
)
}
P
(
{
x
m
[
A
]
}
∪
{
x
n
[
B
]
}
)
=
∑
{
x
m
(
A
)
}
P
(
{
x
n
[
B
]
}
∣
{
x
m
[
A
]
}
)
P
(
{
x
m
[
A
]
}
)
\begin{aligned}P\left(\left\{x_{n}^{[B]}\right\}\right)&=\sum_{\left\{x_{m}^{(A)}\right\}} P\left(\left\{x_{m}^{[A]}\right\} \cup\left\{x_{n}^{[B]}\right\}\right)\\&=\sum_{\left\{x_{m}^{(A)}\right\}} P\left(\left\{x_{n}^{[B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right) P\left(\left\{x_{m}^{[A]}\right\}\right)\end{aligned}
P({xn[B]})={xm(A)}∑P({xm[A]}∪{xn[B]})={xm(A)}∑P({xn[B]}∣{xm[A]})P({xm[A]})先验分布近似为等概率分布的前提下,即:
P
(
{
x
m
[
A
]
}
)
=
1
Z
P\left(\left\{x_{m}^{[A]}\right\}\right) = \frac{1}{Z}
P({xm[A]})=Z1有:
P
(
{
x
n
[
B
]
}
)
=
1
Z
∑
{
x
m
[
A
]
}
P
(
{
x
n
[
B
]
}
∣
{
x
m
[
A
]
}
)
P\left(\left\{x_{n}^{[B]}\right\}\right)=\frac{1}{Z} \sum_{\left\{x_{m}^{[A]}\right\}} P\left(\left\{x_{n}^{[B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right)
P({xn[B]})=Z1{xm[A]}∑P({xn[B]}∣{xm[A]})注:
Tr
{
x
m
[
A
]
}
=
∑
{
x
m
(
A
)
}
\operatorname{Tr}_{\left\{x_{m}^{[\mathrm{A}]}\right\}}=\sum_{\left\{x_{m}^{(A)}\right\}}
Tr{xm[A]}=∑{xm(A)}
因为
P
(
{
x
n
[
B
]
}
∣
{
x
m
[
A
]
}
)
=
(
∏
⊗
n
⟨
x
n
[
B
]
∣
ψ
~
⟩
)
2
P\left(\left\{x_{n}^{[B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right)=\left(\prod_{\otimes n}\left\langle x_{n}^{[B]} \mid \tilde{\psi}\right\rangle\right)^{2}
P({xn[B]}∣{xm[A]})=(⊗n∏⟨xn[B]∣ψ~⟩)2
∣
ψ
~
⟩
=
1
Z
∏
⊗
m
⟨
x
m
[
A
]
∣
ψ
⟩
|\tilde{\psi}\rangle=\frac{1}{Z} \prod_{\otimes m}\left\langle x_{m}^{[A]} \mid \psi\right\rangle
∣ψ~⟩=Z1⊗m∏⟨xm[A]∣ψ⟩代入条件概率公式
P
(
{
x
n
[
B
]
}
)
=
1
Z
(
Π
⊗
n
⟨
x
n
[
B
]
∣
Π
⊗
m
⟨
x
m
[
A
]
∣
ψ
⟩
)
2
P\left(\left\{x_{n}^{[B]}\right\} \right)=\frac{1}{Z}\left(\Pi_{\otimes n}\left\langle x_{n}^{[B]}\right| \Pi_{\otimes m}\left\langle x_{m}^{[A]} \mid \psi\right\rangle\right)^{2}
P({xn[B]})=Z1(Π⊗n⟨xn[B]∣∣∣Π⊗m⟨xm[A]∣ψ⟩)2
即可得到概率公式:
P
(
{
x
n
[
B
]
}
)
=
∏
⊗
n
Tr
{
x
m
[
A
]
}
⟨
x
n
[
B
]
∣
φ
⟩
⟨
φ
∣
x
n
[
B
]
⟩
=
∏
⊗
n
⟨
x
n
[
B
]
Tr
{
x
m
[
A
]
}
∣
φ
⟩
⟨
φ
∣
x
n
[
B
]
⟩
=
∏
⊗
n
⟨
x
n
[
B
]
∣
ρ
^
[
B
]
∣
x
n
[
B
]
⟩
\begin{aligned}\mathrm{P}\left(\left\{x_{n}^{[\mathrm{B}]}\right\}\right)&=\prod_{\otimes n} \operatorname{Tr}_{\left\{x_{m}^{[\mathrm{A}]}\right\}}\left\langle x_{n}^{[\mathrm{B}]} \mid \varphi\right\rangle\left\langle\varphi \mid x_{n}^{[\mathrm{B}]}\right\rangle\\&=\prod_{\otimes n}\left\langle x_{n}^{[\mathrm{B}]} \operatorname{Tr}_{\left\{x_{m}^{[\mathrm{A}]}\right\}}|\varphi\rangle\langle\varphi \mid x_{n}^{[\mathrm{B}]}\right\rangle\\&=\prod_{\otimes n}\left\langle x_{n}^{[\mathrm{B}]} \mid \hat{\rho}^{[B]}\mid x_{n}^{[\mathrm{B}]}\right\rangle \end{aligned}
P({xn[B]})=⊗n∏Tr{xm[A]}⟨xn[B]∣φ⟩⟨φ∣xn[B]⟩=⊗n∏⟨xn[B]Tr{xm[A]}∣φ⟩⟨φ∣xn[B]⟩=⊗n∏⟨xn[B]∣ρ^[B]∣xn[B]⟩注:
ρ
^
[
B
]
=
Tr
{
x
m
[
A
]
}
∣
φ
⟩
⟨
φ
∣
\hat{\rho}^{[B]}=\operatorname{Tr}_{\left\{x_{m}^{[\mathrm{A}]}\right\}}|\varphi\rangle\langle\varphi\mid
ρ^[B]=Tr{xm[A]}∣φ⟩⟨φ∣
注:由线性可以将
Tr
{
x
m
[
A
]
}
\operatorname{Tr}_{\left\{x_{m}^{[\mathrm{A}]}\right\}}
Tr{xm[A]}移入
我们当然可以根据 P ( { x n ( B ] } ∣ { x m [ A ] } ) P\left(\left\{x_{n}^{(B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right) P({xn(B]}∣{xm[A]}) 进行蒙特卡洛采样, 从而根据已知像素来生成 未知像素 { z l } , \left\{z_{l}\right\}, {zl}, 但是该概率分布中包含的可能性个数会随着未知像素个数指数上升,因此在一般情况下,我们不会直接通过 P ( { x n [ B ] } ∣ { x m [ A ] } ) P\left(\left\{x_{n}^{[B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right) P({xn[B]}∣{xm[A]}) 进行生成。
1.2逐点生成的方法
可采用如下逐点生成的方法避免指数级复杂的
P
(
{
x
n
[
B
]
}
∣
{
x
m
[
A
]
}
)
P\left(\left\{x_{n}^{[B]}\right\} \mid\left\{x_{m}^{[A]}\right\}\right)
P({xn[B]}∣{xm[A]}) :
(1) 通过|
ψ
⟩
\psi\rangle
ψ⟩与已知像素
{
x
m
[
A
]
}
\{x_{m}^{[A]}\}
{xm[A]}, 利用投影公式计算描述未知像素对应的量子态, 记为
∣
ψ
~
(
0
)
⟩
|\tilde{\psi}^{(0)}\rangle
∣ψ~(0)⟩
(2) 通过|
ψ
~
(
t
−
1
)
⟩
\tilde{\psi}^{(t-1)}\rangle
ψ~(t−1)⟩ 计算第t个未知像素
x
t
[
B
]
x_{t}^{[B]}
xt[B] 对应的qubit的约化密度矩阵
ρ
^
[
t
−
1
]
(
\hat{\rho}^{[t-1]}(
ρ^[t−1]( 其系数为
2
×
2
2\times2
2×2厄密矩阵),计算该像素的概率分布
P
(
x
)
=
⟨
x
∣
ρ
^
[
t
−
1
]
∣
x
⟩
,
P(x)=\left\langle x\left|\hat{\rho}^{[t-1]}\right| x\right\rangle,
P(x)=⟨x∣∣ρ^[t−1]∣∣x⟩, 并根据该概率分布进行采样, 生成该像素
x
t
[
B
]
;
x_{t}^{[B]} ;
xt[B];
(3) 如果仍有未知像素,则根据生成的像素对|
ψ
~
(
t
−
1
)
⟩
\tilde{\psi}^{(t-1)}\rangle
ψ~(t−1)⟩ 进行投影得到
∣
ψ
~
(
t
)
⟩
=
|\tilde{\psi}^{(t)}\rangle=
∣ψ~(t)⟩=
1
z
⟨
x
t
[
B
]
∣
ψ
~
(
t
−
1
)
⟩
,
\frac{1}{z}\langle x_{t}^{[B]} \mid \tilde{\psi}^{(t-1)}\rangle,
z1⟨xt[B]∣ψ~(t−1)⟩, 并执行步骤 (2)
注:(Phys. Rev.
×
8
\times 8
×8,
031012
(
2018
)
)
031012(2018))
031012(2018))
1.3最概然图片(量子平均图)
即使仅知道
∣
ψ
⟩
|\psi\rangle
∣ψ⟩且不知道任何像素,也可以通过逐点生成法生成图片
每次通过约化密度矩阵计算出单个像素概率分布后, 可通过随机采样生成该像素。
可以在获得单像素概率分布后, 计算最概然的像素值作为生成的像素,采用这种方法时,每个量子态|
ψ
⟩
\boldsymbol{\psi}\rangle
ψ⟩ 仅生成一张最概然图片(出现在|
ψ
⟩
\boldsymbol{\psi}\rangle
ψ⟩中概率最大的那张图片),被称为量子平均图。
经典平均和量子平均之间的差别:
1.4张量网络压缩感知
利用最概然生成法,我们可以对图片进行压缩采样,即对于目标图片,通过保留尽量少的像素,利用量子态恢复重构出原始图片,这被称为张量网络压缩感知(Phys. Rev. Research 2, 033293 (2020) )
其中采用的采样方法被称为纠缠次序采样协议 (entanglement-ordered sampling protocol, EOSP),核心思想是利用纠缠嫡 (即量子版本的信息嫡) 衡量不同像素携带的信息量大小,以此采样出信息量(纠缠熵)大的像素。
注:采样的方法不依赖于图片具体样子
2.监督性张量网络机器学习
在从量子概率的角度理解了非监督张量网络机器学习后,监督性张量网络机器学习可以看作是非监督的自然推广,这点是不同于神经网络等非概率机器学习模型的。
以分类任务为例:
我们需要使用张量网络建立从数据 (特征量
{
x
}
\{x\}
{x} ) 到分类标签 K的函数映射
f
,
f,
f, 而对于概率模型而言,该映射可以由条件概率P给出:
f
:
{
x
}
→
κ
⇒
P
(
κ
∣
{
x
}
)
f:\{x\} \rightarrow \kappa \Rightarrow P(\kappa \mid\{x\})
f:{x}→κ⇒P(κ∣{x})那么, 我们可以考虑利用张量网络建立该条件概率,一种常用的方法采用非监督学习的方法先获得|
ψ
˘
⟩
\breve{\psi}\rangle
ψ˘⟩ 并计算联合概率分布,再通过投影计算获得条件概率。
∣
ψ
˘
⟩
|\breve{\psi}\rangle
∣ψ˘⟩ 中含有
(
L
+
1
)
(L+1)
(L+1) 个qubit, 其中
L
L
L 个qubit对应于图片像素, 一个qubit对应于分类标签, 因此, MPS表示中应含有
(
L
+
1
)
(L+1)
(L+1) 个物理指标。
注:
∣
ψ
˘
⟩
|\breve{\psi}\rangle
∣ψ˘⟩ 中包含
L
L
L 个对应于像素的指标 (朝上)
与一个对应于分类标签的指标 (朝下)
进行监督性学习的具体方法是:
(1) 将分类标签
κ
\kappa
κ也当作是特征量, 利用训练集进行非监督机器学习, 训练量子态|
ψ
˘
⟩
;
\breve{\psi}\rangle ;
ψ˘⟩;
(2) 利用投影计算条件概率 :
P
(
κ
∣
{
x
}
)
=
(
⟨
κ
∣
∏
⊗
n
⟨
x
n
∣
ψ
˘
⟩
)
2
(
只
对
像
素
值
的
q
u
b
i
t
进
行
投
影
)
P(\kappa \mid\{x\})=(\langle\kappa|\prod_{\otimes n}\langle x_{n} \mid \breve{\psi}\rangle)^{2}(只对像素值的qubit进行投影)
P(κ∣{x})=(⟨κ∣⊗n∏⟨xn∣ψ˘⟩)2(只对像素值的qubit进行投影)分类结果即为最概然的标签值
argmax
κ
P
(
κ
∣
{
x
}
)
\operatorname{argmax } _ { \kappa } P ( \kappa | \{ x \} )
argmaxκP(κ∣{x}) 。
关于非监督张量网络机器学习,并不一定要按照条件概率建立映射,例如当矩阵乘积态不满足量子态对应的归一化条件时,条件概率的图景也就丢失了(量子态归一化条件是张量网络量子概率可解释性的核心!),上述算法失效,而矩阵乘积态(或称tensor-train模型)也就仅仅表示了从特征量到分类标签的映射
f
:
{
x
}
→
κ
∘
f:\{x\} \rightarrow \boldsymbol{\kappa}_{\circ}
f:{x}→κ∘ 此时,可直接使用梯度下降法训练模型,可采用自动微分技术(arXiv:1906.06329)。
比较有意思的是, 舍去量子态归一化条件的张量网络分类精度要高于量子概率性的张量网络,这大概是由于后者既可作为生成模型又可作为分类器而不够“专一”所致吧。
3.张量网络与经典概率模型
张量网络不但可以作为非概率性的映射进行监督性机器学习,也可作为量子态进行量子概率性机器学习,还可作为经典概率模型进行概率性机器学习, 其中两个例子为受限玻尔兹曼机 (restricted Boltzmann machine)与贝叶斯张量网络 (Bayesian tensor network)