QSVM阅读笔记

Abel1231

已于 2022-06-24 18:11:54 修改

阅读量1.6k

点赞数 4

分类专栏：量子计算文章标签：支持向量机机器学习人工智能

于 2021-05-21 12:40:12 首次发布

本文链接：https://blog.csdn.net/weixin_45650695/article/details/117066373

版权

量子计算专栏收录该内容

3 篇文章

订阅专栏

本文介绍了Quantum Support Vector Machine (QSVM)的概念，它是利用量子算法加速的经典支持向量机，尤其在大规模数据训练中展现优势。通过HHL算法和Swap-test算法，QSVM将SVM的二次规划问题转化为最小二乘问题，用于参数求解和新样本分类。关键步骤包括矩阵指数化、模型参数量子化和Swap-test分类器的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

P.Rebentrost等人在2014年提出的Quantum support vector machine(QSVM) 利用量子算法构造和训练SVM模型，并利用该模型对新的样本进行分类。QSVM的复杂度对比经典SVM有指数级别的缩小，因此适用于大规模数据的训练。QSVM的主体思想是将传统SVM这一二次规划问题转换为最小二乘问题，利用量子算法高效地求解最小二乘问题中的向量内积，基于HHL算法求解模型的参数，使用Swap-test算法对新的样本进行分类。

一、支持向量机(SVM)

SVM是定义在特征空间上的间隔最大的线性分类器，对于线性可分的数据集，SVM相当于求解凸二次规划问题；对于线性不可分的数据集，支持向量机引入了核技巧(kernel trick)，将数据集从低维线性不可分的输入空间映射到高维线性可分的特征空间，并在特征空间学习SVM线性分类器。因此，支持向量机既可以用来对线性可分的数据集进行分类，也可以对线性不可分的数据集进行分类，只是后者引入了核函数。

支持向量机的具体介绍可参阅李航的《统计学习方法》，这里只给出它的数学表达：
假设数据集 $\left\{\left(\vec{x}_{j}, y_{j}\right): \vec{x}_{j} \in \mathbb{R}^{N}, y_{j}=\pm 1\right\}_{j=1 \ldots M}$ 中有 $M$ 个带正负标签的样本，每个样本有 $N$ 个特征，那么线性可分SVM的对偶最优化问题为，
$\begin{array}{ll} \underset{\alpha}{\min }& \frac{1}{2} \sum_{i=1}^{M} \sum_{j=1}^{M} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(\vec x_{i} ,\vec x_{j}\right)-\sum_{i=1}^{M} \alpha_{i} \\ \text { s.t. } & \sum_{i=1}^{M} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, M \end{array}$ 其中 $(\vec x_{i} ,\vec x_{j})$ 表示 $\vec x_{i}$ 和 $\vec x_{j}$ 的内积 $\vec x_{j}^{T } \vec x_{i}$ 。求解该最优化问题得到最优解 $\alpha ^{\ast }=\left(\alpha_{1}^{\ast },\alpha _{2}^{\ast },\ldots ,\alpha _{M}^{\ast }\right) ^{T}$ ，进而得到SVM线性分类器
$=\text{sign}\left( \sum ^{M}_{i=1}\alpha_{i}^{\ast }y_{i}\left(\vec x, \vec x_{i}\right)+{b}^{\ast }\right)$ 其中 ${b}^{\ast }=y_{j}-\sum ^{M}_{i=1}\alpha_{i}^{\ast }y_{i}\left(\vec x_{i}, \vec x_{j}\right)$ 且 $\alpha_{i}^{\ast}>0$ 。

论文中的数学表述与上式略有不同，在论文中作者令 $\alpha_{i}=\alpha_{i} y_{i}$ ，并且将使目标函数最小化改为使目标函数最大化，因此线性可分SVM的对偶最优化问题变为，
$\begin{array}{ll} \underset{\alpha}{\max}& \sum_{i=1}^{M} \alpha_{i}y_{i}-\frac{1}{2} \sum_{i=1}^{M} \sum_{j=1}^{M} \alpha_{i} \alpha_{j}\left(\vec x_{i} , \vec x_{j}\right) \\ \text { s.t. } & \sum_{i=1}^{M} \alpha_{i}=0 \\ & \alpha_{i} y_{i}\geqslant 0, \quad i=1,2, \cdots, M \end{array}$ SVM线性分类器变为
$=\text{sign}\left( \sum ^{M}_{i=1}\alpha_{i}^{\ast }\left(\vec x, \vec x_{i}\right)+{b}^{\ast }\right)$ 其中 ${b}^{\ast }=y_{j}-\sum ^{M}_{i=1}\alpha_{i}^{\ast }\left(\vec x_{i},\vec x_{j}\right)$ 且 $\alpha_{i}^{\ast}\neq0$ 。

非线性支持向量机引入了核函数 $K(\vec x,\vec z)=\phi ^{T}(\vec x)\phi(\vec z)$ ， $\phi(\cdot)$ 是输入空间到特征空间的映射。将线性SVM的对偶问题以及分类器中的向量内积替换为核函数 $K$ 便可得到非线性SVM的对偶最优化问题和分类器。所以，非线性SVM的对偶最优化问题的目标函数为
$\begin{array}{ll} \underset{\alpha}{\max}& \sum_{i=1}^{M} \alpha_{i}y_{i}-\frac{1}{2} \sum_{i=1}^{M} \sum_{j=1}^{M} \alpha_{i} \alpha_{j}K(\vec x_{j},\vec x_{i}) \end{array}$ 非线性SVM分类器为
$=\text{sign}\left( \sum ^{M}_{i=1}\alpha_{i}^{\ast }K(\vec x_{i},\vec x)+{b}^{\ast }\right)$ 注意，论文中作者虽然把由输入向量的内积构成的矩阵 $K$ 称为kernel matrix，但并不是指的非线性SVM中的kernel。因此，作者提出的QSVM主要是将线性SVM用量子算法来实现，而对于非线性SVM的量子化，作者并没有做详细讨论。

二、最小二乘支持向量机(LSSVM)

Aram W. Harrow等人提出的HHL算法旨在利用量子计算的方法求解线性方程 $A\vec x= \vec b$ ，而QSVM要利用HHL算法，首先需要把传统SVM的二次规划形式转换为 $A\vec x= \vec b$ 的这种形式。实现这种转化的方法便是引入松弛变量 $e_{j}$ ，将原始问题的不等式约束转换为等式约束
$y_{j}\left(\vec{w} \cdot \vec{x}_{j}+b\right) \geq 1 \rightarrow\left(\vec{w} \cdot \vec{x}_{j}+b\right)=y_{j}-y_{j} e_{j}$ ，引入松弛变量后的原问题的对偶问题近似为
$F\left(\begin{array}{c} b \\ \vec{\alpha} \end{array}\right) =\left(\begin{array}{cc} 0 & \vec{1}^{T} \\ \vec{1} & K+\gamma^{-1}I \end{array}\right)\left(\begin{array}{l} b \\ \vec{\alpha} \end{array}\right)=\left(\begin{array}{l} 0 \\ \vec{y} \end{array}\right)$ 其中 $\vec{1}=(1, \cdots, 1)^{T}$ ， $\vec\alpha =\left(\alpha_{1},\alpha _{2},\ldots ,\alpha _{M}\right) ^{T}$ ， $K=\left[ \begin{array}{cccc} (\vec x_{1}, \vec x_{1})& (\vec x_{1}, \vec x_{2}) &\cdots & (\vec x_{1},\vec x_{M}) \\ (\vec x_{2}, \vec x_{1})& (\vec x_{2}, \vec x_{2}) &\cdots & (\vec x_{2},\vec x_{M}) \\ \vdots & \vdots & \ddots & \vdots \\ (\vec x_{M}, \vec x_{1})& (\vec x_{M}, \vec x_{2}) &\cdots &(\vec x_{M}, \vec x_{M}) \end{array} \right ]$ ， $\vec y=(y_{1},y_{2},\cdots,y_{M})^{T}$ 。
$b$ 和 $\vec\alpha$ 即为待求参数，作者将利用HHL算法求解
$\left(\begin{array}{c} b \\ \vec{\alpha} \end{array}\right) =F^{-1}\left(\begin{array}{l} 0 \\ \vec{y} \end{array}\right).$

三、QSVM的训练

1. 非稀疏矩阵 $\hat{F}$ 的指数化

回顾HHL算法，用量子算法求解矩阵 $A$ 的逆，需要将 $A$ 指数化为酉算子 $e^{-iA\frac{t_{0}}{T}}$ ，并且要求
① $A^{\dagger}=A$ ；
② $A$ 是稀疏的；
③ $A$ 的特征值都大于0小于1，特征值越接近于0，指数化的效率越低。
$F$ 显然满足 $F^{\dagger}=F$ ，且 $F$ 是正定的，令 $\hat{F}=F / \operatorname{tr}F$ ， $\hat{F}$ 的特征值将处于0到1之间，但 $F$ 一般不满足稀疏这一条件。对于非稀疏的埃尔米特矩阵的指数化，将采用一种近似的量子算法进行逼近。
先对 $\hat{F}$ 进行一下拆分， $\hat{F}=\left(J+K+\gamma^{-1} I\right) / \operatorname{tr} F$ ，其中 $\left(\begin{array}{cc} 0 & \vec{1}^{T} \\ \vec{1} & 0 \end{array}\right)$ ，因此，
$e^{-i \hat{F} \Delta t}=e^{-i \Delta t \gamma^{-1} I / \mathrm{trF}} e^{-i \Delta t J/ \mathrm{trF}} e^{-i \Delta t K/ \mathrm{trF}}+O\left(\Delta t^{2}\right)$ $\operatorname{tr} F$ 和 $\operatorname{tr} K$ 是两个常数，不妨稍微改变一下HHL算法中quantum phase estimation的时间 $\Delta t$ ，上式变为（后文中为了方便起见将 $\Delta t'$ 写作 $\Delta t$ ）
$e^{-i \hat{F} \Delta t'}=e^{-i \Delta t' \gamma^{-1} I / \mathrm{trK}} e^{-i \Delta t' J/ \mathrm{trK}} e^{-i \Delta t' K/ \mathrm{trK}}+O\left(\Delta t'^{2}\right)$ 上式中无论 $\gamma^{-1}I/\mathrm{trK}$ 还是 $J/\mathrm{trK}$ 都满足HHL算法的三条要求，因此都是可以高效地指数化的，只有 $K/\mathrm{tr}K$ 不满足第二条要求。所以如何高效地对 $K/\mathrm{tr}K$ 进行指数化，构造为酉算子 $e^{-i \Delta t K/ \mathrm{tr}K}$ 是一个核心问题。

论文中作者采用了QPCA中的思想，近似地对非稀疏的埃尔米特矩阵进行指数化， $O\left(\Delta t^{2}\right)$ 就是近似误差。

令 $\hat{K} = K/\mathrm{tr}K$ ，显然 $\hat{K}$ 的 $t r a c e$ 等于1且正定，因此可以把 $\hat{K}$ 视density operator或density matrix，以下量子电路将产生状态 $\hat{K}$ ，在这里插入图片描述
Training data可以以量子态形式存储在quantum RAM中，
$\left|\vec{x}_{i}\right\rangle=1 /\left|\vec{x}_{i}\right| \sum_{k=1}^{N}\left(\vec{x}_{i}\right)_{k}|k\rangle$ 量子态的Training data和事先准备的量子态 $\frac{1}{\sqrt{M}} \sum_{i=1}^{M}|i\rangle$ 经过Oracle的作用后，形成的叠加态为
$|\chi\rangle=1 / \sqrt{N_{\chi}} \sum_{i=1}^{M}\left|\vec{x}_{i}\right||i\rangle\left|\vec{x}_{i}\right\rangle$ 其中 $N_{\chi}=\sum_{i=1}^{M}\left|\vec{x}_{i}\right|^{2}$ 。利用density matrix描述量子系统状态，舍去Training data寄存器中的量子态，系统的状态为
$\rho _{1}=\operatorname{tr}_{2}\{|\chi\rangle\langle\chi|\}=\operatorname{tr}_{2}\left\{\frac{1}{N_{\chi}} \sum_{i, j=1}^{M}|\vec{x}_{i}||\vec{x}_{j}|| i\rangle|\vec{x}_{i}\rangle\langle j|\langle\vec{x}_{j}|\right\}=\frac{1}{N_{\chi}} \sum_{i, j=1}^{M}\left\langle\vec{x}_{j}|\vec{x}_{i}\right\rangle|\vec{x}_{i}||\vec{x}_{j}|| i\rangle\langle j| = K/\mathrm{tr}K=\hat{K}$ 这一步的计算复杂度为 $O(\log M N)$ ，可以理解为 $M$ 个 $N$ 维向量 $\vec{x}_{i}$ 可以由 $\log MN$ 个量子进行表示。

在这里插入图片描述
基于QPCA中的思想，非稀疏的埃尔米特矩阵 $\hat{K}$ 的指数化形成的酉算子 $e^{-i \hat{K}\Delta t }$ 对某一状态 $\rho$ 的作用，近似于swap matrix S（ $S=\sum_{m, n=1}^{M}|m\rangle\langle n|\otimes| n\rangle\langle m|$ ）的指数化形成的酉算子 $e^{-i S\Delta t}$ 对 $\hat{K}$ 和 $\rho$ 形成的组合量子系统作用后，并舍弃 $\hat{K}$ 变化后的状态而余下的状态，图解如上图所示。该部分的证明较为复杂，将在文章最后给出。由于swap matrix S的指数化是较为高效的，因此该方法在误差允许范围内实现了非稀疏埃尔米特矩阵的指数化。

2. 基于HHL算法的模型参数求解

至此，矩阵 $\hat{F}$ 可以高效的指数化为酉算子 $e^{-i \hat{F} \Delta t}$ ，因此可以利用HHL算法求解 $\left(\begin{array}{c} b \\ \vec{\alpha} \end{array}\right) =F^{-1}\left(\begin{array}{l} 0 \\ \vec{y} \end{array}\right)$ 。对应的QSVM参数训练量子电路图如下图所示，
在这里插入图片描述
这里简要推导一下基于HHL算法怎样得到模型参数 $\begin{pmatrix} b \\ \vec\alpha \end{pmatrix}$ 。

假设矩阵 $\hat{F}$ 的特征值为 $\lambda _{1},\lambda _{2},\dots ,\lambda _{M+1}$ ，对应的单位正交的特征向量为 $_{1}\rangle,|u _{2}\rangle,\dots ,|u _{M+1}\rangle$ ，这 $M + 1$ 个特征向量构成M+1维线性空间的一组标准正交基，将 $|\tilde{y}\rangle=\begin{pmatrix} 0 \\ \vec y \end{pmatrix}$ 在这组基下分解得到 $|\tilde{y}\rangle=\sum_{j=1}^{M+1}\langle u_{j} |\tilde{y}\rangle\left|u_{j}\right\rangle$ ，经过绿线框中的Improved quantum phase estimation，得到 $\sum_{j=1}^{M+1}\left\langle u_{j} |\tilde{y}\right\rangle\left|\lambda_{j}\right\rangle\left|u_{j}\right\rangle$ ；引入ancilla qubit $|0\rangle$ ，执行Controlled rotation，得到 $\sum_{j=1}^{M+1} \left\langle u_{j} |\tilde{y}\right\rangle\left(\sqrt{1-\frac{1^{2}}{\lambda_{j}^{2}}}|0\rangle+\frac{1}{\lambda_{j}}|1\rangle\right)\left|\lambda_j\rangle|u_{j}\right\rangle$ ；对第一个寄存器中的量子态进行测量，当测量得到的量子态为 $|1\rangle$ 时，忽略第二个寄存器中的量子态，最终得到 $\sum_{j=1}^{M+1} \frac{1}{\lambda_{j}}\left\langle u_{j} |\tilde{y}\right\rangle\left|u_{j}\right\rangle$ ，即 $\left(\begin{array}{c} b \\ \vec{\alpha} \end{array}\right)$ 。

注意，上述推导过程忽略了HHL算法中要求 $|\tilde{y}\rangle$ 为单位向量以及量子态的系数，导致某些量子态不是单位化的，并且HHL算法最终求解得出的结果是 $\left(\begin{array}{c} b \\ \vec{\alpha} \end{array}\right)$ 的单位化。所以，最终得到的结果可以写为
$\vec{\alpha}\rangle=\frac{1}{\sqrt{C}}\left(b|0\rangle+\sum_{k=1}^{M} \alpha_{k}|k\rangle\right)$ 其中 $C=b^{2}+\sum_{k=1}^{M} \alpha_{k}^{2}$ 。

四、QSVM分类器

如何利用以量子态形式存储的模型参数 $\vec{\alpha}\rangle$ 对新的样本进行预测（分类）呢？作者利用了Swap-test算法。

利用Oracle构造两个量子态 $|\tilde{u}\rangle$ 和 $|\tilde{x}\rangle$ ,
$|\tilde{u}\rangle=\frac{1}{\sqrt{N_{\tilde{u}}}}\left(b|0\rangle|0\rangle+\sum_{k=1}^{M} \alpha_{k}\left|\vec{x}_{k}\right||k\rangle\left|\vec{x}_{k}\right\rangle\right),\ \ \ \ N_{\tilde{u}}=b^{2}+\sum_{k=1}^{M} \alpha_{k}^{2}\left|\vec{x}_{k}\right|^{2}$ $|\tilde{x}\rangle=\frac{1}{\sqrt{N_{\tilde{x}}}}\left(|0\rangle|0\rangle+\sum_{k=1}^{M}|\vec{x}||k\rangle|\vec{x}\rangle\right),\ \ \ \ N_{\tilde{x}}=M|\vec{x}|^{2}+1$ 对这两个量子执行Swap-test，测得ancilla qubit的量子态为 $|1\rangle$ 的概率为 $P=\frac{1}{2}(1-|\langle\tilde{u}|\tilde{x}\rangle|^{2})$ ，其中
$\langle\tilde{u}|\tilde{x}\rangle=\frac{1}{\sqrt{N_{\tilde{x}} N_{\tilde{u}}}}\left(b+\sum_{k=1}^{M} \alpha_{k}\left|\vec{x}_{k}\right||\vec{x}|\left\langle\vec{x}_{k}|\vec{x}\right\rangle\right)$ 上式与线性SVM的分类决策函数 $=\text{sign}\left( \sum ^{M}_{i=1}\alpha_{i}^{\ast }\left(\vec x, \vec x_{i}\right)+{b}^{\ast }\right)$ 只是系数上的不同。因此，通过多次运行Swap-test算法，若测得 $P<\frac{1}{2}$ ，说明新样本 $\vec{x}$ 属于正类；若测得 $P>\frac{1}{2}$ ，说明新样本 $\vec{x}$ 属于负类。为了使最后的误差小于 $\epsilon$ ，需要运行Swap-test算法 $O\left(P(1-P) / \epsilon^{2}\right)$ 次。

参考文献
[1] Rebentrost P, Mohseni M, Lloyd S. Quantum support vector machine for big data classification[J]. Physical review letters, 2014, 113(13): 130503.
[2] Lloyd S, Mohseni M, Rebentrost P. Quantum principal component analysis[J]. Nature Physics, 2014, 10(9): 631-633.
[3] Buhrman H, Cleve R, Watrous J, et al. Quantum fingerprinting[J]. Physical Review Letters, 2001, 87(16): 167902.
[4] Harrow A W, Hassidim A, Lloyd S. Quantum algorithm for linear systems of equations[J]. Physical review letters, 2009, 103(15): 150502.
[5] Suykens J A K, Vandewalle J. Least squares support vector machine classifiers[J]. Neural processing letters, 1999, 9(3): 293-300.
[6] 量子支持向量机QSVM（一）
[7] 量子支持向量机QSVM（二）

公式证明

证明 $S=\sum_{m, n=1}^{M}|m\rangle\langle n|\otimes| n\rangle\langle m|$ 能够交换两个量子的状态：
设有量子 $|\alpha\rangle=\sum_{i=1}^{M}a_{i}|i\rangle$ ， $|\beta\rangle=\sum_{j=1}^{M}b_{j}|j\rangle$ ，
$\begin{aligned} S\left(|\alpha\rangle\otimes|\beta\rangle\right) &= \sum_{m, n=1}^{M}|m\rangle\langle n|\otimes| n\rangle\langle m| \left(\sum_{i,j=1}^{M}a_{i}|i\rangle\otimes b_{j}|j\rangle\right) \\ &= \sum_{m, n=1}^{M}\sum_{i,j=1}^{M}a_{i}b_{j}\left(|m\rangle\langle n|i\rangle\right)\otimes\left(|n\rangle\langle m|j\rangle\right) \\ &= \sum_{m, n=1}^{M}b_{m}|m\rangle\otimes a_{n}|n\rangle \\ &= |\beta\rangle\otimes|\alpha\rangle. \end{aligned}$
显然有 $S^{\dagger}=S$ ，所以 $\langle\alpha|\langle\beta|S=\left(S|\alpha\rangle|\beta\rangle\right)^{\dagger}=\left(|\beta\rangle|\alpha\rangle\right)^{\dagger}=\langle\beta|\langle\alpha|$ .
因为 $S^{2}\left(|\alpha\rangle\otimes|\beta\rangle\right)=S\left(|\beta\rangle\otimes|\alpha\rangle\right)=|\alpha\rangle\otimes|\beta\rangle$ ，所以 $S^{2}=I$ .
$e^{-iS\Delta t}=\cos(\Delta t S)-i\sin(\Delta t S)=I\cos\Delta t-iS\sin\Delta t$ .
证明 $e^{-i \hat{K} \Delta t} \rho e^{i \hat{K} \Delta t} \approx \operatorname{tr}_{1}\left\{e^{-i S \Delta t} \hat{K} \otimes \rho e^{i S \Delta t}\right\}=\rho-i \Delta t[\hat{K}, \rho]+O\left(\Delta t^{2}\right)$ .
设 $\hat{K}=\sum_{i=1}^{M}\lambda_{i}|k_{i}\rangle\langle k_{i}|$ ， $\rho=\sum_{j=1}^{M}p_{j}|\psi_{j}\rangle\langle \psi_{j}|$ ，其中 $\sum_{i=1}^{M}\lambda_{i}=1$ ， $\sum_{j=1}^{M}p_{j}=1$ 。注意，density matrix的展开并不一定是谱分解，因此 $\lambda_{i}$ 和 $p_{j}$ 并不一定是特征值， $|k_{i}\rangle$ 和 $|\psi_{j}\rangle$ 并不一定是标准正交的特征向量。
$\begin{aligned} e^{-i \hat{K} \Delta t} \rho e^{i \hat{K} \Delta t} &\approx \left(I-i \hat{K} \Delta t\right)\rho\left(I+i \hat{K} \Delta t\right) \\ &= \sum_{j=1}^{M}\left[\left(I-i \Delta t \sum_{i=1}^{M}\lambda_{i}|k_{i}\rangle\langle k_{i}|\right)p_{j}|\psi_{j}\rangle\langle \psi_{j}|\left(I+i \Delta t \sum_{i=1}^{M}\lambda_{i}|k_{i}\rangle\langle k_{i}|\right)\right] \\ &= \sum_{j=1}^{M}\left(p_{j}|\psi_{j}\rangle\langle \psi_{j}|-i\Delta t \sum_{i=1}^{M}\lambda_{i}p_{j}\langle k_{i}|\psi_{j}\rangle|k_{i}\rangle\langle \psi_{j}|+i\Delta t \sum_{i=1}^{M}\lambda_{i}p_{j}\langle \psi_{j}|k_{i}\rangle|\psi_{j}\rangle\langle k_{i}|+\Delta t^{2}\sum_{i,\gamma=1}^{M}p_{j}\lambda_{i}\lambda_{\gamma}\left|\langle k_{i}|\psi_{j}\rangle\right|^{2}|k_{i}\rangle\langle k_{\gamma}|\right) \\ &= \rho-i\Delta t\left(\sum_{i,j=1}^{M}\lambda_{i}p_{j}\langle k_{i}|\psi_{j}\rangle|k_{i}\rangle\langle \psi_{j}|-\sum_{i,j=1}^{M}\lambda_{i}p_{j}\langle \psi_{j}|k_{i}\rangle|\psi_{j}\rangle\langle k_{i}|\right)+\Delta t^{2}\sum_{i,j,\gamma=1}^{M}p_{j}\lambda_{i}\lambda_{\gamma}\left|\langle k_{i}|\psi_{j}\rangle\right|^{2}|k_{i}\rangle\langle k_{\gamma}| \\ &= \rho-i\Delta t\left[\hat{K},\rho\right]+O\left(\Delta t^{2}\right) \end{aligned}$ $\begin{aligned} \operatorname{tr}_{1}\left\{e^{-i S \Delta t} \hat{K} \otimes \rho e^{i S \Delta t}\right\} &= \operatorname{tr}_{1}\left\{\left(I\cos\Delta t-iS\sin\Delta t\right)\left(\sum_{i,j=1}^{M}\lambda_{i}p_{j}|k_{i}\rangle\langle k_{i}|\otimes|\psi_{j}\rangle\langle \psi_{j}|\right)\left(I\cos\Delta t+iS\sin\Delta t\right)\right\} \\ &= \sum_{i,j=1}^{M}\lambda_{i}p_{j}\operatorname{tr}_{1}\left\{\left(I\cos\Delta t-iS\sin\Delta t\right)\left(|k_{i}\rangle|\psi_{j}\rangle\otimes\langle k_{i}|\langle \psi_{j}|\right)\left(I\cos\Delta t+iS\sin\Delta t\right)\right\} \\ &= \sum_{i,j=1}^{M}\lambda_{i}p_{j}\operatorname{tr}_{1}\left\{\cos^{2}\Delta t|k_{i}\rangle|\psi_{j}\rangle\langle k_{i}|\langle \psi_{j}|-i\sin\Delta t\cos\Delta t|\psi_{j}\rangle|k_{i}\rangle\langle k_{i}|\langle \psi_{j}|+i\sin\Delta t\cos\Delta t|k_{i}\rangle|\psi_{j}\rangle\langle \psi_{j}|\langle k_{i}|+\sin^{2}\Delta t|\psi_{j}\rangle|k_{i}\rangle\langle \psi_{j}|\langle k_{i}|\right\} \\ &= \sum_{i,j=1}^{M}\lambda_{i}p_{j}\operatorname{tr}_{1}\left\{\cos^{2}\Delta t|k_{i}\rangle\langle k_{i}|\otimes|\psi_{j}\rangle\langle \psi_{j}|-i\sin\Delta t\cos\Delta t|\psi_{j}\rangle\langle k_{i}|\otimes|k_{i}\rangle\langle \psi_{j}|+i\sin\Delta t\cos\Delta t|k_{i}\rangle\langle \psi_{j}|\otimes|\psi_{j}\rangle\langle k_{i}|+\sin^{2}\Delta t|\psi_{j}\rangle\langle \psi_{j}|\otimes|k_{i}\rangle\langle k_{i}|\right\} \\ &= \sum_{i,j=1}^{M}\lambda_{i}p_{j}\left\{\cos^{2}\Delta t|\psi_{j}\rangle\langle \psi_{j}|-i\sin\Delta t\cos\Delta t\left(\langle k_{i}|\psi_{j}\rangle|k_{i}\rangle\langle\psi_{j}|-\langle \psi_{j}|k_{i}\rangle|\psi_{j}\rangle\langle k_{i}|\right)+\sin^{2}\Delta t|k_{i}\rangle\langle k_{i}|\right\} \\ &= \rho\cos^{2}\Delta t-i\sin\Delta t\cos\Delta t \sum_{i,j=1}^{M}\lambda_{i}p_{j}\left(\langle k_{i}|\psi_{j}\rangle|k_{i}\rangle\langle\psi_{j}|-\langle \psi_{j}|k_{i}\rangle|\psi_{j}\rangle\langle k_{i}|\right)+\hat{K}\sin^{2}\Delta t \\ &= \rho-i\sin\Delta t\cos\Delta t\left[\hat{K},\rho\right]+O\left(\Delta t^{2}\right) \end{aligned}$