视觉信息解码-脑解码文章(利用深度学习算法基于人脑活动进行图像重建)

最新推荐文章于 2024-07-28 09:03:10 发布

研海无涯

最新推荐文章于 2024-07-28 09:03:10 发布

阅读量2.2k

点赞数 1

分类专栏： reading Paper 文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/xiaojianzhao/article/details/104875196

版权

reading Paper 专栏收录该内容

11 篇文章

订阅专栏

本文探讨了使用深度学习技术从fMRI数据中重构面部图像、自然场景及感知图像的创新方法。通过VAE-GAN、BigBiGAN及深度生成多视图框架等模型，实现了对视觉输入的精准重建，展现了深度神经网络在神经解码领域的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

基本问题

1.Reconstructing faces from fMRI patterns usin deep generative neural networks

在这里插入图片描述

问题：

尽管可以从fMRI脑反应中可靠地解码出不同的类别，但是事实证明，区分视觉上相似的输入（例如不同的面孔）更加困难。

解决方案：

在这里，我们应用了最近开发的深度学习系统，从人类fMRI重建面部图像。我们对人脸的大数据集训练了生成式对抗变分自动编码器（VAE）神经网络。自动编码器潜在空间为每个图像提供了有意义的，拓扑结构化的1024维描述。然后，我们向人类受试者展示了数千张脸，并学习了多体素fMRI激活模式与1024个潜在维度之间的简单线性映射。最后，我们将此映射应用于新颖的测试图像，将fMRI模式转换为VAE潜在编码，并将编码转换为面部重建。该系统不仅执行鲁棒的成对解码（正确率>95％），而且还执行准确的性别分类，甚至解码想象中的面孔，而不是看到的面孔。

方法：

在这里插入图片描述

Fig. 1：VAE-GAN 架构图.1.a: 该架构分成三个模块，Encode网络将人脸图像映射成潜变量表达（1024维），生成器网络将潜变量再转换成新颖的人脸。鉴别器区分真假图像。
图.1.b：潜在空间属性。训练完成后，可以使用简单的线性算法对VAE潜在空间进行采样和操作。第一行显示了四个原始面孔。
下方的行显示了在样本面上进行线性运算的结果。例如，增加或减少“微笑向量”的微笑！
（通过从带有“微笑”标签的1000个面孔的平均潜在描述中减去1000个带有“无微笑”标签的面孔的平均潜在描述进行计算），可以创建原始笑脸或皱眉的脸部图像（第二行和第三行）。
可以通过对平均矢量male进行加或减（比例缩放的形式）来完成相同的操作！（第4和第5行），使原始面孔更男性化或更女性化。
简而言之，网络可以操纵与面部相关的“概念”，可以从中提取并渲染为基于像素的表示

基于VAE-GAN潜变量的人脸图像的脑解码

2. Reconstructing Natural Scenes from fMRI Patterns using BigBiGAN

在这里插入图片描述

问题：

从脑成像数据解码和重建图像是一个高度感兴趣的研究领域。深度生成神经网络的最新进展为解决该问题提供了新的机会。

解决方法

在这里，我们采用了最近提出的大规模双向生成对抗网络，称为BigBiGAN，以从fMRI模式解码和重建自然场景。
BigBiGAN将图像转换为120维的潜在空间，该空间将类别和属性信息一起编码，并且还可以基于其潜在矢量来重建图像。我们训练了功能磁共振成像数据之间的线性映射，这些数据是从150个不同类别的ImageNet的图像及其对应的BigBiGAN潜在向量中获取的。然后，我们将此映射应用于从50个未见类别的50个新测试图像中获得的fMRI活动模式，以检索其潜在矢量，并重建相应的图像。从预测的潜在向量的成对图像解码非常准确（84％）。此外，定性和定量评估表明，所得图像重建在视觉上似乎合理，成功捕获了原始图像的许多属性，并且与原始内容具有很高的感知相似性。这种方法为基于fMRI的自然图像重建建立了新的技术水平，并且可以灵活更新以考虑到自然场景图像生成模型中的任何未来改进。

在这里插入图片描述

思考

BigBiGAN本身就有编码的作用，文章对标那篇nature文章。

3. Reconstructing Perceived Images From Human Brain Activities With Bayesian Deep Multiview Learning

在这里插入图片描述

问题

从通过功能磁共振成像（fMRI）测量的人脑活动中准确重建感知图像仍然具有挑战性。
原因通常有三个方面：
1）视觉图像和诱发的大脑活动之间的线性映射具有有限的表示能力；
2）我们只有少量的配对数据（刺激响应）；
3）通过功能磁共振成像记录的大脑活动是高维数据，通常由于复杂的噪声而退化。

解决方法

1）我们通过采用概率建模和DNN的融合描述了一种新的用于神经解码的深度生成多视图框架。深度生成模型中的生成和推理过程自然支持想象力的认知现象。
2）我们在功能磁共振成像活动的分布上施加了一个完整的协方差矩阵，以捕获体素之间的相关性。为了降低计算复杂度，我们通过引入一组辅助潜在变量，对该全协方差矩阵进一步施加了低秩假设。
3）我们得出感知图像的预测分布，其中考虑了数据的不确定性。特别地，我们表明可以将后验正则化引入神经解码以提高预测性能。
4）我们设计了一种均值场变分推断方法来有效地训练提出的模型。
5）定量和定性评估表明，我们的方法可以比现有技术更准确地重建视觉图像

在这里插入图片描述

图1.提议的DGMM框架的图示。（a）训练。将X和Y输入推理模型以获得Z，然后使用Z通过不同的生成模型来重构X和Y。（b）预测。
通过使用贝叶斯推断，首先将测试大脑活动y *解码为潜在表示z *。给定z *，我们可以通过预训练的深度生成模型重建视觉图像xpred。
特别是，我们利用测试实例y *与训练实例Y之间的相似性信息来规范化z *的后验推断。