
深度学习
文章平均质量分 88
自信且放光芒66
这个作者很懒,什么都没留下…
展开
-
论文阅读-《Disentangled Diffusion-Based 3D Human Pose Estimation with Hierarchical Spatial and Temporal D
这篇文章介绍了一种基于扩散模型的3D人体姿态估计方法(简称DDHPose)。该方法创新性地提出了,结合了层级的空间和时间去噪器,提升了在人体关节上的建模能力。下面详细介绍其创新点和之前的技术架构。原创 2024-10-11 17:02:56 · 202 阅读 · 1 评论 -
论文阅读-《Global-to-Local Modeling for Video-Based 3D Human Pose and Shape Estimation》
GLoT 是一种针对基于视频的 3D 人体姿态和形状估计的全局到局部建模方法。它通过结合深度神经网络和人体的先验结构来捕捉长时依赖(long-range global dependency)和局部细节原创 2024-09-09 19:27:06 · 909 阅读 · 1 评论 -
论文阅读-《TransHuman: A Transformer-based Human Representation forGeneralizable Neural Human Rendering》
这篇论文主要介绍了一个名为TransHuman的新框架,它是一个基于Transformer的人体表示模型,用于实现可泛化的神经人体渲染。这项工作的目标是从一个或多个视角的视频训练出发,生成能够泛化到新视角和新主体的高质量3D人体动态渲染。传统的神经渲染方法通常依赖于卷积神经网络(CNN)或其他特定模型进行人体渲染。然而,这些方法往往在处理多样化的人体姿态和外观时表现出局限性,尤其在面对不同光照条件、复杂的背景或姿势变化时,模型的泛化能力较差。原创 2024-08-29 21:24:24 · 781 阅读 · 0 评论 -
论文阅读-《MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation》
由于深度模糊和自遮挡,使得单目视频的3D人体姿态估计更具有挑战性。现有的大部分网略都通过时空结合来解决这个问题,但是其实3DHPE其实是一个逆问题,即存在多个可行解(即假设),要从这多个假设中找出最优解。本篇论文提出了MHFormer,它是一个基于Transformer的三阶段框架,用于从单目视频中估计3D人体姿态,通过学习多个合理姿态假设的空间-时间表征来生成这些假设。原创 2024-05-15 09:32:56 · 2503 阅读 · 0 评论 -
论文阅读-《PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose E》
频率域是一个在3D人体姿态估计领域很少被探索的领域。PoseFormerV2通过将输入序列转换到频率域,并利用离散余弦变换(DCT)系数来表示这些序列,从而有效地结合了时域和频域的信息。PoseFormerV2通过创新地结合时频特征融合模块和DCT变换,解决了长序列处理效率和噪声鲁棒性的挑战,展示了在3D人体姿态估计任务中的潜力。这一方法为未来在这一领域的研究提供了新的思路。原创 2024-05-12 21:34:39 · 1684 阅读 · 1 评论 -
论文阅读-PoseFormer:《3D HumanPose Estimation with Spatial and Temporal Transformers》
这篇论文提出了PoseFormer,一个基于纯变换器架构的3D人体姿态估计模型,它通过空间变换器模块捕捉视频中每帧内2D关节的局部关系,以及时间变换器模块处理帧间的全局时间依赖性。在Human3.6M和MPI-INF-3DHP两个标准数据集上的实验结果表明,PoseFormer在多个评估指标上达到了最先进的性能,并且通过消融研究验证了模型各组件的有效性。此外,PoseFormer在小规模数据集上的泛化能力测试显示,使用大规模数据集进行预训练后微调可以显著提升模型性能。该模型不仅准确度高,而且推理速度快,适合原创 2024-05-11 01:49:37 · 2314 阅读 · 0 评论 -
论文阅读-《Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation》
这篇论文主要研究了2D人体姿态估计的高效架构设计。姿态估计在以人为中心的视觉应用中发挥着关键作用,但由于基于HRNet的先进姿态估计模型计算成本高昂(每帧超过150 GMACs),难以在资源受限的边缘设备上部署。因此,该论文提出了一个核心问题:在轻量模型上,高分辨率+多分支结构是否真正必要。为了解决这一问题,论文作者设计了一个渐进收缩实验,发现高分辨率分支对于低计算区域的模型是多余的。基于这一发现,他们提出了LitePose,这是一种用于自底向上姿态估计的高效架构。原创 2024-03-27 01:27:32 · 905 阅读 · 0 评论 -
论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》
自下而上的HPE在预测小个体的正确姿态方面存在困难,故提出HigherHRNet——使用高分辨率特征金字塔学习尺度感知表示。通过高分辨率特征金字塔和多分辨率监督与聚合,解决了尺度变化带来的挑战,实现了更精确的关键点定位,尤其在处理小个体时表现优异。特征金字塔的主要思想是通过构建多尺度的特征表示,使得模型能够在不同尺度下对目标进行预测。二维人体姿态估计旨在定位人体的关键点或部位,是理解人类行为的重要技术。目前的方法主要分为自上而下和自下而上两类。原创 2024-03-26 14:20:37 · 1234 阅读 · 0 评论 -
论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE
2D HPE 依然面临的。原创 2024-02-13 00:07:19 · 2008 阅读 · 0 评论