深度学习
文章平均质量分 94
自信且放光芒66
这个作者很懒,什么都没留下…
展开
-
论文阅读-《MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation》
由于深度模糊和自遮挡,使得单目视频的3D人体姿态估计更具有挑战性。现有的大部分网略都通过时空结合来解决这个问题,但是其实3DHPE其实是一个逆问题,即存在多个可行解(即假设),要从这多个假设中找出最优解。本篇论文提出了MHFormer,它是一个基于Transformer的三阶段框架,用于从单目视频中估计3D人体姿态,通过学习多个合理姿态假设的空间-时间表征来生成这些假设。原创 2024-05-15 09:32:56 · 1211 阅读 · 0 评论 -
论文阅读-《PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose E》
频率域是一个在3D人体姿态估计领域很少被探索的领域。PoseFormerV2通过将输入序列转换到频率域,并利用离散余弦变换(DCT)系数来表示这些序列,从而有效地结合了时域和频域的信息。PoseFormerV2通过创新地结合时频特征融合模块和DCT变换,解决了长序列处理效率和噪声鲁棒性的挑战,展示了在3D人体姿态估计任务中的潜力。这一方法为未来在这一领域的研究提供了新的思路。原创 2024-05-12 21:34:39 · 920 阅读 · 1 评论 -
论文阅读-PoseFormer:《3D HumanPose Estimation with Spatial and Temporal Transformers》
这篇论文提出了PoseFormer,一个基于纯变换器架构的3D人体姿态估计模型,它通过空间变换器模块捕捉视频中每帧内2D关节的局部关系,以及时间变换器模块处理帧间的全局时间依赖性。在Human3.6M和MPI-INF-3DHP两个标准数据集上的实验结果表明,PoseFormer在多个评估指标上达到了最先进的性能,并且通过消融研究验证了模型各组件的有效性。此外,PoseFormer在小规模数据集上的泛化能力测试显示,使用大规模数据集进行预训练后微调可以显著提升模型性能。该模型不仅准确度高,而且推理速度快,适合原创 2024-05-11 01:49:37 · 1166 阅读 · 0 评论 -
论文阅读-《Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation》
这篇论文主要研究了2D人体姿态估计的高效架构设计。姿态估计在以人为中心的视觉应用中发挥着关键作用,但由于基于HRNet的先进姿态估计模型计算成本高昂(每帧超过150 GMACs),难以在资源受限的边缘设备上部署。因此,该论文提出了一个核心问题:在轻量模型上,高分辨率+多分支结构是否真正必要。为了解决这一问题,论文作者设计了一个渐进收缩实验,发现高分辨率分支对于低计算区域的模型是多余的。基于这一发现,他们提出了LitePose,这是一种用于自底向上姿态估计的高效架构。原创 2024-03-27 01:27:32 · 601 阅读 · 0 评论 -
论文阅读-《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》
自下而上的HPE在预测小个体的正确姿态方面存在困难,故提出HigherHRNet——使用高分辨率特征金字塔学习尺度感知表示。通过高分辨率特征金字塔和多分辨率监督与聚合,解决了尺度变化带来的挑战,实现了更精确的关键点定位,尤其在处理小个体时表现优异。特征金字塔的主要思想是通过构建多尺度的特征表示,使得模型能够在不同尺度下对目标进行预测。二维人体姿态估计旨在定位人体的关键点或部位,是理解人类行为的重要技术。目前的方法主要分为自上而下和自下而上两类。原创 2024-03-26 14:20:37 · 986 阅读 · 0 评论 -
论文阅读:《Deep Learning-Based Human Pose Estimation: A Survey》——Part 1:2D HPE
2D HPE 依然面临的。原创 2024-02-13 00:07:19 · 1610 阅读 · 0 评论