论文阅读-《PoseFormerV2: Exploring Frequency Domain for Efficient and Robust 3D Human Pose E》

        这篇论文提出了一个名为PoseFormerV2的新型3D人体姿态估计方法,它通过在频率域上对长序列的2D关节数据进行紧凑表示,有效地扩大了模型的感受野并增强了对噪声的鲁棒性。具体来说,PoseFormerV2利用离散余弦变换(DCT)来捕捉输入关节序列的低频成分,这些成分足以代表整个序列的视觉身份,同时滤除了由2D关节检测器引入的噪声。通过最小化对原始PoseFormer架构的修改,PoseFormerV2在时间域和频率域上融合特征,实现了比前身更好的速度-精度权衡。在Human3.6M和MPI-INF-3DHP这两个基准数据集上的广泛实验表明,PoseFormerV2在处理长序列输入和对噪声鲁棒性方面均优于现有的基于变换器的方法,达到了当前最先进的性能水平。

目录

1 概述

1.1 背景与挑战

1.2 方法

1.3 架构

1.4 创新点总结

2 摘要

3 介绍

3.1 PoseFormer面临的挑战

3.2 PoseFormerV2的改进

3.3 主要贡献

4 相关工作

4.1 基于Transformer在3D HPE中的探索

4.2 在计算机视觉中的频率表征

5 方法

5.1 PoseFormerV1

5.2 PoseFormerV2

5.2.1基于骨架序列的频率表示

5.2.2 架构

5.2.2.1 空间编码器

5.2.2.2 低频DCT系数

5.2.2.3 时频特征融合

5.2.2.4 回归头和Loss函数

5.2.2.5 FreqMLP

6 实验

6.1 数据集及评估指标

6.1.1 数据集

6.1.2 评估指标

6.2 实验细节及分析

6.3 与其他先进方法的比较

6.3.1 Human3.6M.数据集

6.3.2 MPI-INF-3DHP. W数据集

6.4 消融实验

6.4.1 消融实验1:转换PoseFormerV1为PoseFormerV2

6.4.2 消融实验2:输入帧数和DCT系数的数量

6.5 泛化能力

7 结论


1 概述

        这篇论文介绍了一种新的3D人体姿态估计方法,名为PoseFormerV2。这种方法旨在提高处理长序列输入的效率,并增强对嘈杂2D关节检测的鲁棒性。下面是对论文内容和使用的方法的具体介绍:

1.1 背景与挑战

        传统的基于变换器的方法(如PoseFormer)在2D到3D的人体姿态估计中取得了成功,但在处理长序列输入和对2D关节检测噪声的鲁棒性方面存在局限。

        这些方法通常对输入序列的所有帧应用自注意力,导致计算成本随着帧数增加而显著提高。

1.2 方法

        PoseFormerV2:提出了PoseFormerV2,它利用频域中的紧凑表示来处理长骨架序列,从而有效扩展接收场并提高对嘈杂2D关节检测的鲁棒性。

        频域表示:通过离散余弦变换(DCT)将骨架序列转换到频域,并只使用部分低频系数来编码输入时间序列的多级时间信息,其中低频系数编码序列的大致轮廓,高频系数编码细节(如抖动或突变)。

1.3 架构

        PoseFormerV2继承了PoseFormer的空间-时间架构,但对空间变换器编码器进行了修改,使其只观察长序列中的少数中心帧。然后,它将这些“短视”的帧级特征与完整序列的低频分量的全局特征相结合。

        特征融合:提出了一个时间-频域特征融合模块,该模块采用变换层来模拟跨帧的时间依赖性,并将时域和频域特征融合在一起。

1.4 创新点总结

1. 频域表示:

        V2引入了频域表示,特别是通过离散余弦变换(DCT)将输入的2D骨架序列转换到频域,并只使用低频系数来表示序列。这种表示方法可以有效地捕捉序列的整体趋势,同时过滤掉高频噪声,如关节检测中的抖动和异常值。

2. 时间-频率特征融合:

        V2设计了一个时间-频率特征融合模块,该模块结合了时域中的特征(来自少数中心帧的空间Transformer编码器)和频域中的特征(来自完整序列的低频DCT系数)。这种融合方法使得模型能够同时利用局部的精细动作信息和全局的序列信息。

3. 改进的Transformer结构:

        V2对Transformer结构进行了改进,使其能够更好地处理时域和频域的特征。这包括对自注意力机制的修改,以及引入了一个特殊的多层感知器(FreqMLP),它在频域特征的前馈网络中使用DCT和逆DCT来调整每个频率成分的权重。

2 摘要

背景:基于变换器的方法在顺序化的2D到3D人体姿态估计中取得了显著的成功。作为开创性的工作,PoseFormer通过级联的变换器层通过捕获每个视频帧中人体关节的空间关系以及跨帧的人体动态实现姿态估计。

挑战:PoseFormer在实际应用中面临两个主要问题:① 输入序列的长度限制;② 对2D关节检测质量的依赖,现有方法通常对输入序列的所有帧应用自注意力,当增加帧数以获得更高级的估计精度时,会导致巨大的计算负担,并且它们对2D关节检测器有限能力所带来的噪声并不鲁棒。

解决方案:文章提出的PoseFormerV2通过在频域中对骨架序列进行紧凑的表示,有效地扩展了接收场,并增强了对嘈杂2D关节检测的鲁棒性,从而解决了上述问题。这种方法通过最小化的架构改动,有效地结合了时域和频域的特征。

实验结果:在Human3.6M和MPI-INF-3DHP两个数据集上的实验显示,PoseFormerV2在速度和准确性的权衡上超越了PoseFormer和其他基于变换器的方法。

3 介绍

        前半部分对于3D HPE的介绍与PoseFormer一致,主要从PoseFormer目前的缺陷以及V2做出的改进讲起。关于PoseFormer的具体介绍见上一篇。

3.1 PoseFormer面临的挑战

        PoseFormer模型在性能上主要受到了两个因素的限制:

        ① 输入2D骨架序列长度:为了获得先进的性能,基于变换器的方法通常需要使用非常长的输入序列,现有方法通常对输入序列的所有帧应用自注意力,导致计算负担巨大,且对2D关节检测的噪声敏感。例如,PoseFormer使用81帧,P-STMO使用243帧,而MHFormer使用351帧。对于这些长序列使用自注意力机制进行处理在计算上非常昂贵。例如,在RTX 3090 GPU上,3帧的PoseFormer单轮训练成本约为5分钟,而81帧的PoseFormer成本激增至约1.5小时。

        ② 2D关节检测的质量:2D关节检测器由于其训练数据集的偏差以及单帧估计范式带来的时间一致性问题,不可避免地会引入噪声。例如,在Human3.6M数据集上,使用ground-truth 2D检测的PoseFormer达到了31.3mm的MPJPE(Mean Per Joint Position Error,每个关节的平均位置误差)。当将ground-truth的输入替换为CPN [6] 2D姿态检测时,这个结果显著下降到44.3mm。

        在实际应用中,PoseFormer可能会有长序列推理很难部署在资源有限的设备的硬件上(如AR/VR头显),且很难获得高质量的2D检测的挑战。

        表1提供了有关现有基于变换器的方法处理长序列的效率以及对嘈杂2D关节检测的鲁棒性的更多定量结果。

 Tips:ground-truth

"ground truth"(真实值或真实数据)指的是真实、准确且客观的数据,通常用作评估模型性能的标准答案或基准。在3D人体姿态估计的上下文中,ground truth指的是人体关节在3D空间中的真实位置。当使用ground-truth作为输入时,他的作用可能是:

1. 数据集的ground truth标注:在训练和评估3D人体姿态估计模型时,通常有一个数据集,其中包含了视频帧或图像以及对应的人体关节的3D位置标注。这些标注是人工标注或使用高精度设备(如运动捕捉系统)获得的,代表了关节位置的真实值。

2. 评估模型性能:为了评估模型的性能,会将模型预测的3D姿态与ground truth进行比较。常用的评估指标,如MPJPE(Mean Per Joint Position Error),会计算模型预测的关节位置与ground truth之间的平均欧氏距离。

3. 使用ground truth进行训练:在某些情况下,可能会使用ground truth数据来训练模型,尤其是在数据量有限或为了获得最佳性能时。

4. 消融研究:在消融研究中,研究者可能会使用ground truth数据来测试模型在没有2D检测噪声干扰时的性能,以此来评估模型对2D检测噪声的敏感度。

5. 模型的上限性能:通过使用ground truth 2D关节检测数据作为输入,研究者可以评估模型在理想情况下的上限性能,即在没有2D检测误差时模型能够达到的最好结果。 

        在PoseFormer面临的挑战下, 作者主要提出了两个关键问题:

        1. 如何有效地利用长关节序列获得更好的估计精度?

        这个问题关注的是如何从视频序列中提取并利用长期的时间信息来提升3D人体姿态估计的准确性。在视频数据中,长关节序列包含了丰富的动态信息,可以帮助模型更好地理解人体运动和姿态变化。然而,处理这些长序列数据也带来了挑战,包括但不限于:

        ① 计算复杂性:长序列数据需要更多的计算资源,尤其是在应用自注意力机制时。

        ② 内存消耗:长序列可能导致模型的内存需求大幅增加。

        ③ 信息冗余:并非所有帧的信息都是对最终姿态估计至关重要的。

        2. 如何增强模型对不可靠2D姿态检测的鲁棒性?

        这个问题关注的是提高模型对2D姿态检测噪声的容忍度。在实际应用中,2D姿态检测器可能会因为遮挡、快速运动、复杂背景等因素产生误差。这些误差会对3D姿态估计的结果产生负面影响。

3.2 PoseFormerV2的改进

        一些工作尝试通过引入手工设计的模块来解决这些问题,例如:

        1. 下采样和上采样模块:只处理视频帧的一部分以提高效率。

        2. 多假设模块:模拟身体部位的深度歧义和2D检测器的不确定性。

        但是这些方法并不能同时解决上述的两个问题,例如多假设方法虽然提高了鲁棒性,但也带来了额外的计算成本。

        But!!!作者提出了可以用频域同时解决这两个问题。由于低频分量足以表示整个视觉身份(例如,在图像压缩中的2D图像和本例中的关节轨迹),因此不需要对所有帧进行自注意力计算。另外骨架序列的低频表示本身可以滤除检测到的关节轨迹中的高频噪声(抖动和异常值)。将输入骨架序列编码为低频系数,模型可以在不牺牲准确性的情况下减少计算量,并且由于噪声的减少,还可以提高对不准确2D检测的鲁棒性。具体结果见表1.

        PoseFormerV2主要进行了如下改进:

        1. 空间-时间架构的继承与改进:PoseFormerV2继承了PoseFormer的空间-时间架构,但对空间变换器编码器进行了修改,使其只关注长序列中的少数中心帧。

        2. 短视帧级特征与全局特征的结合:将空间编码器输出的“短视”帧级特征与完整序列的低频分量中的全局特征相结合,使用全局特征来对短视特征进行补充。

        3. 时间-频率特征融合模块:避免了对所有时间步长使用昂贵的帧到帧自注意力计算,而是重新构思了时间变换器编码器作为一个时间-频率特征融合模块。

        在Human3.6M和MPI-INF-3DHP两个3D人体姿态估计基准数据集上的广泛实验表明,PoseFormerV2在速度-准确性权衡和对2D关节检测噪声的鲁棒性方面显著优于其前身PoseFormer以及其他基于变换器的变体。

3.3 主要贡献

        1. 据作者所知,他们是第一个在2D到3D姿态提升的人体姿态估计(HPE)中使用输入关节序列的频域表示的研究者。他们发现这种表示方式可以同时解决该领域中的两个重要问题:处理长序列的效率和对不可靠关节检测的鲁棒性,并且实验证据表明这种方法可以轻松地推广到其他模型。

        2. 设计了一个有效的时间-频率特征融合模块,以缩小时域特征和频域特征之间的差距,从而使速度和准确性之间实现灵活的平衡。

        3. PoseFormerV2在Human3.6M数据集上的表现在速度-准确性权衡和鲁棒性方面优于其他基于变换器的方法,并且在MPI-INF-3DHP数据集上达到了最先进的水平。

4 相关工作

        在这一板块作者概述了PoseFormerV2方法的动机和技术路线,旨在从频域的角度提高原始PoseFormer模型处理长序列数据的效率和对噪声关节检测的鲁棒性。所以在这里主要介绍了基于Transformer的2D-to-3D lifting HPE ,以及频域在计算机视觉中的应用。

4.1 基于Transformer在3D HPE中的探索

        PoseFormer是第一个采用TransFormer作为骨架网络的2D-to-3D lifting HPE 方法,其性能远远超越了CNN的方法。

        Mixste:Zhang等人[40]指出PoseFormer的空间-时间范式可能会忽视每个关节独特的时间模式,并提出采用交替的空间-时间变换器层进行细粒度的关节特定特征提取——用于视频中三维人体姿态估计的Seq2seq混合时空编码器。

        MHFormer:MHFormer[15]进一步将与任务相关的先验知识整合到变换器中,用于3D人体姿态估计。具体来说,2D到3D的姿态提升是一个逆问题,存在多个合理的解决方案,因此MHFormer生成多个假设来模拟模糊的身体部位和关节检测器中的不确定性,实现了先进的性能。

        P-STMO的自监督学习:受图像分类中掩码图像建模(Masked Image Modeling, MIM)进展的启发,P-STMO[29]将掩码关节建模应用于3D人体姿态估计,并采用自监督学习方法。

        Transformer方法的效率提升:另一系列工作[9, 14]旨在提高基于变换器方法的效率。利用2D关节序列中的时间冗余,Strided Transformer[14]用步进卷积替换了参数繁重的全连接层。Einfalt等人[9]声称每帧2D关节检测的计算成本甚至比提升模型本身还要高,并提出以固定间隔对输入视频帧进行下采样,并仅在这些采样帧上采用2D关节检测器和提升模型。虽然上述方法[9, 14]比之前的方法更高效,但它们通过仅使用相邻视频帧的一致性而不是全局视角,沿时间维度减少自注意力的参与者数量,因此可能会遭受相当大的性能下降。

4.2 在计算机视觉中的频率表征

        由于人类视觉系统对图像的低频成分更为敏感。因此,传统的图像压缩算法(如JPEG和JPEG 2000)通过为图像的低频离散余弦变换(DCT)系数分配更多的存储预算来减少存储2D图像的内存成本。基于类似的逻辑,一些研究(如[37])提出通过自适应地移除DCT分量中的非信息通道来提高2D图像分类的效率。

        对于以2D骨架序列为输入的骨架基础任务(如人体运动预测),先前的工作(如[19]和[20])将骨架序列从时域变换到DCT系数,以编码人体动态,而非静态关节坐标。他们观察到丢弃一些高频系数并不一定会导致性能下降,甚至会提高预测的平滑度。但是,二维关节序列的频域表示尚未在基于lifting的三维人体姿态估计中进行探索。、

5 方法

5.1 PoseFormerV1

详见论文阅读-PoseFormer:《3D HumanPose Estimation with Spatial and Temporal Transformers》-CSDN博客

5.2 PoseFormerV2

5.2.1基于骨架序列的频率表示

        作者提出使用离散余弦变换(Discrete Cosine Transform, DCT)将输入的骨架序列(例如由CPN检测到的人体关节轨迹)转换到频域,并只利用低频系数的一部分。DCT系数为输入时间序列编码了多个时间信息层级。低频系数编码了其大致轮廓,而高频系数编码了其细节,例如抖动或锐变。DCT的系数能够对输入的时间序列数据(在这个上下文中是骨架序列)进行编码,捕捉并表示该序列在不同时间尺度上的信息。

Tips:专有名词解释:

时间序列:是按照时间顺序排列的数据点集合,例如视频中连续帧的骨架数据。

多级时间信息:时间序列中的信息可以在不同的时间尺度上存在。例如,长期信息可能涉及整个动作的持续和整体趋势,而短期信息可能涉及动作中的快速或细微变化。

DCT系数:DCT是一种将时间域信号转换为频率域表示的数学工具。DCT的结果是一个系数集合,每个系数代表了信号在特定频率下的成分。

低频系数:DCT变换后的低频系数通常对应于时间序列中的慢变化或主要趋势。它们编码了时间序列的粗糙轮廓,反映了整体的动作模式。

高频系数:相对地,DCT变换后的高频系数则对应于时间序列中的快速变化或细节信息,如动作中的抖动或突然变化。

编码:通过DCT变换,原始的时域信号被转换为一系列频率成分,这些成分可以被看作是对原始信号在不同时间尺度上变化的编码。

        为了更好地说明选择这种表示的动机,作者提供了一个81帧的示例,展示了Human3.6M数据集中动作“Directions”的CPN检测到的关节轨迹,以及使用前3个、9个和27个DCT系数分别重建的轨迹(见图3)。

        随着保留的DCT系数数量的增加,重建的轨迹越来越接近原始输入,但平滑度降低。值得注意的是,即使只使用3个DCT系数(橙色曲线表示),也能捕捉到原始轨迹的整体趋势。而使用9个和27个系数(粉色和绿色曲线)时,原始序列的特征被更好地保留,同时去除了高频噪声(锯齿状波动)。这些观察结果激发了作者利用输入关节序列的几个高度信息性的低频DCT分量作为紧凑且去噪的序列表示。通过这种表示,可以显著减少输入序列的有效长度,并提高模型对2D关节检测中包含的噪声的鲁棒性。

5.2.2 架构

5.2.2.1 空间编码器

        空间编码器的设计直接遵循了PoseFormerV1

5.2.2.2 低频DCT系数

        时域特征(Ztime)被称为“短视”的,因为它们的接受野(F')与整个序列长度(F)相比是有限的(在使用自注意力机制的模型中,虽然理论上可以捕捉长距离依赖,但实际上可能通过注意力权重来集中于序列中的特定部分,而不是均匀地关注所有帧。)。这意味着时域特征只能捕捉到序列中有限的局部信息。为了有效利用原始序列中的长距离人体动态,作者转向使用频域表示。具体步骤如下:

5.2.2.3 时频特征融合

        "Time-Frequency Feature Fusion"(时频特征融合)是一种将时域特征和频域特征结合起来的方法,以提高模型对跨帧时间依赖性的建模能力。为了缩小时域和频域之间的差异,网络对标准的变换器层进行了简单的修改:

        (1) 时域和频域特征共享自注意力机制,但使用独立的前馈网络(Feed-Forward Networks, FFNs)。

        (2) 对于时域特征 𝑧Time ,前馈网络中应用了FreqMLP(Frequency Multi-Layer Perceptron)。

        FreqMLP:FreqMLP在标准的多层感知机(MLP)前后使用DCT和逆DCT(IDCT)。因为频域特征通过低通滤波器滤除了高频噪声,但一些详细的人体运动特征(例如,快速的局部运动)也可能作为噪声丢失。而FreqMLP充当一个可训练的频域滤波器,允许我们适应性地调整2D关节坐标嵌入中每个频率分量的权重(即时域特征),从而补充频域特征。

        zTime通过自注意力机制处理,然后通过FreqMLP进行进一步处理。zFreq直接通过自注意力机制处理。

        通过这种时频特征融合方法,模型不仅能够利用时域中的详细信息,还能够利用频域中的全局信息,从而提高对长距离人体动态的捕捉能力。FreqMLP提供了一种灵活性,允许模型学习如何在时域特征中不同频率分量之间进行权衡,以恢复或增强那些在DCT变换过程中可能丢失的有用运动细节。

        可以用如下公式表示时频特征融合的过程:

        虽然但是,通过拼接时域和频域特征,tokens的总数增加了(在Transformer模型中,令牌是输入序列的元素,它们将通过模型的各个层进行处理),尽管拼接操作增加了tokens的数量,但通过限制空间Transformer编码器仅观察有限数量的中心帧,可以减少计算量。这意味着模型不需要处理整个序列,而只需关注最重要的部分。通过纳入一小部分低频DCT系数,模型的感受野得到了扩展(感受野是指模型在处理序列数据时能够考虑的序列范围),扩展感受野有助于模型捕捉更长期的依赖关系。除了减少计算成本之外,这种方法还提高了模型对噪声的鲁棒性。这是因为低频DCT系数能够滤除高频噪声,从而减少2D关节检测中的噪声对最终3D姿态估计的影响。

5.2.2.4 回归头和Loss函数

回归头

        使用1D卷积层和线性投影从融合后的特征中估计中心帧的3D姿态。

        1. 1D卷积层:用于在时间维度上聚合信息。这一层处理经过时频特征融合模块输出的特征,将不同帧的信息综合起来,以捕获整个序列的动态特征。

        2. 线性投影:1D卷积层的输出随后通过一个线性层(全连接层),将特征映射到3D姿态的参数空间。对于序列中的中心帧,最终输出一个3D姿态向量 y ∈ R1 *(J · 3),其中 J 是人体模型中的关节数量,每个关节的3D位置由3个坐标值表示。

损失函数

        使用MPJPE作为损失函数来训练模型,用于衡量模型预测的3D姿态与真实姿态之间的平均每个关节位置误差。计算方式是将每个关节的预测位置与真实位置之间的欧氏距离求平均。在训练阶段,MPJPE损失函数越小,模型预测的3D姿态越可能接近于真实的3D姿态。

5.2.2.5 FreqMLP

        标准的MLP由多个线性层(全连接层)和非线性激活函数层交替组成。输入数据通过这些层进行处理,以学习输入特征之间的复杂关系。

        FreqMLP(Frequency Multi-Layer Perceptron)是一种特别设计的多层感知机(MLP),用于处理时域特征。FreqMLP的核心思想是在标准的MLP中引入频率域的变换,以增强模型对时域特征中不同频率分量的控制能力。

1. 动机

        在时频特征融合模块中,时域特征和频域特征需要有效地结合,以提高模型对输入序列的理解。标准的MLP可能不足以捕捉和利用频率域中的信息,因此需要一种能够结合时频特征的网络结构。

2. 设计

        FreqMLP 在处理时域特征 𝑧Time𝑒时,采用了DCT(Discrete Cosine Transform,离散余弦变换)和IDCT(Inverse Discrete Cosine Transform,逆离散余弦变换)。这种设计允许模型在时域和频域之间转换,以更好地理解和利用输入数据的频率特性。

3. 计算过程

(1)前向传播:在FreqMLP的前向传播过程中,首先对时域特征 𝑧Time𝑒应用DCT,将时域信息转换为频域信息。

(2)MLP处理(多层感知机处理):DCT变换后的频域特征通过一个标准的MLP。MLP层可以学习频域特征的非线性关系,并且可以自适应地调整不同频率分量的重要性。这意味着模型可以识别哪些频率分量对于预测任务更为重要,并给予它们更多的权重。

(3)逆变换:MLP的输出接着通过IDCT进行逆变换,将频域信息转换回时域,以便于和其他模型组件协同工作。

4. 优势

(1)灵活性:FreqMLP通过在MLP中引入频率域变换,提供了一种灵活的方式来处理时域特征,使得模型能够自适应地调整不同频率分量的重要性。

(2)鲁棒性:通过在频域中滤除噪声,FreqMLP有助于提高模型对输入噪声的鲁棒性,这对于2D关节检测噪声的处理尤其重要。

(3)效率:FreqMLP的设计使得模型可以在不显著增加计算负担的情况下,有效地利用时频特征。

5. 具体步骤:

(1)DCT (Discrete Cosine Transform):

        DCT是一种将时域信号转换为频域信号的数学工具,常用于信号处理和图像压缩。在FreqMLP中,DCT用于将输入的时域特征

        𝑧Time转换为频域特征。DCT可以帮助分离信号的不同频率分量,其中低频分量通常包含主要的结构信息,而高频分量可能对应于噪声或细节信息。

(2)Linear (线性层):

        在DCT变换后,频域特征会通过一个线性层,也就是一个全连接层。这个线性层可以对DCT变换后的频域特征进行空间上的变换,进一步提取有用的信息,同时也可以调整特征的维度。

(3)GELU (Gaussian Error Linear Unit):

        GELU是一种激活函数,用于在网络中引入非线性。在频域特征经过线性层之后,GELU激活函数可以引入非线性,帮助模型学习更复杂的特征表示。GELU的设计考虑了输入数据的统计特性,通常能够在多种任务中提供比传统ReLU更好的性能。

GELU (Gaussian Error Linear Units) 是一种基于高斯误差函数的激活函数,相较于 ReLU 等激活函数,GELU 更加平滑,有助于提高训练过程的收敛速度和性能。当方差为无穷大,均值为0的时候,GeLU就等价于ReLU了。GELU可以当作为RELU的一种平滑策略。

ReLU 和 GeLU 的区别在于形状和计算效率。ReLU 是一个非常简单的函数,仅仅是输入为负数时返回0,而输入为正数时返回自身,从而仅包含了一次分段线性变换。但是,ReLU 函数存在一个问题,就是在输入为负数时,输出恒为0,这个问题可能会导致神经元死亡,从而降低模型的表达能力。GeLU 函数则是一个连续的 S 形曲线,介于 Sigmoid 和 ReLU 之间,形状比 ReLU 更为平滑,可以在一定程度上缓解神经元死亡的问题。不过,由于 GeLU 函数中包含了指数运算等复杂计算,所以在实际应用中通常比 ReLU 慢。

(4)Second Linear (线性层):

        在GELU激活函数之后,再次使用线性层可以进一步对特征进行变换,为模型提供更多的自由度来学习数据中的复杂关系。这个线性层可以进一步提炼和组合频域特征。

(5)IDCT (Inverse Discrete Cosine Transform):

        IDCT是DCT的逆操作,用于将频域特征转换回时域。在FreqMLP中,经过处理的频域特征通过IDCT变换回到时域,这样可以将处理后的特征与模型的其他部分(如自注意力机制)结合使用。

6 实验

6.1 数据集及评估指标

6.1.1 数据集

Human3.6M[12]和MPI-INF-3DHP[21]

6.1.2 评估指标

(1)MPJPE:计算了模型预测的3D关节位置与真实3D关节位置之间的平均欧氏距离。MPJPE越低,表示模型的预测精度越高。

(2)PCK:它表示在特定阈值下,预测的关节位置与真实关节位置一致的比例。这个指标可以帮助了解模型在不同误差阈值下的性能。

(3)AUC: AUC通常用于衡量模型在整个误差范围内的性能,它是PCK曲线下的面积。AUC值越高,表示模型的整体性能越好。

6.2 实验细节及分析

        本次实验设置了三个关键的超参数,分别是:

(1)输入空间编码器的帧数 (f): 指的是直接作为输入提供给空间Transformer编码器的连续帧或关键帧的实际数量。这些帧包含了局部时序信息,用于捕捉短时间内人体姿态的变化。所以这个参数决定了局部帧级特征的采样密度。

(2)整个输入序列的长度 (F): 这个参数代表了模型的感受野大小,即模型在处理时序数据时能够考虑的整个序列的长度。而感受野是指网络中某一层能够感知到的输入数据的最大空间(或时间)范围。在处理序列数据的模型中,这通常指的是模型能够考虑的最长距离的依赖关系。

        感受野的大小 F 决定了模型可以捕捉的时序信息的长度。一个较大的感受野允许模型观察和学习长期依赖关系,这在处理长序列数据时尤其重要。即使 f 是有限的,通过DCT变换,模型的感受野 F 可以被扩展到更长的序列。

F 和 f 的区别:

a. 局部性与全局性:输入帧的数量 f  关注的是模型在某一层处理的局部帧,而感受野 F 描述的是模型在整个网络中能够捕捉的全局时序范围。

b. 计算效率:较小的 f 可以减少每一层的计算量,但可能限制了模型捕捉长期依赖的能力。通过扩展感受野 F ,可以在保持计算效率的同时,增加模型对长距离依赖的感知能力。

c. 信息融合:输入帧的数量 f 决定了送入网络的信息量,而感受野 F 决定了网络能够融合的信息量。即使只有少数帧直接作为输入(小的 f ),通过感受野的扩展,模型也可以间接地利用更多帧的信息(大的 F )。

3)保留的DCT系数的数量 (n): 这是从完整的序列中保留的离散余弦变换(DCT)系数的数量,用于引入长期时序信息。DCT系数的保留有助于模型忽略噪声并关注更重要的时序特征。

        如果没有特别指定,他们通常会为了方便将 n 设置为 f 的值。n 是DCT变换的核心参数,它确定了变换输出的尺寸。换句话说,对于一个给定的时域信号,n 表示输出的DCT系数矩阵的边长。如果输入信号的长度也是 n,则DCT将是一个方阵变换。在实践中,这些超参数可以根据需要进行调整。一旦f和n被固定,模型的计算复杂性就被确定了,即空间编码器和特征融合模块的tokens数量是固定的。然而,为了有效地扩展模型的感受野,可以将F设置为从固定的 f 扩展任意值,而不增加额外的计算开销。这允许模型高效地使用长序列来提高精度。

6.3 与其他先进方法的比较

6.3.1 Human3.6M.数据集

        通过调整两个参数:输入到空间Transformer编码器的帧数 f 和整个输入序列的长度 F,来控制模型的感受野和计算复杂度。其中扩大比率(Expanding Ratio)是 F 与 f 的比值,即 E = F / f。这个比率反映了模型能够通过少量关键帧 f 来捕捉的整个序列 F 的信息量。当扩展比很大时,模型方法越有效。例如,当扩大比率为81时,PoseFormerV2在只有77.2 MFLOPs(百万次浮点运算)的计算成本下,达到了47.6mm的MPJPE(均方根关节位置误差),相比之下,MHFormer在342.9 MFLOPs的计算成本下,达到了47.8mm的MPJPE,计算效率低了4.4倍。除此在外在大约350 MFLOPs的计算预算和81帧的序列长度下,PoseFormerV2达到了46.0mm MPJPE的性能,而StridedTransformer达到了47.5mm MPJPE,表示PoseFormerV2的性能高出3.2%。图5的对比表明该方法在速度-精度权衡方面优于其他基于Transformer的方法(不包括MixSTE,因为他具有额外的预训练阶段,且计算量较大:仅3帧输入3420 MFLOPs)。

        图1给出了PoseFormerV2相对于PoseFormerV1的改进。

        为了证明低频DCT系数的加入有助于提高所提方法对噪声的鲁棒性,作者通过在Human3.6M数据集的ground-truth 2D检测中加入零均值高斯噪声,使基于lifting的姿态估计任务更具挑战性。为了确保公平的比较,本文保持所有方法的输入序列长度相同(在本例中为27帧)。对于PoseFormerV2,f = n = 3。

        实验表明,随着高斯噪声标准差(sigma)的增加,PoseFormerV2的性能下降较小,同时效率更高。与PoseFormer相比更具有稳定性。此外方法也由于MHFormer(将二维探测器的不确定性纳入模型设计中)。除此之外还发现在噪声标准差为3时,其3D姿态估计的准确性甚至有所提高。

6.3.2 MPI-INF-3DHP. W数据集

        在MPI-INF-3DHP数据集上,PoseFormerV2使用了9个中心帧和9个DCT系数,并且超过了包括P-STMO在内的其他方法,即使P-STMO使用了掩蔽关节预训练。比较结果如表3所示

        在图7中,作者将PoseFormerV2与MHFormer[15]和PoseFormerV1[41]进行了定性比较

        所有方法都使用81帧2D关节序列作为输入,随机选择的关节(例如,“左手腕”,“右脚”)的连续二维检测中添加高斯噪声,使姿态估计任务变得更加困难。在高斯噪声的影响下,PoseFormerV2相比MHFormer和PoseFormerV1显示出更好的鲁棒性。这表明PoseFormerV2在处理噪声数据时的性能下降幅度较小。在计算效率上,PoseFormerV2在计算效率上也有显著提升,与MHFormer相比快约9倍,与PoseFormerV1相比快约4倍。

6.4 消融实验

        在消融实验中主要针对V2对V1的改进进行逐个展示,此外还展示了输入帧数和保留的DCT系统对方法的影响。

6.4.1 消融实验1:转换PoseFormerV1为PoseFormerV2

        作者展示了如何通过几个步骤将原始的PoseFormerV1模型转换为PoseFormerV2,并量化了每一步对性能的影响:

        1. 从更长序列中采样输入帧:将输入帧从9帧增加到更长的序列(例如81帧),但仅在序列中心采样9帧作为输入。由于模型的输入实际上是不变的,因此这一步没有带来性能的改善或接受域的增加

        2. 添加DCT系数的嵌入:将空间编码器的输出 zTime 与完整序列的前n个DCT系数(zFreq)结合,输入到时间编码器中

        3. 使用FreqMLP替换标准的MLP:在时间编码器中使用FreqMLP来处理时域特征。

        在表4中展示了每个步骤带来的改进。

        通过引入来自更长的序列(即81帧)的9个DCT系数,9帧PoseFormerV1的MPJPE降低了7.8% (49.9mm vs 46.0mm),表明引入DCT系数和FreqMLP可以有效地提高模型的性能。

6.4.2 消融实验2:输入帧数和DCT系数的数量

        在本次实验中研究了作为空间编码器输入的帧数(f)和保留的DCT系数(n)对模型性能的影响。

        实验设置将整个关节序列的长度固定为27帧,使用单个中心帧和单个DCT系数(即 f = n = 1)作为输入的模型作为基线,作者通过改变输入到空间编码器的帧数 f 和保留的DCT系数数量 n 来观察这些变化对模型性能的影响。如表5所示

        结果表明,增加这两个参数可以一致地提高性能,特别是增加n(DCT系数的数量)可以带来更多的性能提升。并且匹配的f和n的扩大比率(F / f)为9时(即f = n = 3),达到了速度和精度的最优解。

6.5 泛化能力

        所提出的频域方法可以推广到其他方法,例如MixSTE[40]和MHFormer[15],因为它们也使用变压器进行时间建模。

7 结论

        频率域是一个在3D人体姿态估计领域很少被探索的领域。PoseFormerV2通过将输入序列转换到频率域,并利用离散余弦变换(DCT)系数来表示这些序列,从而有效地结合了时域和频域的信息。PoseFormerV2通过创新地结合时频特征融合模块和DCT变换,解决了长序列处理效率和噪声鲁棒性的挑战,展示了在3D人体姿态估计任务中的潜力。这一方法为未来在这一领域的研究提供了新的思路。

  • 14
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: 移动电子健康应用程序的未来:探索HTML5作为C的开发平台。 移动电子健康应用程序在过去几年中迅速发展,成为医疗行业的重要组成部分。随着移动设备普及率的提高,人们越来越多地使用智能手机和平板电脑来管理和监测健康状况。未来,这种趋势将继续增长,并且我们可以期待移动电子健康应用程序的需求将更加多样化和复杂化。 在开发移动电子健康应用程序时,HTML5是一种值得探索的开发平台,尤其是在C语言环境下。HTML5是一种现代化的标记语言,为开发者提供了许多新的功能和工具,可以用于构建各种移动应用程序。 首先,HTML5具有跨平台的优势。无论是在iOS、Android还是其他操作系统上,HTML5应用程序都可以进行开发和运行,这为开发者带来了更广泛的受众基础。它还不需要任何额外的插件或软件,使得应用程序更容易被用户接受和使用。 其次,HTML5提供了丰富的多媒体支持。移动电子健康应用程序可能需要展示各种类型的健康数据,如图表、图片和视频等。HTML5的多媒体功能可以帮助开发者在应用程序中轻松地集成这些元素,以便于用户更好地理解和管理自己的健康状况。 此外,HTML5还具有良好的互联互通性。它可以与云计算技术和其他网站服务进行集成,使用户能够轻松地访问和共享健康数据。这种互联互通性为医疗行业提供了更多的合作机会,促进了移动电子健康应用程序的进一步发展。 总之,HTML5作为移动电子健康应用程序的开发平台具有巨大的潜力。它跨平台、提供多媒体支持和良好的互联互通性,能够满足不断增长的移动电子健康应用程序需求。在未来,我们可以期待HTML5在C语言环境下的应用得到更多的开发和创新。 ### 回答2: 移动电子健康应用程序的未来:探索HTML5用于C语言的开发。 移动电子健康应用程序的未来十分看好,而HTML5为C语言的开发提供了许多新的机遇。HTML5是一种用于构建网页和Web应用程序的标准技术,它的灵活性和可移植性使其成为移动电子健康应用程序开发的有力工具。 首先,HTML5提供了更丰富的用户体验。通过使用HTML5的标准化元素和功能,开发人员可以创建更具吸引力和直观的移动电子健康应用程序。这意味着用户可以更轻松地浏览内容、交互和操作移动电子健康应用程序,从而提高了其使用的便利性。 其次,HTML5的跨平台特性使得开发和部署移动电子健康应用程序更加容易。传统上,C语言被广泛用于移动应用开发,而使用HTML5可以将移动电子健康应用程序轻松地跨平台到不同的设备和操作系统上。这样,开发人员可以更快速地将应用程序推向市场,提高了开发的效率和可扩展性。 此外,HTML5还提供了强大的图形和多媒体处理能力。移动电子健康应用程序通常需要处理复杂的图表、图像和视频等内容,而HTML5提供了丰富的图形和多媒体功能,使开发人员能够更直观地展示和处理这些数据。这对移动电子健康应用程序的可视化和数据分析非常重要。 然而,HTML5也存在一些挑战。与传统的原生应用程序相比,HTML5应用程序可能性能略逊一筹。此外,开发过程中需要考虑设备的兼容性和安全性等问题,以确保移动电子健康应用程序的可靠性和安全性。 总体来说,随着移动电子健康应用程序市场的不断增长和HTML5技术的发展,HTML5用于C语言的开发在未来将发挥重要作用。开发人员可以利用HTML5的灵活性、可移植性和丰富的功能,创建更具吸引力和易用性的移动电子健康应用程序,从而为用户提供更好的健康管理体验。 ### 回答3: 移动电子健康应用程序的未来:探索HTML5用于C 移动电子健康应用程序开发一直是关注的热点,随着技术的不断进步和人们对健康的关注度增加,我们可以预见未来的发展方向。HTML5是一种流行的开发技术,已广泛应用于Web应用程序开发中。那么,将HTML5与C语言结合,是移动电子健康应用程序开发领域的一大趋势。 首先,HTML5具有跨平台的特点。移动电子健康应用程序在不同的操作系统和设备上运行,兼容性是一个重要的问题。HTML5可以跨平台运行,不受特定操作系统或设备的限制,使得开发人员可以更加便捷地创建应用程序。 其次,HTML5具有丰富的功能和交互性。移动电子健康应用程序需要展示各种健康数据、提供交互操作和界面,以及实时更新数据等功能。HTML5提供了多种元素和API,开发人员可以根据需求自由定制用户界面,并实现与用户的交互操作。此外,HTML5还支持多媒体和实时通信,可以提供更丰富的用户体验。 再次,HTML5支持离线应用程序。对于移动电子健康应用程序来说,有时在没有网络连接的情况下,用户仍然希望能够使用一些功能和数据。HTML5提供了离线存储和缓存功能,可以将应用程序的核心功能和数据缓存到本地,使得用户在离线情况下仍然能够访问和使用一部分功能。 最后,HTML5具有不断更新和发展的潜力。随着技术的进步,HTML5的功能将不断增强,开发人员可以充分利用这些新特性来提升移动电子健康应用程序的性能和体验。 综上所述,HTML5与C语言结合是移动电子健康应用程序开发的未来趋势。通过使用HTML5,开发人员可以实现跨平台、丰富功能、离线支持等优势,提供更好的用户体验和便捷的开发方式,推动移动电子健康应用程序的发展。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值