![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
论文阅读与总结
文章平均质量分 95
收录自己每篇所读论文的总结
cxf的笔记
这个作者很懒,什么都没留下…
展开
-
STCFormer: 3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention
论文重要信息摘选与理解:3D Human Pose Estimation with Spatio-Temporal Criss-cross Attention龟速更新ing…STCFormer论文重要信息摘选与理解:3D Human Pose Estimation with Spatio-Temporal Criss-cross AttentionAbstractIntroductionRelated WorkSpatio-Temporal Criss-cross TransformerExper原创 2024-02-20 20:28:39 · 357 阅读 · 0 评论 -
MotionBERT: A Unified Perspective on Learning Human Motion Representations
作者基于大规模和异构的数据资源,提出了一个统一的方法来学习人体运动表示,进而处理各种以人类为中心的视频任务。原创 2023-12-11 17:32:31 · 467 阅读 · 0 评论 -
P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose Estimation
我也在OCR的任务中看到过类似的掩蔽方法。作者在这里的引文有两篇都是关于BERT:pre-training的,感觉可以有空看看。属于反问题类型,即已知y求x。反问题包含ill-posed和well-posed,差别在于ill-posed不存在稳定的唯一解。作者说:“之前有些工作通过随机掩盖一部分输入数据,然后恢复被掩盖的内容这种方式来让模型学习数据内部的固有特征。原创 2023-11-11 21:02:58 · 252 阅读 · 0 评论 -
transformer理解
首先,我们先从整体上把握一下transformer的模型架构:模型依然是按照Encoder+Decoder两步走,以“你是谁”作为序列输入,经过六层的编码器模块后,输出一个中间编码矩阵,之后每一级解码器模块利用上一级解码器的输出和中间编码矩阵进行计算输出,传给下一级解码器,最后经过一个线性映射和softmax层,输出预测结果“who are you”。接下来我们详细了解transformer的每一个部分。原创 2023-10-13 19:36:24 · 115 阅读 · 0 评论 -
3D Human Pose Estimation with Spatial and Temporal Transformers
作者设计了一种spatial-temporal(时空联合?) transformer结构,来对视频每一帧中人体关节点之间的联系(空间角度)+帧之间的时间相关性(时间角度),进行综合建模,最后输出center frame的精确三维人体姿态。针对视频3D人体姿态估计,作者提出一种纯粹基于transformer的方法(不包含卷积结构设计)——PoseFormer。原创 2023-08-07 10:46:13 · 348 阅读 · 1 评论