【开源】对基于图像背景的字体生成、人体姿势预测、关键点检测、超分辨率等探讨

原文地址：https://mp.weixin.qq.com/s/5e90Hwtb-V0qgqQFvzX4PA

本文推荐本周值得关注的已开源论文，包含文本识别、关键点检测、人体姿势预测、Transformer、图像超分辨率等 10 篇。

01、Font Style that Fits an Image -- Font Generation Based on Image Context

来自日本九州大学

日本九州大学学者提出一个端到端系统，可以基于书的封面生成相称的书名字体，并表示是首次尝试根据图书封面的上下文信息来生成文本。新设计的神经网络包括一个基于骨架的多任务和多输入编码器-解码器、一个感知网络和一个对抗网络。定性和定量的结果表明所提出的方法可以有效地生成适合于上下文信息的文本。

论文链接：https://arxiv.org/abs/2105.08879
项目链接：https://github.com/Taylister/FontFits

标签：文本识别+基于图像背景的字体生成+ICDAR 2021

02、DeepDarts: Modeling Keypoints as Objects for Automatic Scorekeeping in Darts using a Single Camera

来自滑铁卢大学

DeepDarts，是一个可以从任何相机角度拍摄的 single 图像中预测飞镖得分的系统。DeepDarts 利用深度卷积神经网络来检测镖靶关键点，一种新的基于深度学习的关键点检测方法，其中关键点被建模为对象。实验证明，所提出方法可以精确地预测飞镖得分，并能适用于各种相机角度。在一个数据集中，该系统在 94.7% 的测试图像中预测出了正确的总分。作者表示在未来的工作中，DeepDarts 应该在包含更多种类的镖靶图像及更大的数据集上进行训练，以便可以自由部署。

论文链接：https://arxiv.org/abs/2105.09880
项目链接：https://github.com/wmcnally/deep-darts

标签：关键点检测

03、Human Motion Prediction Using Manifold-Aware Wasserstein GAN

来自Univ. Lille

Human motion prediction（人体姿势预测）当前的一些挑战有预测运动的不连续性和长期范围内的性能衰减。本次工作，作者通过使用人类运动的紧凑 manifold-valued 表示来进行解决。实验证明所提出方法在 CMU MoCap和 Human 3.6M 数据集上的表现优于最先进的方法。定性结果也展示了预测运动的平稳性。

论文链接：https://arxiv.org/abs/2105.08715
项目链接：https://drive.google.com/drive/folders/1pQkwtVDBeubW1oPwuXWFOOtftHabKaph

标签：人体姿势预测

04、TSDF++: A Multi-Object Formulation for Dynamic Object Tracking and Reconstruction

来自苏黎世联邦理工学院&慕尼黑工业大学&谷歌

文章亮点：

一个多目标 TSDF 公式，可以在 single 3D volume 内对多个目标表面进行编码。所提出的多目标跟踪和 volumetric reconstruction 框架是实时且仅需 CPU 控制。以及一个全新的基于 TSDF++表示法的 map 更新策略。

论文链接：https://arxiv.org/abs/2105.07468
项目链接：https://github.com/ethz-asl/tsdf-plusplus

标签：ICRA 2021+目标跟踪+目标重建

05、Multi-object Tracking with Tracked Object Bounding Box Association

来自南洋理工大学

本工作中，为了减少大量的身份转换，提高跟踪精度，提出在 CenterTrack 算法中加入简单的跟踪目标边界框和基于当前帧的重叠预测。具体来说，在关联步骤中提出 Intersection over Union（IOU）距离成本矩阵，而不是简单的点位移距离。在 MOT17 测试数据集上对所提出的跟踪器进行了评估，证明所提出方法可以将目标身份误换大幅降低 22.6%，并且在相同的 tracklet lifetime 下，与原始 CenterTrack 相比，IDF1 上获得了 1.5% 的显著改善。

论文链接：https://arxiv.org/abs/2105.07901
项目链接：https://github.com/Nanyangny/CenterTrack-IOU

标签：多目标跟踪

06、Rethinking the Design Principles of Robust Vision Transformer

来自阿里&洛桑联邦理工学院

文章中作者对基于鲁棒性的 ViTs 设计原则进行了回顾，发现其中一些设计组件极大地损害了 ViTs 的鲁棒性和泛化能力。通过结合鲁棒性设计组件，提出 Robust Vision Transformer （RVT）。RVT 是一种新的 Vision Transformer，具有卓越的性能和强大的鲁棒性。进一步提出两个新的即插即用技术，即 position-aware attention rescaling 和 patch-wise augmentation，用来训练 RVT。

在 ImageNet 和六个鲁棒性基准上的实验结果表明，与以前的 Transformer 和最先进的 CNN 相比，RVT 具有先进的鲁棒性和泛化能力。RVT-S* 在包括 ImageNet-C 和 ImageNet-Sketch 在内的多个鲁棒性排行榜上也取得了第一名的成绩。

论文链接：https://arxiv.org/abs/2105.07926
项目链接：https://github.com/vtddggg/Robust-Vision-Transformer

标签：Transformer

07、End-to-end Alternating Optimization for Blind Super Resolution

来自国科大&中科院

对于盲超分辨率问题，以往的方法是将其分解为两个连续的步骤：1）从给定的低分辨率（LR）图像中估计 blur kernel（模糊核） 2）根据所估计的 kernel 恢复 SR 图像。而这两个步骤涉及两个独立训练的模型，存在互不兼容的风险，也就是说第一步的一个小错误会引起第二步中更大的误差；另外，第一步只能利用 LR 图像的有限信息，这使得它很难预测一个高精度的模糊核。

针对上述挑战，作者在本次的工作中，采用一个 alternating optimization 算法，它可以在一个模型中估计模糊核并恢复 SR 图像。

具体来说，作者设计两个卷积神经块：Restorer 和 Estimator。其中，Restorer 根据所预测的核来恢复 SR 图像，Estimator 在恢复的 SR 图像的帮助下估计模糊的内核。对这两个块反复交替使用，并将这个过程展开，形成一个端到端的可训练网络。通过这种方式，Estimator 利用到 LR 和 SR 图像的信息，使模糊内核的估计更加容易。更重要的是，Restorer 是用 Estimator 估计的核来训练的，而不是用 ground-truth 核，因此 Restorer 对 Estimator 的估计误差的容忍度更高。

在合成数据集和真实世界的图像上进行的大量实验表明，该模型在很大程度上可以超越最先进的方法，并以更高的速度获得更好的结果。

论文链接：https://arxiv.org/abs/2105.06878
项目链接：https://github.com/greatlog/DAN

标签：超分辨率

08、Waste detection in Pomerania: non-profit project for detecting waste in environment

来自弗罗茨瓦夫理工大学&格但斯克大学&英特尔等

文章介绍一个开源框架，可以对垃圾进行检测和分类。它由两个神经网络组成：一个负责检测垃圾，另一个负责垃圾分类。废物被分为七个类别：生物、玻璃、金属和塑料、不可回收、其他、纸张和未知。所提出方法在测试数据集上实现了高达 70% 的垃圾检测平均精度和约 75% 的分类精度。

论文链接：https://arxiv.org/abs/2105.06808
项目链接：https://github.com/wimlds-trojmiasto/detect-waste

标签：目标检测+垃圾检测

09、An Empirical Study of Vehicle Re-Identification on the AI City Challenge

来自阿里

获得 CVPR 2021 AI City Workshop 上，NVIDIA AI City Challenge（英伟达人工智能城市挑战赛）第2赛道（车辆重识别）的第一名。

本文介绍 NVIDIA AI City Challenge（英伟达人工智能城市挑战赛）的解决方案，第2赛道是车辆重识别，包含真实数据和合成数据。

本文方案主要关注四个方面：训练数据、无监督域自适应（UDA）训练、后处理、模型集成。其一，裁剪训练数据和使用合成数据都可以帮助模型学习更多的鉴别性特征；其二，由于测试集中有一个新的场景没有出现在训练集中，UDA方法在挑战中表现良好；其三，后期处理技术，包括 re-ranking、image-to-track 检索、摄像机间的融合等，大大改善了最终的性能；最后，将基于 CNN 的模型和基于 transformer 的模型集合在一起，提供不同的表现多样性。最终该方法最终取得了 0.7445 的 mAP，获得了比赛的第一名。

论文链接：https://arxiv.org/abs/2105.09701
项目链接：https://github.com/michuanhaohao/AICITY2021_Track2_DMT

标签：CVPRW 2021+车辆重识别

10、Anchor-based Plain Net for Mobile Image Super-Resolution

来自南京大学

现有的图像超分辨率虽已取得了显著的成绩，但大多数需要大量计算资源和大量的内存，因此不能很好地应用于移动设备。本次工作，就针对上述挑战，设计一个高效架构，用于 8-bit 量化，并可以部署到移动设备上。作者先是通过分解轻量级的 SR 架构来进行关于 meta-node（元节点延迟）的实验；深入挖掘什么样的架构有利于 8-bit 量化，并提出基于 anchor（锚）的 plain net（ABPN）。最后，采用量化感知的训练策略来进一步提高性能。通过实验证明该模型在 PSNR 方面可以比 8-bit 量化的 FSRCNN 高出近 2dB，同时也满足了现实的需求。