【转载】GitHub:数据增广最全资料集锦

随便搜索下发现一篇很好的博文,20年就收集了很多数据增广的相关资料,转载收藏。原文链接:GitHub:数据增广最全资料集锦 - 知乎

作者收集的几个github网址真心不错:

GitHub:深度学习最全资料集锦
GitHub:图像分类最全资料集锦
GitHub:目标检测最全论文集锦
GitHub:图像分割最全资料集锦
GitHub:目标跟踪最全资料集锦
GitHub:人群密度估计最全资料集锦
GitHub:车道线检测最全资料集锦
GitHub:TensorFlow最全资料集锦
GitHub:Anchor-free目标检测最全资料集锦

前言

CVer 陆续分享了GitHub上优质的AI/CV资料集锦,如图像分类、目标检测等,之前的分享详见文末。很多同学反映这个系列很棒,因此系列将继续更新。

本文将分享的内容是: 数据增广(Data Augmentation)。该方向的研究一直都很热门,特别是现在仍十分依赖于数据,而且数据增广对各个应用方向的涨点都是简单粗暴的!

数据扩充可以简单地描述为使我们的数据集更大的任何方法。例如,要创建更多图像,我们可以放大并保存结果,我们可以更改图像的亮度或旋转它。为了获得更大的声音数据集,我们可以尝试提高或降低音频样本的音调或放慢/加快速度。下图提供了示例数据增强技术。

Amusi 在本文要分享的就是目前最全,最新的数据增广开源项目、论文等合集。主要涉及图像、音频、自然语言处理和时序的数据增广。

数据增广

项目作者:AgaMiko

GitHub - AgaMiko/data-augmentation-review: List of useful data augmentation resources. You will find here some not common techniques, libraries, links to GitHub repos, papers, and others.List of useful data augmentation resources. You will find here some not common techniques, libraries, links to GitHub repos, papers, and others. - AgaMiko/data-augmentation-reviewicon-default.png?t=N7T8https://github.com/AgaMiko/data-augmentation-review

目录

  • Images augmentation
    •  Affine transformations
      •   Rotation
      • Scaling
      • Random cropping
      • Reflection  
    •  Elastic transformations
      •  Contrast shift
      • Brightness shift
      • Blurring
      • Channel shuffle 
    • Advanced transformations
      •  Random erasing
      • Adding rain effects, sun flare...
      • Image blending 
    • Neural-based transformations
      •  Adversarial noise
      • Neural Style Transfer
      • Generative Adversarial Networks  
  • Audio augmentation
    •  Noise injection
    • Time shift
    • Time stretching
    • Random cropping
    • Pitch scaling
    • Dynamic range compression
    • Simple gain
    • Equalization
    • Voice conversion (Speech) 
  • Natural Language Processing augmentation
    •  Thesaurus
    • Text Generation
    • Back Translation
    • Word Embeddings
    • Contextualized Word Embeddings
    • Paraphrasing 
    •  Text perturbation
  • Time Series Data Augmentation
    •  Basic approaches
      •  Warping
      • Jittering
      • Perturbing 
    • Advanced approaches
      •  Embedding space
      • GAN/Adversarial
      • RL/Meta-Learning  
  • Graph Augmentation
    •  Node/edge dropping
    • Node/edge addition (graph modification)
    • Edge perturbation 
  • Gene expression Augmentation
    •  Data generation with GANs
    • Mixing observations
    • Random variable insertion 
  • Automatic Augmentation (AutoAugment)
    •  Other
      •  Keypoints/landmarks Augmentation - usually done with image augmentation (rotation, reflection) or graph augmentation methods (node/edge dropping)
      • Spectrograms/Melspectrograms - usually done with time series data augmentation (jittering, pert urbin g, warping) or image augmentation (random erasing)

计算机视觉(CV)数据增广的开源项目

1. albumentations:

一个Python库,其中包含一组有用的,大型的和多样化的数据增广方法。它提供了30多种不同类型的增广功能,易于使用。而且,正如作者证明的那样,在大多数转换中,该库比其他库要快。

GitHub - albumentations-team/albumentations: Fast and flexible image augmentation library. Paper about the library: https://www.mdpi.com/2078-2489/11/2/125

2. imgaug:

另一个非常有用且广泛使用的Python库。如作者所述:它可以帮助您为机器学习项目扩充图像。它将一组输入图像转换为一组稍有变化的新的,更大的图像。它提供了许多增广技术,例如仿射变换,透视图变换,对比度变化,高斯噪声,区域丢失,色相/饱和度变化,裁剪/填充,模糊。

https://github.com/aleju/imgaug

3 UDA:

用于图像文件的简单数据增广工具,旨在与机器学习数据集一起使用。该工具将扫描包含图像文件的目录,并通过对找到的每个文件执行一组指定的扩充操作来生成新图像。此过程使开发神经网络时可以使用的训练示例数量成倍增加,并且应显著提高所得网络的性能,尤其是当训练示例数量相对较少时。

https://github.com/google-research/uda

4 Data augmentation for object detection:

该项目介绍了如何将数据增广方法用于目标检测任务。它们支持许多数据增广,例如水平翻转,缩放,平移,旋转,剪切,调整大小。
https://github.com/Paperspace/DataAugmentationForObjectDetection


FMix - Understanding and Enhancing Mixed Sample Data Augmentation

https://github.com/ecs-vlc/FMix


Super-AND

https://github.com/super-AND/super-AND


vidaug:

这个Python库可帮助您为深度学习架构扩充视频。它将输入的视频转换为一组稍有变化的新视频。

https://github.com/okankop/vidaug

Image augmentor

https://github.com/codebox/image_augmentor

torchsample:

该Python软件包为Pytorch提供了高级训练,数据增广和实用程序。该工具箱提供了数据扩充方法,正则化器和其他实用功能。

https://github.com/ncullen93/torchsample

  • Compose()
  • AddChannel()
  • SwapDims()
  • RangeNormalize()
  • StdNormalize()
  • Slice2D()
  • RandomCrop()
  • SpecialCrop()
  • Pad()
  • RandomFlip()

Random erasing

https://github.com/zhunzhong07/Random-Erasing


data augmentation in C++:

简单的图像增广程序可通过旋转,滑动,模糊和噪点转换输入图像,以创建图像识别的训练数据。

https://github.com/takmin/DataAugmentation

Data augmentation with GANs

https://github.com/AntreasAntoniou/DAGAN

Joint Discriminative and Generative Learning

https://github.com/NVlabs/DG-Net


White-Balance Emulator for Color Augmentation

https://github.com/mahmoudnafifi/WB_color_augmenter


DocCreator

https://github.com/DocCreator/DocCreator


OnlineAugment

https://github.com/zhiqiangdon/online-augment

自然语言处理(NLP)数据增广的开源项目

Contextual data augmentation:上下文扩充是用于文本分类任务的独立于域的数据扩充。通过用标签条件的双向语言模型预测的其他单词替换单词,可以增广监督数据集中的文本。

https://github.com/pfnet-research/contextual_augmentation

nlpaug

https://github.com/makcedward/nlpaug

EDA NLP

https://github.com/jasonwei20/eda_nlp

详细信息直接查看github项目最好。

GitHub - AgaMiko/data-augmentation-review: List of useful data augmentation resources. You will find here some not common techniques, libraries, links to GitHub repos, papers, and others.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值