【转载】GitHub：数据增广最全资料集锦

最新推荐文章于 2024-07-09 23:18:38 发布

wuling129

最新推荐文章于 2024-07-09 23:18:38 发布

阅读量20

点赞数

分类专栏：图像处理+python+深度学习文章标签：人工智能深度学习

原文链接：https://zhuanlan.zhihu.com/p/265021958?utm_id=0

版权

图像处理+python+深度学习专栏收录该内容

111 篇文章 10 订阅

订阅专栏

随便搜索下发现一篇很好的博文，20年就收集了很多数据增广的相关资料，转载收藏。原文链接：GitHub：数据增广最全资料集锦 - 知乎

作者收集的几个github网址真心不错：

GitHub：深度学习最全资料集锦
 GitHub：图像分类最全资料集锦
 GitHub：目标检测最全论文集锦
 GitHub：图像分割最全资料集锦
 GitHub：目标跟踪最全资料集锦
GitHub：人群密度估计最全资料集锦
GitHub：车道线检测最全资料集锦
 GitHub：TensorFlow最全资料集锦
 GitHub：Anchor-free目标检测最全资料集锦

前言

CVer 陆续分享了GitHub上优质的AI/CV资料集锦，如图像分类、目标检测等，之前的分享详见文末。很多同学反映这个系列很棒，因此系列将继续更新。

本文将分享的内容是： 数据增广（Data Augmentation）。该方向的研究一直都很热门，特别是现在仍十分依赖于数据，而且数据增广对各个应用方向的涨点都是简单粗暴的！

数据扩充可以简单地描述为使我们的数据集更大的任何方法。例如，要创建更多图像，我们可以放大并保存结果，我们可以更改图像的亮度或旋转它。为了获得更大的声音数据集，我们可以尝试提高或降低音频样本的音调或放慢/加快速度。下图提供了示例数据增强技术。

Amusi 在本文要分享的就是目前最全，最新的数据增广开源项目、论文等合集。主要涉及图像、音频、自然语言处理和时序的数据增广。

数据增广

项目作者：AgaMiko

GitHub - AgaMiko/data-augmentation-review: List of useful data augmentation resources. You will find here some not common techniques, libraries, links to GitHub repos, papers, and others.List of useful data augmentation resources. You will find here some not common techniques, libraries, links to GitHub repos, papers, and others. - AgaMiko/data-augmentation-reviewhttps://github.com/AgaMiko/data-augmentation-review

Images augmentation
- Affine transformations
  - Rotation
  - Scaling
  - Random cropping
  - Reflection
- Elastic transformations
  - Contrast shift
  - Brightness shift
  - Blurring
  - Channel shuffle
- Advanced transformations
  - Random erasing
  - Adding rain effects, sun flare...
  - Image blending
- Neural-based transformations
  - Adversarial noise
  - Neural Style Transfer
  - Generative Adversarial Networks
Audio augmentation
- Noise injection
- Time shift
- Time stretching
- Random cropping
- Pitch scaling
- Dynamic range compression
- Simple gain
- Equalization
- Voice conversion (Speech)
Natural Language Processing augmentation
- Thesaurus
- Text Generation
- Back Translation
- Word Embeddings
- Contextualized Word Embeddings
- Paraphrasing
- Text perturbation
Time Series Data Augmentation
- Basic approaches
  - Warping
  - Jittering
  - Perturbing
- Advanced approaches
  - Embedding space
  - GAN/Adversarial
  - RL/Meta-Learning
Graph Augmentation
- Node/edge dropping
- Node/edge addition (graph modification)
- Edge perturbation
Gene expression Augmentation
- Data generation with GANs
- Mixing observations
- Random variable insertion
Automatic Augmentation (AutoAugment)
- Other
  - Keypoints/landmarks Augmentation - usually done with image augmentation (rotation, reflection) or graph augmentation methods (node/edge dropping)
  - Spectrograms/Melspectrograms - usually done with time series data augmentation (jittering, pert urbin g, warping) or image augmentation (random erasing)