伪数据--学习笔记

最新推荐文章于 2024-07-15 23:46:30 发布

Wsyoneself

最新推荐文章于 2024-07-15 23:46:30 发布

阅读量459

点赞数 1

分类专栏： deeplearning 文章标签：学习

本文链接：https://blog.csdn.net/weixin_45647721/article/details/127119750

版权

deeplearning 专栏收录该内容

99 篇文章 10 订阅

订阅专栏

是一种弱标注的训练数据。伪数据虽然有标签，但标签的构造不曾面向所研究的任务进行人工标注，且这种标签不精确，而是样本的近似答案（伪）。
获取伪数据主要有三种方法：移植、采集和制造。
1. 移植伪数据：
  1. 可以分为跨语言、跨领域和跨任务三种类型
  2. 跨语言：世界上超过7000种语言，绝大部分没有人工标注数据。主要方法：（1）跨语言预训练语言模型（2）将在资源丰富的源语言（如英语）上训练的模型，直接应用于资源匮乏的目标语言。
2. 采集伪数据：数据“天然”存在目标任务的标注结果时，可以应用伪数据的采集方法。此时样本就是真实的样本，但获得的标签与真实标签近似。采集可以用来处理如命名实体、词义向量、信息抽取、情感分析等任务。
3. 制造伪数据（数据增广）：
  1. 即对样本进行编辑操作形成伪数据，编辑的方式主要包括增加、删除、修改。在这种情况下，样本近似于真实样本，但标签与真实标签一致。
  2. 如顺滑：删除语音识别结果中不通顺的词语
    1. 随机增删改原句中的词，构成非顺滑数据
    2. 两个预训练任务：
      1. 预测增删改的词
      2. 判断哪个句子是原句
NLP中的数据增广方法分为三种：复述、加噪和采样。
1. 复述：
  1. 增广数据保持原有语义
  2. 常用的方法包括
    1. 基于同义词词典；
    2. 基于词嵌入；
    3. 基于语言模型；
    4. 基于规则；
    5. 基于回译；
    6. 基于生成等。
2. 加躁：加入离散或连续噪声的增广方法：swapping，删除，插入，替换，混合。
3. 采样：
  1. 与复述方法的异同：
    1. 相同：使用的方法相似
    2. 不同：
      1. 不需要保持语义不变
      2. 采样的方法往往和任务相关
      3. 标签可进行相应的变换
增广数据的实际应用策略有很多，例如对多种增广方法进行叠加，对增广数据质量进行控制（过滤、加权等），高质量增广数据直接与原训练数据混合，较低质量增广数据用作预训练数据等等。