自然语言处理笔记总目录
什么是回译数据增强法: 回译数据增强目前是文本数据增强方面效果较好的增强方法,一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。一般来说,最多只采用不超过3次的翻译。
常见的文本数据增强方法:
- 回译数据增强法
回译数据增强实现:
from google_trans_new import google_translator
p_sample1 = "酒店设施非常不错"
p_sample2 = "这家价格很便宜"
n_sample1 = "拖鞋都发霉了, 太差了"
n_sample2 = "电视不好用, 没有看到足球"
translator = google_translator()
En = translator.translate([p_sample1, p_sample2, n_sample1, n_sample2], lang_tgt='en')
cn_res = translator.translate(En, lang_tgt='zh-cn')
print(cn_res)
结果: