- 博客(5)
- 收藏
- 关注
原创 NLP常见任务小记
根据判断主题的级别, 将所有的NLP任务分为两种类型: 1.token-level task: token级别的任务. 如完形填空(Cloze), 预测句子中某个位置的单词; 或者实体识别; 或是词性标注; SQuAD等. 2.sequence-level task: 序列级别的任务, 也可以理解为句子级别的任务. 如情感分类等各种句子分类问题; 推断两个句子的是否是同义等. token-level task Cloze task 即BERT模型预训练的两个任务之一, 等价于完形填空任务, 即给出句子中其他
2020-07-25 18:58:32 185
原创 NLP一般流程小记
NLP一般流程小记 1.获取语料 语料,是NLP任务所研究的内容,通常用一个文本集合作为语料库(Corpus)来源:已有语料,积累的文档, 下载语料 2. 语料预处理 1)语料清洗:留下有用的,删掉噪音数据 常见的数据清洗方式:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。 2)分词:将文本分成词语 常见的分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法 3) 词性标注:给词语打词类标签,如形容
2020-07-20 17:22:47 296
原创 动手学深度学习笔记03
动手学深度学习笔记03 图像增强 大规模数据集是成功应用深度神经网络的前提。图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。 首先,导入实验所需的包或模块。 %matplotlib inline import t...
2020-02-25 15:53:48 155
原创 动手学深度学习笔记2
模型过拟合与欠拟合 首先我们需要区分训练误差和泛化误差。一般来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。 记录一下模型训练中经常出现的两类典型问题:一类是模型无法得到较低的训练误差,我们...
2020-02-18 14:49:18 212
原创 伯禹课程 动手学深度学习笔记1
伯禹课程 动手学深度学习笔记1 深度学习模型实现的一般流程记录 1.首先,导入本节中实验所需的包或模块 %matplotlib inline import torch from IPython import display from matplotlib import pyplot as plt import numpy as np import random 2.生成数据集 构造一个简单的人工...
2020-02-14 16:09:04 184
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人