基于pytorch的神经网络模型实现情感分类任务
)
学习笔记,仅供参考!
学习内容来源于书籍《基于预训练模型的方法-自然语言处理》
持续更新!!!
1. 情感分类实战
使用pytorch实现下面四种深度学习模型,多层感知器,卷积神经网络,LSTM,Transformer,来解决文本分类问题,主要以cnn模型为例来介绍。为了完成该任务,还需要编写词表映射,词向量层,数据处理,模型构建和训练。
1.1 数据处理
1.1.1 词表映射
我们需要将输入的语言符号,也就是我们的文本数据,映射为小于词表大小的整数,记为标记(token),这个整数也被称为一个标记的的索引值或者下标。下面编写一个Vocab类实现标记与索引值之间的相互映射,代码如下:`
from collections import defaultdict, Counter
class Vocab:
def __init__(self, tokens=None):
self.idx_to_token = list()
self.token_to_idx = dict()
if tokens is not None:
if "<unk>" not in tokens:
tokens = tokens + ["<unk>"]
for token in tokens:
self.idx_to_token.append(token)
self.token_to_idx[token] = len(self.idx_to_token) - 1
self.unk = self.token_to_idx['<unk>']
@classmethod
def build(cls, text, min_freq=1, reserved_tokens=None):
token_freqs = defaultdict(int)
for sentence in text:
for token in sentence:
token_freqs[token] += 1
uniq_tokens = ["<unk>"] + (reserved_tokens if reserved_tokens else [])
uniq_tokens += [token for token, freq in token_freqs.items() \
if freq >= min_freq and token != "<unk>"]
return cls(uniq_tokens)
def __len__(self):
#返回词表的大小,词表中互不相同的标记token
return len(self.idx_to_token)
def __getitem__(self, token):
#查找输入标记对应的索引值,如果不存在,返回unk
return self.token_to_idx.get(token, self.unk)
def convert_tokens_to_ids(self