基于神经网络的情感分类+词性标注实战

本文通过pytorch实现情感分类任务,包括多层感知器、CNN、LSTM和Transformer模型。详细介绍了数据处理,如词表映射和数据预处理,以及CNN模型的构建和训练过程。
摘要由CSDN通过智能技术生成


)
学习笔记,仅供参考!
学习内容来源于书籍《基于预训练模型的方法-自然语言处理》
持续更新!!!

1. 情感分类实战

使用pytorch实现下面四种深度学习模型,多层感知器,卷积神经网络,LSTM,Transformer,来解决文本分类问题,主要以cnn模型为例来介绍。为了完成该任务,还需要编写词表映射,词向量层,数据处理,模型构建和训练。

1.1 数据处理

1.1.1 词表映射

我们需要将输入的语言符号,也就是我们的文本数据,映射为小于词表大小的整数,记为标记(token),这个整数也被称为一个标记的的索引值或者下标。下面编写一个Vocab类实现标记与索引值之间的相互映射,代码如下:`

from collections import defaultdict, Counter


class Vocab:
    def __init__(self, tokens=None):
        self.idx_to_token = list()
        self.token_to_idx = dict()

        if tokens is not None:
            if "<unk>" not in tokens:
                tokens = tokens + ["<unk>"]
            for token in tokens:
                self.idx_to_token.append(token)
                self.token_to_idx[token] = len(self.idx_to_token) - 1
            self.unk = self.token_to_idx['<unk>']

    @classmethod
    def build(cls, text, min_freq=1, reserved_tokens=None):
        token_freqs = defaultdict(int)
        for sentence in text:
            for token in sentence:
                token_freqs[token] += 1
        uniq_tokens = ["<unk>"] + (reserved_tokens if reserved_tokens else [])
        uniq_tokens += [token for token, freq in token_freqs.items() \
                        if freq >= min_freq and token != "<unk>"]
        return cls(uniq_tokens)

    def __len__(self):
        #返回词表的大小,词表中互不相同的标记token
        return len(self.idx_to_token)

    def __getitem__(self, token):
        #查找输入标记对应的索引值,如果不存在,返回unk
        return self.token_to_idx.get(token, self.unk)

    def convert_tokens_to_ids(self
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值