基于神经网络的情感分类+词性标注实战

最新推荐文章于 2023-01-24 14:48:49 发布

勋章DhR

最新推荐文章于 2023-01-24 14:48:49 发布

阅读量777

点赞数

分类专栏： NLP 文章标签：分类深度学习 nlp

本文链接：https://blog.csdn.net/zzjcymbq/article/details/124988562

版权

本文通过pytorch实现情感分类任务，包括多层感知器、CNN、LSTM和Transformer模型。详细介绍了数据处理，如词表映射和数据预处理，以及CNN模型的构建和训练过程。

摘要由CSDN通过智能技术生成

基于pytorch的神经网络模型实现情感分类任务

1. 情感分类实战

)
学习笔记，仅供参考！
学习内容来源于书籍《基于预训练模型的方法-自然语言处理》
持续更新！！！

1. 情感分类实战

使用pytorch实现下面四种深度学习模型，多层感知器，卷积神经网络，LSTM，Transformer，来解决文本分类问题，主要以cnn模型为例来介绍。为了完成该任务，还需要编写词表映射，词向量层，数据处理，模型构建和训练。

1.1 数据处理

1.1.1 词表映射

我们需要将输入的语言符号，也就是我们的文本数据，映射为小于词表大小的整数，记为标记（token），这个整数也被称为一个标记的的索引值或者下标。下面编写一个Vocab类实现标记与索引值之间的相互映射，代码如下：`

from collections import defaultdict, Counter


class Vocab:
    def __init__(self, tokens=None):
        self.idx_to_token = list()
        self.token_to_idx = dict()

        if tokens is not None:
            if "<unk>" not in tokens:
                tokens = tokens + ["<unk>"]
            for token in tokens:
                self.idx_to_token.append(token)
                self.token_to_idx[token] = len(self.idx_to_token) - 1
            self.unk = self.token_to_idx['<unk>']

    @classmethod
    def build(cls, text, min_freq=1, reserved_tokens=None):
        token_freqs = defaultdict(int)
        for sentence in text:
            for token in sentence:
                token_freqs[token] += 1
        uniq_tokens = ["<unk>"] + (reserved_tokens if reserved_tokens else [])
        uniq_tokens += [token for token, freq in token_freqs.items() \
                        if freq >= min_freq and token != "<unk>"]
        return cls(uniq_tokens)

    def __len__(self):
        #返回词表的大小，词表中互不相同的标记token
        return len(self.idx_to_token)

    def __getitem__(self, token):
        #查找输入标记对应的索引值，如果不存在，返回unk
        return self.token_to_idx.get(token, self.unk)

    def convert_tokens_to_ids(self

最低0.47元/天解锁文章

勋章DhR

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
基于神经网络的情感分类+词性标注实战

学习笔记，仅供参考1. 情感分类实战1.1 数据处理1.1.1 词表映射1.1.2 数据处理1.2 CNN神经网络模型1.3 循环神经网络模型1.4 Transformer框架学习内容来源于书籍《基于预训练模型的方法-自然语言处理》持续更新！！！
复制链接

扫一扫

专栏目录