项目记录基于多模型实现网络评论的情感分类（以性别歧视为例）

最新推荐文章于 2024-07-26 13:24:37 发布

Lyrig~

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量164

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_55471672/article/details/129947835

版权

项目记录基于多模型实现网络评论的情感分类（以性别歧视为例）

前言
摘要
Method（方法）
后记

前言

这是北京大学自然语言处理的经验性方法第二次作业，由于选课人数非常少，因此老师十分负责，在此默默感谢老师的付出，可惜我太菜了，大概是没法加入您的实验室，只能以这种方式感谢老师的付出吧~希望我也能像那些历史上的伟人一样，做出一些能让老师您骄傲的东西。

摘要

该任务为SemEval-2023 Task 10: Explainable Detection of Online Sexism，本文主要介绍了利用sexism2022数据集进行多模型测试，并最终选取表现最好的模型为最终模型。测试的模型包括Loglinear, Bert+FC,，进行预测。并尝试能否通过组合以上模型的结果，使得准确率更高。GitHub

我的工作只是搭建了一个平台用于测试，但是目前受限于作业，我只实现了支持以上两种模型的训练函数，以及配套的验证函数，至于更加通用的平台，可能得等到以后如果我有幸能够研究这个领域才会去扩充啦~或许等我考研上岸闲来无事去扩充也有可能呢？

Method（方法）

任务描述

对于该任务，其本质是对语句进行情感分类，任务中的具体细度只是二分类到多分类的区别。下面以二分类为例，对于训练集 $\Omega = \{(x_1, y_1), ..., (x_n, y_n)\}$ 我们的目的是为了寻找一个分类器，使得对于每一个输入 $x_i$ 都能给出一个输出 $\hat{y_i}$ ，并使得这个输出的准确率尽可能高。 $\mathop{\arg\max}\limits_{model(.)\in V}P(model(x_i)=y_i)\tag{1}$
其中 $V$ 表示全部的模型空间，当然我们很难取便全部的模型，因此这里只看作在某类模型的参数空间。P表示对任意输入，输出标签与真实标签相等的概率。

对于输入的文本 $t_i$ ，我们通过特征函数 $f (t)$ 将其编码为特征，再使用分类函数 $C (f)$ 将特征转变为不同标签的概率，最终答案则是取概率最高的标签 $\hat{y_i} = \mathop{\arg\max}\limits_{\hat{y_i}\in \theta}P(C(f(t_i))=\hat{y_i})\tag{2}$
其中 $\theta$ 是标签的集合。

于是我们的目的就可以化简为一下两项：

寻找合理的特征函数 $f (t)$ 使得能够将语句中关键特征保留
对已经编码的特征进行尽可能精确地分类函数 $C$

下文中对每个模型的介绍都将从这两部分介绍，并分析出现的问题，之后将会进行模型间的对比，以及尝试提出新的改进方式。

LogLinear模型

模型假设

假设一句话的意思只和这句话中的词的意思有关，且词出现的先后顺序对这句话的意思没有影响。

特征函数

我们先构建字典，其方式是选取训练集中出现的每个词放入字典，然后根据字典中出现的词的频率排序，选取前80%的词作为特征，特征总共 $r$ 维，第k维即为该句子中有几个词 $w_k$ 。该方法也称为One-Hot。

分类器

这里无非是对每个词进行加权，从而获得结果而已。

Bert+FC模型

模型假设

假设一句话的意思是由其更深层的抽象特征决定的。而BertBlock就是用来提取该特征的。

特征函数

利用Bert的tokenizer来对句子进行编码，然后再进入BertBlock中提取特征。其维数为768维。

分类器

这里无非是对每个特征进行加权，从而获得结果而已。

后记

可能写的比较仓促吧，具体的实验过程以及遇到的问题可以参看github里面的pdf文件，那个是我的作业报告。如果由写的不好的地方，也希望各位大佬批评指正~在此感谢我的老师。

Lyrig~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
项目记录基于多模型实现网络评论的情感分类（以性别歧视为例）

该任务为，本文主要介绍了利用sexism2022数据集进行多模型测试，并最终选取表现最好的模型为最终模型。测试的模型包括Loglinear, Bert+FC,，进行预测。并尝试能否通过组合以上模型的结果，使得准确率更高。GitHub我的工作只是搭建了一个平台用于测试，但是目前受限于作业，我只实现了支持以上两种模型的训练函数，以及配套的验证函数，至于更加通用的平台，可能得等到以后如果我有幸能够研究这个领域才会去扩充啦~或许等我考研上岸闲来无事去扩充也有可能呢？
复制链接

扫一扫