Al_challenger_2018_sentiment_analysis_top17_基于Aspect Level思路的解决方案

最新推荐文章于 2024-04-19 09:36:53 发布

Cheng Qian

最新推荐文章于 2024-04-19 09:36:53 发布

阅读量1.5k

点赞数 2

分类专栏：深度学习 NLP AI Challenger

本文链接：https://blog.csdn.net/xiayangmian4130/article/details/86185983

版权

深度学习同时被 3 个专栏收录

6 篇文章 0 订阅

订阅专栏

NLP

5 篇文章 0 订阅

订阅专栏

AI Challenger

1 篇文章 0 订阅

订阅专栏

本文思路来源于基于Aspect Level思路的解决方案.
这篇文章的主要目的是记录复现过程中的心得和体会。

训练词向量

预处理

将繁体字转换为简体字，使用了zhconv
去掉停用词
中文分词，使用了jieba分词
去除了标点符号（训练词向量时）

训练词向量

word2vec模型

词向量模型参数如下

model = Word2Vec(sentences, sg=1, size=100, compute_loss=True, window=5, worker=8, iter=8, min_count=2)

字向量模型参数如下

model = Word2Vec(sentences, sg=1, size=100, compute_loss=True, window=10, worker=8, iter=15, min_count=2)

TFIDF特征提取

首先使用TfidfVectorizer()将文本转换为特征矩阵，仅在训练集上面训练
然后使用TruncatedSVD()将上一步中得到的特征矩阵进行降维（80），这一步也是仅仅在训练集上训练
具体实现可以参考：使用Tfidf和TruncatedSVD做文本主题分析

Aspect选取

这部分作者没有给出源码，我尝试了将Tfidf特征用于LightGBM对每个类别做二分类，得到的结果比较近似，关键源码如下。有点需要指出的是，只使用TF特征貌似也能得到不错的结果，因此可以同时使用两种特征，然后再根据得到的两种结果进行挑选。
根据特征重要性取TopK作为Aspect，(原作者)得到如下结果：

subjects = ['地铁站 地铁 地理位置 位置 公交车 公交车站 公交站',
            '百货 商圈 商场 广场 购物中心 城 商业街',
            '容易 位置 醒目 找到 找 地理位置 显眼',
            '小时 排队 等 排 排号 队 号',
            '态度 服务员 热情 服务态度 老板 服务 服务生',
            '开车 停车费 停车位 停 停车场 车位 泊车',
            '很快 催 慢 速度 分钟 上菜 等',
            '小贵 不贵 价位 原价 块钱 价格 性价比',
            '不划算 物有所值 不值 物美价廉 超值 性价比 实惠',
            '活动 团 霸王餐 代金券 团购 优惠 券',
            '装修 布置 灯光 古色古香 装饰 优雅 情调',
            '安静 环境 装修 氛围 嘈杂 吵闹 音乐',
            '大 宽敞 空间 面积 装修 拥挤 店面',
            '整洁 干净 环境 卫生 苍蝇 不错 脏',
            '吃不完 一份 量 量足 个头 好大 少',
            '入味 吃 不错 味道 好吃 口味 好喝',
            '造型 颜色 精致 卖相 好看 色香味 食欲',
            '推荐 强烈推荐 值得 强推 一试 极力推荐 菜品',
            '好 满意 纪念品 内地 之 肠 灌',
            '还会 机会 再 不会 来 值得 推荐']

模型

小细节

对于长评论不截断，以最长的评论为准
词向量对于未知词使用 $(- 0.01, 0.01)$ 的均匀分布初始化，此处只有一个word2id['<pad>'] = 0.
对于类别不平衡问题对于每个类标加上权重，即数量少的样本被分错了会得到更大的 $l o s s$ ，具体实现如下，不直接取倒数是防止数量多的类别的系数太小，即分错误了带来的影响太小。

cost_w = [12, 11, 10, 1000]
cost_w = [11/12, 11/11, 11/10, 11/1000]
# 再softmax
cost_w = softmax(cost_w)

使用了数据增强，即将Train_data:(samples, words)中的某一行中的某些列随机置零。
使用了earlystop，如果连续两次f1score值没有上升则停止训练
记录最优的epoch和sub_epoch（每轮验证三次），保存最近的7个模型，然后进行模型内集成，集成方法是按照对f1score进行计算得到的权重进行加权和
使用了模型间集成

字词向量联合表示

借鉴R-NET（R-NET:MACHINE READING COMPREHENSION WITH SELF-MATCHING NETWORKS）的方法，采用词向量和字向量联合表示。这里是将每个词视为由7个字组成的，不足补零。

例如：奶茶十分好喝

词向量表示：[W2V(奶茶),W2V(十分), W2V(好喝)]

经过BiRNN的字向量：[BiRNN(奶,茶),BiRNN(十,分), BiRNN (好,喝)]

最终向量表示：[Concat(W2V(奶茶), BiRNN(奶,茶)), Concat(W2V(十分), BiRNN(十,分)), Concat(W2V(好喝), BiRNN(好,喝))]

下面详细说明一下数据的流动：

context(bs, len_contex)-embedding->(bs, len_context, edim)

context_ch(bs, len_context, len_words)-embedding->(bs, len_context, len_words, edim_ch)-reshape->(bs*len_context, len_words, edim_ch)-biRnn->(bs*len_context, 1, 2*edim_ch)-reshape->(bs, len_context, 2*edim_ch)

context = concat(context, context_ch)->(bs, len_context, 2*edim_ch+edim)

aspect可以用类似的方法推导得到。

Model 1

Abstrac

该模型来源于论文Aspect Based Sentiment Analysis with Gated Convolutional Networks。
论文中将基于aspect的情感分析(ABSA)分为两个子任务，一个是aspect-category的(ACSA)，一个是aspect-term(ATSA)的。之前的方法大多是基于LSTM和注意力机制取预测相应目标的情感极性，这种方法同城很复杂并且很耗时。本文提出了一个基于卷积神经网络和门控机制的模型，相较于之前的模型更高效并且更准确。首先，新提出的Tanh-ReLU门控单元可以根据给定的aspect和entity有选择性的输出情感特征。这种结构相较于之前的注意力模型更简单。其次，该模型可以在训练的过程中实现并行化。

Model Structure

我们称这种模型为Gated Convolutional network with Aspect Embedding(GCAE)。

Gated Tanh-ReLU Units(GTRU)

模型结构
上图中的ReLU接受aspect信息来控制情感特征的传播。之后两个门的输出按元素相乘后送入max pooling层。
在每一个位置t都有两个卷积提取特征分别经过不同的门进入后面的max pooling层。下面我们看一下数据流动过程：
$a_i = relu(X_{i:i+k}*W_a + V_av_a + b_a)$
$s_i = tanh(X_{i:i+k}*W_s + b_s)$
$c_i = s_i \times a_i$
其中 $v_a$ 是给定的category的embedding(ACSA)或者是对aspect terms(ATSA)经过另一个CNN卷积得到的。上述公式中，可以理解为 $s_i$ 是用来产生情感特征的，而 $a_i$ 是用来产生指定的aspect的情感特征的。后面的maxpooling和softmax都是常规情况，无须多说明。
目标函数：
$\sum_i \sum_jy_i^jlog\hat{y}{_i^j}$
其中 $i$ 为样本的索引， $j$ 为情感类别的索引。

门控机制

这一部分和我理解有出入，放一段原文内容：

The ReLU gate in Equation 2( $R e L U$ ) does not have upper bound on positive inputs but
strictly zero on negative inputs. Therefore, it can output a similarity score according to the relevance between the given aspect information $v_a$ and the aspect feature $a_i$ at position $t$ . If this score is zero, the sentiment features $s_i$ would be blocked at the gate; otherwise, its magnitude would be amplified accordingly. The max-over-time pooling further removes the sentiment features which are not significant over the whole sentence

ReLU门的输出对于正面的输入来说没有上界，但是对于负面的输入来说就会变为0.因此可以根据给定的aspect $v_a$ 和位置 $t$ 处的aspect 特征 $a_i$ 计算一个相似度分数，如果分数为0，则说明情感特征 $s_i$ 会被阻塞；否则，它的值会被相应的放大。之后，时间上的max pooling会进一步移除那些对于整个句子不太重要的情感特征。

GCAE on ATSA

在ACSA中，控制情感特征流动的aspect信息来源于一个aspect单词；然而在ATSA中，这个信息由一个卷积网络在一系列aspect terms $w_i, w_{i+1}, ..., w_{i+k}]$ 上面卷积得到。如下入所示：
GCAE on ATSA

作者改进

字词向量联合表示
句子先经过一个单向的 LSTM 再做上图中操作
在最后的线性层之前加了一个CNN
同时预测 20 个aspect

Model 2

此模型来源于Effective Attention Modeling for Aspect-Level Sentiment Classification.

Abstrac

一个句子中通常会包含很多不同的target，并且对于不同的target，情感极性不一定相同。因此该任务最大的挑战就是如何根据不同的target将他们对应的情感极性分出来。此前，注意力机制在此问题上面得到了SOTA的结果，注意力机制通过对语义信息进行建模然后捕捉每种target对应的重要的语境信息。本文中提出了两种新方法改进注意力机制。首先，提出了一种target representation的方法以便更好的捕捉到观点目标的语义；其次，把语法信息和注意力机制结合得到一种新的注意力方法。

Model Description

Task Definition and Notation

给定一个评论的句子： $s = (w_1, w_2,...w_n)$ ，该句子包含 $n$ 个词。那么它的判定目标应该是 $s$ 中的 $m$ 个连续的词组成的 $s$ 的一个子序列，表示如下： $a =(a_1,a_2,...a_m)$ .aspect-level的情感分析的目标就是对给定的判定目标进行情感极性分析。

Target Representation

之前的工作对于目标地表示无外乎两种，一种是直接把几个词的embedding平均；另一种是使用带注意力机制的LSTM得到一个hidden vectors表示。简单的求均值很难完全捕捉到目标的语义，因此我们使用基于aspect embedding的加权和来表示目标，如下图所示。
模型结构
上图中， $T\in \mathbb{R}^{K\times d}$ 表示aspect embedding， $K$ 是由使用者自己定义，这个值应该远远小于 $V$ ，个人认为也应该小于 $d$ ，但图中远远小于可能不太合理。计算过程如下所示：
$c_s = Average(\frac 1 m \sum_{i=1}{m}, \frac 1 n \sum_{j=1}^ne_{w_j})$
$q_t = softmax(W_t\cdot c_s + b_t)$
$t_s = T^T\cdot q_t$
其中 $e_{a_i}, e_{w_j}, c_s, t_s\in \mathbb{R}^d, W_t \in \mathbb{R}^{K\times d}, q_t \in \mathbb{R}^K$
$A v e r a g e$ 函数返回输入函数的均值， $c_s$ 可以同时捕捉到目标信息和语境信息。 $q_t$ 是 $K$ 个aspect embeddings的权重向量，每个权重都表示该目标属于对应的aspect的概率。
我们希望学到的aspect embedding跟我们预训练的词向量空间具有一致性，这样我们就可以从词向量空间中寻找一个和它相近的词来解释它。然而， $T$ 是随机初始化的，如果我们仅仅训练情感分类器，那么很难得到一致性的结果。因此我们添加了一个无监督的目标函数来确保aspect embedding的质量，这将和基于注意力机制的LSTM联合训练。实际上，我们可以将 $c_s$ 到 $t_s$ 这几步视为自编码器，我们首先将 $c_s$ 的维度由 $d$ 维约简到K维通过使用 $s o f t m a x$ 非线性函数。这一步后只有和aspect相关的维度被保留在了 $q_t$ 中，其他的维度都被去除了。然后我们通过 $q_t$ 使用aspect embedding的线性组合重构 $c_s$ 。无监督的目标函数就是最小化重构误差，如下所示：
$U(\theta) = -\sum_{(s,a)\in D}log(min(\epsilon, CosSim(t_s, c_s))$
其中， $C o s S i m ()$ 函数用于相似性度量， $\epsilon$ 表示一个非常小的正数。实验中使用了 $10^{-7}$ ， $(s, a)$ 表示句子-目标对。

Syntax-based Attention Mechanism

之前的注意力机制往往认为所有的语境词都是同等重要的，这样就会导致注意力的权重仅仅是目标和语境词相似度的度量。但是，我们知道往往距离目标更近的词或者是修饰目标的词是更重要的，这些词应该获得更高的权重。尤其是在一个句子中有多个目标词的情况下。为了解决这个问题，我们提出了一种编码了句子的语法结构的注意力机制，语法信息来自于句法分析树。如下图所示：
在这里插入图片描述
在语法树中，离目标词越近的判定词往往对于确定情感极性耕种。在我们的模型中，我们定义了 $l$ 为一个语境词和目标词之间的路径长度。注意力模型根据位置有选择性地选择一个小窗内的语境词，我们使用 $w s$ 来表示注意力窗口大小。并且我们根据距离远近来为窗口内的语境词分配不同的权重。基本原则是距离的越近得到的权重越大。
$d_i=\begin{cases} \frac 1 {2^{l_i-1}}\cdot exp(f_{score}(h_i,t_s)) & if l_i \in [1, ws] \\ 0 & otherwise \end{cases}$

$p_i = \frac {d_i} {\sum_j d_j}$
$f_{score}(h_i, t_s) = tanh(h_i^T \cdot W_a \cdot t_s)$
其中， $W_a \in \mathbb{R}^{d \times d}$ 是一个可以训练的权重矩阵。

Overall Architecture and Training Objective

基于注意力机制的LSTM这一部分的损失函数如下：
$J(\theta)=-\sum_{(s,a)\in D}\sum_{c\in C}P_{s,a}^g(c)log(P_{s,a}(c))$
其中 $C$ 是所有情感类别的集合， $P_{(s,a)}^g(c)$ 非 $0$ 即 $1$ ，表示 $c$ 是否是 $(s, a)$ 的正确分类，而 $P_{s,a}(c)$ 是预测 $(s, a)$ 属于 $c$ 类的概率。
$T$ 中的aspect embedding在训练过程中不 $i$ 同的aspect可能会很相似，为了确保不同aspect之间的差异性，我们定义了一个正则化项来确保这种差异性：
$R(\theta) = ||(T_{norm}\cdot T_{norm}^T-I)^2||$
这里面 $I$ 是单位矩阵， $T_{norm}$ 是 $T$ 的 $L_2$ 归一化， $∣ ∣ ∣ ∣$ 表示矩阵中所有entries的和。当任意两个不同aspect embedding的点积为 $0$ 的时候R最小(显然 $T_i||_2 = 1$ )。因此，正则化项最终可以使得 $T$ 的行之间正交，这就放置了aspect之间存在冗余。
最终的目标函数可以定义为：
$L(\theta)=J(\theta)+\lambda_uU(\theta)+\lambda_rR(\theta)$

结果分析

基于语法的注意力机制带来的好处：更容易找到那些修饰target的词
Target Representation
简单的平均target的向量难以捕捉到所有目标的正确的语义，因为在词向量空间中目标表示可能距离food-related(or others)很远。但在我们提出的方法中能够根据给定的targets捕捉到正确的aspect语义，因此注意力机制可以结合aspect语义捕捉到正确的观点语境。
除此之外，论文提出的target representation方法在训练完成后还可以输出aspect embedding，即可以把输入的target映射到到一个aspect。但是论文中作者并没有进行相关的实验。

作者改进

字词向量联合表示
在最后的线性层之前加了一个CNN
同时预测 20 个aspect

模型融合

模型内融合

对于每一个模型都有一个f1score值，假设我们由5个模型，计算方法如下：

f1_score_list = [0.71, 0.69, 0.701, 0.705, 0.689]
f1_score_list *= 200
w = softmax(f1_score_list)

softmax之前先进行缩放：

如果是放大一个倍数，则差异被放大，之后再softmax中会更明显，大的更大，小的更小。
如果是缩小一个倍数，则差异被缩小，这样就会使得大的概率被缩小，小的概率被放大来以达到减小差异的效果。

多模型融合

实现类似于单模型融合。

待解决的问题

第二个模型的实现

Cheng Qian

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
8
评论
Al_challenger_2018_sentiment_analysis_top17_基于Aspect Level思路的解决方案

本文思路来源于基于Aspect Level思路的解决方案.这篇文章的主要目的是记录复现过程中的心得和体会。训练词向量预处理将繁体字转换为简体字，使用了zhconv去掉停用词中文分词，使用了jieba分词去除了标点符号（训练词向量时）训练词向量word2vec模型词向量模型参数如下model = Word2Vec(sentences, sg=1, size=100, c...
复制链接

扫一扫