TextCNN

最新推荐文章于 2024-02-22 15:37:31 发布

番茄要去皮

最新推荐文章于 2024-02-22 15:37:31 发布

阅读量6.8k

点赞数 1

分类专栏：文本分类文章标签： TextCNN

文本分类专栏收录该内容

9 篇文章 8 订阅

订阅专栏

TextCNN

在2014年，美国纽约大学的Yoon Kim提出了一种TextCNN模型，把卷积神经网络（CNN）用于文本分类，利用多个不同大小的卷积核来提取文本中的特征，从而能够更好地捕捉局部的相关性。论文地址：Convolutional Neural Networks for Sentence Classification
1、网络结构
在这里插入图片描述
模型结构是CNN结构的一个微小变体。设 $x_{i}\in \mathbb{R}^{k}$ 为句子中第 $i$ 个单词对应的k维单词向量。长度为 $n$ 的句子（在必要的地方进行填充）表示为：
$x_{1:n}=x_{1}\bigoplus x_{2}\bigoplus ...\bigoplus x_{n}$
其中， $\bigoplus$ 是连接操作。 $x_{i:i+j}$ 表示单词 $x_{i},x_{i+1},...x_{i+j}$ 的连接。一个卷积操作对应一个卷积核 $w\in \mathbb{R}^{hk}$ ，通过这个卷积核对h个单词进行卷积产生新的特征 $c_{i}$ 。 $c_{i}=f(w \cdot x_{i:i+h-1}+b)$ 。 $\in \mathbb{R}$ 是一个偏置项， $f$ 是一个非线性函数，如双曲正切。卷积核被用于句子 ${x_{1:h},x_{2:h+1},...,x_{n-h+1:n}\}$ 中每个可能的单词窗口来产生feature map $c=[c_{1},c_{2},...,c_{n-h+1}]$ ， $\in \mathbb{R}^{n-h+1}$ 。然后，在feature map上应用一个max-over-time池操作，并将最大值 $\hat{c} = max\{c\}$ 作为对应于此特定卷积核的特性。其思想是捕获最重要的特性，并为每个特征图获取值最高的特征。这个合用方案自然处理可变的句子长度。模型使用多个卷积核(具有不同的窗口大小)来获得多个特征。这些特征形成倒数第二层，并传递给一个全连接的softmax层，其输出是标签上的概率分布。
TextCNN的详细原理
在这里插入图片描述
TextCNN详细过程：

Embedding：第一层是图中最左边的7乘5的句子矩阵，每行是词向量，维度=5，这个可以类比为图像中的原始像素点。
Convolution：然后经过 kernel_sizes=(2,3,4) 的一维卷积层，每个kernel_size 有两个输出 channel。
MaxPolling：第三层是一个1-max pooling层，这样不同长度句子经过pooling层之后都能变成定长的表示。
FullConnection and Softmax：最后接一层全连接的 softmax 层，输出每个类别的概率。

通道（Channels）：

图像中可以利用 (R, G, B) 作为不同channel；
文本的输入的channel通常是不同方式的embedding方式（比如 word2vec或Glove），实践中也有利用静态词向量和fine-tunning词向量作为不同channel的做法。

一维卷积（conv-1d）：

图像是二维数据；
文本是一维数据，因此在TextCNN卷积用的是一维卷积（在word-level上是一维卷积；虽然文本经过词向量表达后是二维数据，但是在embedding-level上的二维卷积没有意义）。一维卷积带来的问题是需要通过设计不同 kernel_size 的 filter 获取不同宽度的视野。

番茄要去皮

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
TextCNN

TextCNN在2014年，美国纽约大学的Yoon Kim提出了一种TextCNN模型，把卷积神经网络（CNN）用于文本分类，利用多个不同大小的卷积核来提取文本中的特征，从而能够更好地捕捉局部的相关性。论文地址：Convolutional Neural Networks for Sentence Classification1、网络结构TextCNN的详细原理TextCNN详细过程：...
复制链接

扫一扫