Supervised Learning of Universal Sentence Representations from Natural Language Inference Data
GitHub
论文目的
NLP系统基于word embedding作为base features,却很少有成功的sentence embedding。本论文基于Stanford NLI数据得到好的sentence representations,也可以转换到其它数据集。
相关工作
- word2vec
- glove
- SkipThought(非监督)
- FastSent(非监督)
Approach
NLI任务、LSTM网络架构
The Natural Language Inference task
SNLI数据集包含570k 文本对, 有三种label:entailment,contradiction and neutral
本来是可以用交互式的,但是本论文的目的是为了得到单句向量,交互式的就被pass掉了。
进入一个encoder网络,分别得到premise和hypothesis的对应sentence embedding u和v,经过三种匹配方式(concat、absolute element-wise difference、点积)后进入分类层
Sentence encoder architectures
比较了7种网络架构
- lstm
- gru
- gru前向和后向的拼接
- BiLSTM的mean pooling
- BiLSTM的max pooling
- self-attentive network
- hierarchical convolutional networks
LSTM and GRU
a sequence of T words (