菜鸟读论文(1)——Hierarchical Attention Networks for Document Classification

文献标题

Hierarchical Attention Networks for Document Classification

期刊/会议

NAACL 2016( CCF-C )

作者

Zichao Yang, Diyi Yang等

时间

2016-06

研究问题

通过模拟文章层次结构对文本进行分类

主要贡献

  1. 从文章的分层结构入手,提出了一种新的文本分类的层次结构模型,分别聚合词向量成句向量,再合成为文档级向量表示进行分类任务。
  2. 很好的可视化了Attention机制对于文档中信息更为丰富部分的关注。

研究难点( Motivation )

  1. 在文本分类的方法中,没有关注到怎样从文章的层次结构来进行特征提取,没有考虑词在不同上下文的重要性不同。
  2. 怎样给不同句子中的相同词不同的重要性。

研究方法关键

  1. 整体的分层架构,从词向量得到句向量再得到文章向量。
  2. Attention层中Q, K, V的确定。
  3. Attention关注的重要程度的可视化。

实验表现

  1. 在不同规模、不同任务(文本分类、情感分类)下都达到SOTA(提升3%~4%)。
  2. 应用了层次结构后,即使用平均的方式使权重都一样,效果提升也很明显。

所用数据集

1.Yelp’13、'14、'15
2.IMDB
3.Yahoo Answer

评估指标

Accuracy

启发点

1.对于文档分类,不是所有的词汇都与分类结果相关;相关的部分要参考词语间的上下文关系,而非仅仅是他们的独立表示。
2.使用两种级别的注意力机制(word和sentence级)来获取上下文信息以衡量单词和句子在不同上下文中的重要程度。
3.图画的很好,实验很全面,能展现Attention具体注意的是句子的哪一部分。

Tricks

1.min_count >= 5, 是为了把出现次数较少的词语丢弃不要,缩小词语的数量,加快训练的速度降低训练的复杂度。
UNK替换掉出现次数=5次的词是为了防止过拟合。
2. 每个batch的长度相同,batch的长度不同,可以提升3倍训练速度。
3. 网格搜索( grid search ):手动给出参数,程序自动的把这些都运行一遍取最优,耗时久且易造成维度灾难,适用于三四个超参数的情况。
随机搜索( random search ):给出参数的范围,程序通过随机采样去搜索和优化。
4. 超参momentum的设置:即动量,对于一般的SGD:w = w - lr * dw,容易造成震荡,如果添加momentum的话则:v = mu * v - lr *dw, w = w + v, 即若这一次下降的方向与上一次相同,则会下降的更多,相反则下降得变少,在危险的边缘疯狂试探

问题与思考

  1. 最大的价值在于所有序列类型的都可以这么分层处理。
  2. 相反的,从小到大这样的思想会不会容易导致误差累积,特别是对一些反语,attention能否一样关注到这些词,并且给予相对应的权重呢?

高引用相关研究

  1. A C-LSTM Neural Network for Text Classification( 2015, LSTM + CNN)
  2. Document Modeling with Gated Recurrent Neural Network for Sentiment Classification( 2015, hierarchical structure, 提供yelp, IMDB数据集)
  3. Character-level Convolutional Networks for Text Classification
    ( 2015, 实验丰富,结果可直接拿来对比 )

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值