Baseline needs more love
Author: Cao Shengming
Email: caoshengming@trio.ai
Company: Trio 北京(三角兽)科技有限公司
1.Paper Info
- Release time: 24 May 2018
- link: https://arxiv.org/abs/1805.09843
- code: https://github.com/dinghanshen/SWEM
2.Paper highlights
2.1.Highlights
文章的亮点是对于我们最熟悉的词向量,进行了精细化的探讨。文章将模型训练所涉及的参数分类了两个部分,分别是 embedding paremeters 和 model parameters。这其实就是无监督学习引入的参量,和具体有监督学习附带的参量。而这些参量是否更新,以及后者的维度对于模型表达能力的影响等问题,作者也进行了相应的探讨。
对我们的启示就是对于一些简单的任务来说,单纯的词向量变换和更新,就可以满足需求了。这里的变换主要涉及三种,max,average 和 hierarchical,这其实就是用 pooling 操作取代了传统的操作,max 取得是核心元素(距离短),average 取得是平均结果(距离长),而 hierarchical 则采用窗口概念,将操作单元转换为 n-gram(n 为窗口大小),这样就保留了一部分语序信息在里边。
作者针对词序信息(word-order)信息在 NLP 相关任务中的作用,实际与直观上的一致,对于序列标注等对语序依赖较强的任务,还是 LSTM、CNN 等操作更为有效。这里作者给了这些网络一个提法,叫 composition function,我们就可以理解为一个映射函数,会将输入映射到特征空间进行操作。
在参量大幅度下降,而指标又不会下降太多的情况下,采取简单词向量变换的方法不失为一种合理的选择。
作者整篇行文也十分严谨,文末已经提到了模型所涉及的过拟合问题,因为所测试的语料都是一些开放数据集,可能这些结论在小规模数据集上的结果表现尚可,但是其泛化能力或在大规模数据集上的表现还有待考证。我也很有兴趣,作者如何在 simple embedding 上考虑一系列的惩罚措施。后续会继续跟进。
2.2.Other words
以后会不定期、长期更新相关论文的理解,比较有新意的会解析代码或者做迁移实验,希望可以多多交流。