Baseline needs more love

Baseline needs more love


Author: Cao Shengming
Email: caoshengming@trio.ai
Company: Trio 北京(三角兽)科技有限公司


1.Paper Info

2.Paper highlights

2.1.Highlights

    文章的亮点是对于我们最熟悉的词向量,进行了精细化的探讨。文章将模型训练所涉及的参数分类了两个部分,分别是 embedding paremeters 和 model parameters。这其实就是无监督学习引入的参量,和具体有监督学习附带的参量。而这些参量是否更新,以及后者的维度对于模型表达能力的影响等问题,作者也进行了相应的探讨。

    对我们的启示就是对于一些简单的任务来说,单纯的词向量变换和更新,就可以满足需求了。这里的变换主要涉及三种,max,average 和 hierarchical,这其实就是用 pooling 操作取代了传统的操作,max 取得是核心元素(距离短),average 取得是平均结果(距离长),而 hierarchical 则采用窗口概念,将操作单元转换为 n-gram(n 为窗口大小),这样就保留了一部分语序信息在里边。

    作者针对词序信息(word-order)信息在 NLP 相关任务中的作用,实际与直观上的一致,对于序列标注等对语序依赖较强的任务,还是 LSTM、CNN 等操作更为有效。这里作者给了这些网络一个提法,叫 composition function,我们就可以理解为一个映射函数,会将输入映射到特征空间进行操作。

    在参量大幅度下降,而指标又不会下降太多的情况下,采取简单词向量变换的方法不失为一种合理的选择。

    作者整篇行文也十分严谨,文末已经提到了模型所涉及的过拟合问题,因为所测试的语料都是一些开放数据集,可能这些结论在小规模数据集上的结果表现尚可,但是其泛化能力或在大规模数据集上的表现还有待考证。我也很有兴趣,作者如何在 simple embedding 上考虑一系列的惩罚措施。后续会继续跟进。

2.2.Other words

    以后会不定期、长期更新相关论文的理解,比较有新意的会解析代码或者做迁移实验,希望可以多多交流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值