Baseline needs more love

最新推荐文章于 2023-08-03 23:49:20 发布

yuanmengxinglong

最新推荐文章于 2023-08-03 23:49:20 发布

阅读量257

点赞数

分类专栏： Paper reading 文章标签： AI embedding

本文链接：https://blog.csdn.net/yuanmengxinglong/article/details/81234206

版权

Paper reading 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Baseline needs more love
- 1.Paper Info
- 2.Paper highlights
  - - - 2.1.Highlights
      - 2.2.Other words

Baseline needs more love

Author: Cao Shengming
Email: caoshengming@trio.ai
Company: Trio 北京（三角兽）科技有限公司

1.Paper Info

Release time: 24 May 2018
link: https://arxiv.org/abs/1805.09843
code: https://github.com/dinghanshen/SWEM

2.Paper highlights

2.1.Highlights

文章的亮点是对于我们最熟悉的词向量，进行了精细化的探讨。文章将模型训练所涉及的参数分类了两个部分，分别是 embedding paremeters 和 model parameters。这其实就是无监督学习引入的参量，和具体有监督学习附带的参量。而这些参量是否更新，以及后者的维度对于模型表达能力的影响等问题，作者也进行了相应的探讨。

对我们的启示就是对于一些简单的任务来说，单纯的词向量变换和更新，就可以满足需求了。这里的变换主要涉及三种，max,average 和 hierarchical,这其实就是用 pooling 操作取代了传统的操作，max 取得是核心元素（距离短），average 取得是平均结果（距离长），而 hierarchical 则采用窗口概念，将操作单元转换为 n-gram（n 为窗口大小），这样就保留了一部分语序信息在里边。

作者针对词序信息（word-order）信息在 NLP 相关任务中的作用，实际与直观上的一致，对于序列标注等对语序依赖较强的任务，还是 LSTM、CNN 等操作更为有效。这里作者给了这些网络一个提法，叫 composition function，我们就可以理解为一个映射函数，会将输入映射到特征空间进行操作。

在参量大幅度下降，而指标又不会下降太多的情况下，采取简单词向量变换的方法不失为一种合理的选择。

作者整篇行文也十分严谨，文末已经提到了模型所涉及的过拟合问题，因为所测试的语料都是一些开放数据集，可能这些结论在小规模数据集上的结果表现尚可，但是其泛化能力或在大规模数据集上的表现还有待考证。我也很有兴趣，作者如何在 simple embedding 上考虑一系列的惩罚措施。后续会继续跟进。

2.2.Other words

以后会不定期、长期更新相关论文的理解，比较有新意的会解析代码或者做迁移实验，希望可以多多交流。

yuanmengxinglong

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Baseline needs more love

Baseline needs more love1.Paper Info2.Paper highlights2.1.Highlights2.2.Other wordsBaseline needs more loveAuthor: Caoshengming Email: caoshengming@trio.ai Company: Trio ...
复制链接

扫一扫