cs224n学习笔记--Subword Models

Demonwuwen

已于 2022-04-03 02:18:44 修改

阅读量2k

点赞数

分类专栏：机器学习文章标签：自然语言处理深度学习 CS224NLP

于 2020-06-30 20:01:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44336181/article/details/107049002

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Subword Models

基于词级的模型（word-level Model）

使用基于单词的模型时需要处理规模庞大的词汇表，例如Word2Vec，是利用word embedding的方法来得到每一个word的vec，这种方法需要去处理规模庞大的词汇表。这种方式虽然效果不错，但是对于单词而言，只要稍微做些改变就是另一个单词了。造成的后果：

OOV(out-of-vocabulary)出现单词不存在于词汇库中的情况。解决方法：最佳语料规模，使系统能够获得更多的词汇量；
拼写错误。解决方法：矫正或加规则约束；
对名字和地名的音译。

字符级语言模型（Character-Level Model）

基于 Character 作为基本单位的，这种方式能够很好的对字库中每一个 Char 进行向量表示。对比word embedding，character embedding有以下几个优点：

解决基于词级模型的OOV 问题
为不存在的词生成embedding，拼写相似的单词具有相似的 embedding

存在问题：

序列变长：相比于词级（word-level ）, 字符级（Character-level）的输入句子变长，使得数据变得稀疏，而且对于远距离的依赖难以学到，训练速度降低；
解决办法：Jason Lee等人提出（Fully Character-Level Neural Machine Translation without Explicit Segmentation 原文点此）利用多层 conv 和 pooling 和 highway layer 的方式来解决该问题
该论文思路如下：
1.输入的字符首先需要经过 Character embedding 层，并被转化为 character embeddings 表示；
2.采用不同窗口大小的卷积核对输入字符的 character embeddings 表示进行卷积操作，论文中采用的窗口的大小分别为 3、4、5 ，也就是说学习 Character-level 的 3-gram、4-gram、5-gram;
3.对不同卷积层的卷积结果进行 max-pooling 操作，即捕获其最显著特征生成 segment embedding;
4.segment embedding 经过 Highway Network (有些类似于Residual network，方便深层网络中信息的流通，不过加入了一些控制信息流量的gate）；
5…输出结果再经过单层 BiGRU，得到最终的 encoder output;
6.之后，decoder再利用Attention机制以及character level GRU进行decode。
通过这种方式不仅能够解决 Word-level 所存在的 OOV 问题，而且能够捕获句子的 3-gram、4-gram、5-gram 信息，这个也是后期 FastText 的想法雏形；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Demonwuwen CSDN认证博客专家 CSDN认证企业博客

码龄6年

83: 原创

7万+: 周排名

125万+: 总排名

9万+: 访问

: 等级

1219: 积分

64: 粉丝

46: 获赞

29: 评论

157: 收藏

私信

关注

热门文章

分类专栏

Go 17篇
数据库 3篇
区块链技术 9篇
fabric 4篇
IPFS
机器学习 2篇
刷题记录 3篇
java学习 41篇

最新评论

fabric-SDK-go初探
Demonwuwen: 你看你错误，提示对应路径没有文件，确认配置文件是否存在正确的路径中。或者访问权限也会影响
fabric-SDK-go初探
灯火蓝珊处: 最后一步骤出错了 Unable to initialize the Fabric SDK: failed to create SDK: failed to initialize configuration: unable to load endpoint config: failed to initialize endpoint config from config backend: network configuration load failed: failed to load channel configs: failed to load network TLSConfig: failed to load orderer/peer TLSConfig : failed to load orderer cert: failed to load pem bytes from path /home/flyq/go/src/github.com/chainHero/heroes-service/fixtures/crypto-config/ordererOrganizations/hf.chainhero.io/tlsca/tlsca.hf.chainhero.io-cert.pem: open /home/flyq/go/src/github.com/chainHero/heroes-service/fixtures/crypto-config/ordererOrganizations/hf.chainhero.io/tlsca/tlsca.hf.chainhero.io-cert.pem: no such file or directory
blockchain-explorer搭建（Docker）
云飞扬12345: test-network-ca.json 这个问题在哪，碰到同样的问题，求解答
blockchain-explorer搭建（Docker）
Clothdoll: 老哥你解决了吗
MySQL允许外部访问
郭小白0: 你这sql是闭着眼睛写的吧

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。