「博士毕业一年，我拿下 ACL Best Paper」

字节跳动技术范儿

于 2021-08-10 18:48:31 发布

阅读量1.3k

点赞数 1

文章标签：人工智能编程语言 java 机器学习大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47098359/article/details/119583956

版权

字节跳动AI Lab研究员许晶晶等人完成的《Vocabulary Learning via Optimal Transport for Neural Machine Translation》荣获ACL 2021最佳论文。研究聚焦于词表在NLP底层的重要性，提出了新方法VOLT，大幅减少词表数据体积，提升翻译效果。许晶晶的博士后第一项工作即取得这一突破，强调长时间投入底层研究的价值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在不久前结束的自然语言处理（NLP）领域顶级学术会议 ACL 2021 上，字节跳动 AI Lab 研究员许晶晶完成了她的演讲。

在全球顶会做完分享后，许晶晶感到很欣慰：“没想到，一项如此底层的研究吸引了大家的兴趣，我们辛苦几个月的研究还是有回报的。”

没错，这项「底层的研究」就是荣获本年度 ACL 最佳论文的《Vocabulary Learning via Optimal Transport for Neural Machine Translation》，来自字节跳动 AI Lab 的许晶晶、周浩、甘纯、郑在翔、李磊五位同学正是这项研究的作者。

ACL 是国际自然语言处理领域的顶会，每年夏天的 ACL 会议不仅会吸引世界各大知名科研机构的注意，也是全球主要科技公司的关注焦点。今年的 ACL 共有 3350 篇论文投稿，仅评出一篇最佳论文，是整场会议的最高奖项。

此外，在本届 ACL 上，字节跳动 AI Lab 一共中选了 11 篇论文。

「词表」，NLP 底层研究

这篇荣获最佳论文的研究，主要聚焦在了「词表」方向。

词表，就是把完整句子拆开的一组数据，可以按词拆、按字母拆、按音节拆，每种拆法都可以有不同的意义和理解。

就像中文里「上课」是一个意思，「上」和「课」两个字单独拿出来又分别有不同的意思。

我们熟知的各种 NLP 方向的应用，比如机器翻译、文本纠错、聊天机器人等，都离不开词表这个基础，词表是机器学习的基本数据，是实现各类AI功能的养料。

可以说，词表是 NLP 各个方向应用的「地基」，把词表做好，可以提升各种不同 NLP 任务的表现。

在这篇论文里，字节跳动 AI Lab 的同学通过实验得出了词表大小和词表信息量与机器学习模型训练中的一些关系，这些规律可以进一步推动 NLP 科研界解决「

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。