「博士毕业一年,我拿下 ACL Best Paper」

字节跳动AI Lab研究员许晶晶等人完成的《Vocabulary Learning via Optimal Transport for Neural Machine Translation》荣获ACL 2021最佳论文。研究聚焦于词表在NLP底层的重要性,提出了新方法VOLT,大幅减少词表数据体积,提升翻译效果。许晶晶的博士后第一项工作即取得这一突破,强调长时间投入底层研究的价值。
摘要由CSDN通过智能技术生成

在不久前结束的自然语言处理(NLP)领域顶级学术会议 ACL 2021 上,字节跳动 AI Lab 研究员许晶晶完成了她的演讲。

在全球顶会做完分享后,许晶晶感到很欣慰:“没想到,一项如此底层的研究吸引了大家的兴趣,我们辛苦几个月的研究还是有回报的。”

没错,这项「底层的研究」就是荣获本年度 ACL 最佳论文的《Vocabulary Learning via Optimal Transport for Neural Machine Translation》,来自字节跳动 AI Lab 的许晶晶、周浩、甘纯、郑在翔、李磊五位同学正是这项研究的作者。

ACL 是国际自然语言处理领域的顶会,每年夏天的 ACL 会议不仅会吸引世界各大知名科研机构的注意,也是全球主要科技公司的关注焦点。今年的 ACL 共有 3350 篇论文投稿,仅评出一篇最佳论文,是整场会议的最高奖项。

此外,在本届 ACL 上,字节跳动 AI Lab 一共中选了 11 篇论文。

「词表」,NLP 底层研究

这篇荣获最佳论文的研究,主要聚焦在了「词表」方向。

词表,就是把完整句子拆开的一组数据,可以按词拆、按字母拆、按音节拆,每种拆法都可以有不同的意义和理解。

就像中文里「上课」是一个意思,「上」和「课」两个字单独拿出来又分别有不同的意思。

我们熟知的各种 NLP 方向的应用,比如机器翻译、文本纠错、聊天机器人等,都离不开词表这个基础,词表是机器学习的基本数据,是实现各类AI功能的养料。

可以说,词表是 NLP 各个方向应用的「地基」,把词表做好,可以提升各种不同 NLP 任务的表现。

在这篇论文里,字节跳动 AI Lab 的同学通过实验得出了词表大小和词表信息量与机器学习模型训练中的一些关系,这些规律可以进一步推动 NLP 科研界解决「

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值