在不久前结束的自然语言处理(NLP)领域顶级学术会议 ACL 2021 上,字节跳动 AI Lab 研究员许晶晶完成了她的演讲。
在全球顶会做完分享后,许晶晶感到很欣慰:“没想到,一项如此底层的研究吸引了大家的兴趣,我们辛苦几个月的研究还是有回报的。”
没错,这项「底层的研究」就是荣获本年度 ACL 最佳论文的《Vocabulary Learning via Optimal Transport for Neural Machine Translation》,来自字节跳动 AI Lab 的许晶晶、周浩、甘纯、郑在翔、李磊五位同学正是这项研究的作者。
ACL 是国际自然语言处理领域的顶会,每年夏天的 ACL 会议不仅会吸引世界各大知名科研机构的注意,也是全球主要科技公司的关注焦点。今年的 ACL 共有 3350 篇论文投稿,仅评出一篇最佳论文,是整场会议的最高奖项。
此外,在本届 ACL 上,字节跳动 AI Lab 一共中选了 11 篇论文。
「词表」,NLP 底层研究
这篇荣获最佳论文的研究,主要聚焦在了「词表」方向。
词表,就是把完整句子拆开的一组数据,可以按词拆、按字母拆、按音节拆,每种拆法都可以有不同的意义和理解。
就像中文里「上课」是一个意思,「上」和「课」两个字单独拿出来又分别有不同的意思。
我们熟知的各种 NLP 方向的应用,比如机器翻译、文本纠错、聊天机器人等,都离不开词表这个基础,词表是机器学习的基本数据,是实现各类AI功能的养料。
可以说,词表是 NLP 各个方向应用的「地基」,把词表做好,可以提升各种不同 NLP 任务的表现。
在这篇论文里,字节跳动 AI Lab 的同学通过实验得出了词表大小和词表信息量与机器学习模型训练中的一些关系,这些规律可以进一步推动 NLP 科研界解决「