看咒语,知情节?他们用《哈利·波特》让AI学习剧透

郭一璞 假装发自 霍格沃兹 
量子位 报道 | 公众号 QbitAI

640?wx_fmt=jpeg

看到一句《哈利·波特》里的咒语,就知道接下来要发生什么情节了:

是逃课去喝黄油啤酒、蹲在厕所里易容、还是大战伏地魔?

真的有人做这样的研究。

西班牙拉科鲁尼亚大学的两名研究者,在一篇发表在NAACL的论文里提出了一个新的自然语言处理(NLP)任务:

看文字场景,猜下一步行动

举个栗子来讲,就是造一个AI,让它看到“深蓝的天空中挂着一轮金黄的圆月,下面是海边的沙地,都种着一望无际的碧绿的西瓜”,就知道接下来少年闰土要刺猹了。

差不多就是一个小说剧透插件。

从咒语入门

既然想到要做这样一个任务,那一定得有相应的语料库,用监督学习的方法,就需要一段文字场景描述,对应一段下一步行动

这样看来,《哈利·波特》里固定的几十个咒语就是最佳的文字场景描述,毕竟咒语都是一样的,说错了就不管用了,并不像普通的人类自然语言那样博大精深,可以用许多种表述来说同一件事情。

比如说:

Lumos:荧光闪烁

640?wx_fmt=gif

Alohomora:开锁

640?wx_fmt=gif

Avada Kedavra:阿瓦达索命咒

640?wx_fmt=gif

于是,研究人员们开心的抱着《哈利·波特》原著,开始找包含咒语的文本段落,大概长这样:

640?wx_fmt=png

比如最后一个例子是这样的,文本语料库长这样:

哈利感觉好像被看不见的人推着走一样,他听到罗恩疼的叫了一声。

“怎么了?”赫敏紧张地说,步伐也突然停了下来,哈利在后面撞上了她。

“罗恩,你在哪儿?哦,这样太蠢了——Lumos”

行动是这样的:

发光。

原著翻来覆去看完了,研究者们发现了一个尴尬的问题:

七本《哈利·波特》里,只出现了432次咒语。

640?wx_fmt=png

432,这么点哪够当语料库用的啊!

数据量不够,怎么办呢?

原著不够,同人来凑。

因为《哈利·波特》系列太火,粉丝们也觉得这些故事看不够,所以创作了很多同人小说。既然是同人小说,那故事的世界观都是一样的,大家住在同一个霍格沃茨城堡里,上一样的魔药课,说一样的咒语,能用。

于是,研究者们找到了《哈利·波特》粉丝网站,从N多部同人小说里挑出了没有太监(断更)的那一部分小说文本,开始扒拉咒语。

果然,人多力量大,这下原著+同人,凑出了82836个咒语文本段落,语料库够了。

各种模型哪家好

有了数据集,就需要在模型上跑了。

研究者用到了多项逻辑回归(MLR)、多层感知器(MLP)、LSTM、CNN四种模型,并在结果上将频繁动作和不频繁的动作分开。

640?wx_fmt=png

看来,结论来了:

看场景猜行动这个任务上,LSTM是最好用的,指标相对较高;其他的,像逻辑回归之类的,不太行咯。

传送门

论文
Harry Potter and the Action Prediction Challenge from Natural Language
David Vilares, Carlos Gómez-Rodríguez
https://arxiv.org/abs/1905.11037

GitHub
https://github.com/aghie/hpac


小程序|全类别AI学习教程

640?wx_fmt=jpeg

AI社群|与优秀的人交流

640?wx_fmt=jpeg

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值