“听我说谢谢你”还能用古诗来说?清华搞了个“据意查句”神器,一键搜索你想要的名言警句...

点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达dd4a7414f93836a2a595a6eaef8b60fe.jpeg

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

艾瑞巴得,又有神器来拯救文盲了!

天气太热只会念叨一句“热死了”?发朋友圈翻来覆去才憋出几个字?

这个检索神器值得了解一下。

只要在搜索框里输入你想表达的意思,如“热死了”。

立刻就能有20个表达这一意思的句子任君挑选。

793a37052f282c8edf7d27eedb45658d.png

句子类型还能按需选取,名言警句、歇后语、古诗文都不在话下。

56ab64916d303f6daf185c4cef8f34b0.png

并且给出的名言还会注明出处作者,这下再也不用啥话都往迅哥儿身上套了。

44bb3639cabdf444bfe7b82e03c0b165.png

怪不得网友直呼:朋友圈文案高级表达查找替换系统

b2530236590018a554ee74d36bc6834e.png

而且,我们在试玩了几轮后发现,这个神器在hold住网络俗语“精髓”上的表现有些出人意料。

比如这两天大家都在说的“精神内耗”。

它给出了一段卢梭的话,完全拿捏住了词语本来的意思,语言逼格立马提升好几度。

13a6b363c743ba67d44e6cf7a739c99e.png

甚至还能找出意思相近的古诗文

来自欧阳修《秋声赋》中的这句“百忧感其心,万事劳其形,有动乎中,必遥其情”,说的意思就是焦虑使人精神疲惫。

40e11714fb50ff2985698c73d91db7d9.png

果真是能通杀古今了。

于是,我们找来了更多网络流行语喂给它,看看还能擦出什么火花~

听我说谢谢你,但古诗版

第一个要尝试的网络名句,是“听我说,谢谢你”。

神器反向输出结果中,意思最为贴近的是王维的这句“举世无相识,终身思旧恩”。

这句诗中明确体现了说话主体人表达感谢之意,称得上是“听我说谢谢你”的究极上流版。

d044291779cc5c4aa96f4234ddaf3830.png

还有在句式上非常接近的结果,是温庭筠笔下的“知我意,感君怜”。

db5cbb8d766e5feec6e4ee968485e378.png

最让人意想不到的,是神器反向输出了《将进酒》里的“与君歌一曲,请君为我倾耳听”。

9415c382b86ea9046ede522b8e2355d2.png

乍看之下,这个答案好像是错的。

但要知道“听我说谢谢你”能成为梗,就是因为防疫人员尴尬被迫听歌事件……

这么看,反向输出神器还意外扣了题

3285c4dd73a9775ae808d212c61a7668.png

不只是这句梗,还有很多网络用语,反向输出神器的回答都是貌似不着边际,但又让人觉得异常契合。

比如输入“无语子”,给出的诗句有:

满怀心腹事,尽在不言中。

这不就是大家表达无语时的真实心境吗?因为不便明说,所以沉默,所以无语。

149c52f1e8f5981506203f0f97b588cd.png

还有这句“你品,你细品”,输出的诗句也都带有了仔细品读、反复回味的意思。

92f92df8ac1faa91f095b5f5853d905c.png

那么,这个好用又好玩的神器,到底是什么来头呢?

来自清华的“据意查句”

以上说的这个好登西,是由清华推出的“据意查句”神器——WantQuotes

诞生自清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP),项目指导教师为孙茂松教授和刘知远副教授。

能够快速从全世界这么多语料中找到你想要的句子,这个神器主要靠的是一个超大的数据集和一个推荐模型

数据集包含了英语、现代汉语和文言文三大部分。

其中,英语部分有6108个名言警句和126713个上下文文本段;

现代汉语部分,包含有3004句名言和408433个相关上下文;

文言文部分,则有4438段文言典故(包括古诗)和116537段相关上下文。

b63692514be910546be534c0356475b9.png

推荐模型方面,本文提出使用BERT作为句子编码器来学习名言警句和相关文本表示。

但由于绝大多数名言警句的表达都非常凝练,但是可能其中每个背后的意义又包含很多层,所以在本方法中,研究人员将义原引入到编码器中。

简单来说,义原是语言学中最小的语义单位。语言学家认为义原体系在任何语言中都适用,不与特定语言相关。

举个例子,“男孩”这个词可以由“人类”、“男性”、“儿童”这个三个义原表示,“女孩”则可以由“人类”、“女性”、“儿童”的组合来表达。

23f164e7ba4514fc88b4490bb28eca50.png

因此在模型中引入义原后,就能很好解决词义消歧的问题,并且能更准确地捕捉到词与词之间的关系。

也就是让模型把语言学得更加透彻。

而在具体任务对比中可以看到,本文方法的性能均优于其他方法。

同时用消融实验验证了训练方法的有效性(下表最后三行结果)

9b11cf68bd3387a0fb276af5a57e9f8a.png

在只给出左侧文本的条件下,本文方法的结果依旧优于过去方法。

558021042293f51bc1f356e744bc124d.png

还有反向词典和AI作诗系统

看到这里你可能觉得这项工作有点似曾相识。

没错,那个之前爆火的“反向词典”也来自这个实验室。

所谓“反向”,就是和常规词典不同,不是按词寻义,而是反过来给词典一段描述,让它来帮你找词。

7ea3f7034a616a6afa1983a52488c971.png

比如还是这句“听我说谢谢你,因为有你,温暖了四季”,用成语应该怎么说?

反向词典可以立马抛出几十乃至上百个选项出来,并且还会标注推荐程度。

背景颜色越深,代表系统推荐程度越高。

9af52c851703b5baee75ca8afd66d92a.png

要是碰上啥看不懂的,鼠标一点,就能查看具体释义。

310510f7e72c0d9c42eb81b0f96ce8d0.png

而除了拯救现代失语人外,他们还让AI尝试过写古诗,之前也在网络上爆火过。

dc0fd6d7e92fadb33349777770d0d942.png

不得不说,THUNLP真是要把AI+中文玩出花了。

该实验室由孙茂松教授领衔,教师队伍中还有刘洋教授和刘知远副教授。

179f70e4d02382f09376823a0ceb9501.png

前不久,THUNLP还获得了ACL 2022最佳演示论文奖(Best Demo Paper Award)。

该奖项是ACL系列会议对System Demonstration论文授予的最佳论文奖项,每届会议基于评审人员评估的系统贡献度、完成度、影响力及会议演示综合效果的综合评价评选出一篇获奖论文。

81e10e71b2eabc54a094fc687e1fb784.png

One More Thing

目前,“反向词典”在网页端和微信小程序上都能使用,APP在路上了。

“据意查句”还只能在网页端使用(需要扫码关注公众号登陆一下子)。

另外,团队表示还是希望大家在使用时多给反馈、多提建议。

比如给好的推荐名句点赞,如果看到有错误之处也能直接指正。

8cf4eb65cf642f27f07a6089f34c6964.png

对了,研发团队还表示,作为开源项目随时欢迎大家加入,参与项目设计&开发、提出需求、反馈问题。

感兴趣的话就去官网戳戳公告吧~

“据意查句”官网:
https://wantquotes.net/

“反向词典”官网:
https://wantwords.net/

参考链接:
https://weibo.com/5198011111/LE58vxn0N?

21d7970f1088243f8a83fe4890d747a3.png

outside_default.png

点个在看 paper不断!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值