AAAI、IJCAI和ACL录用三名清华本科生成果,华人NLP最杰出HowNet成功融入DL模型

什么是HowNet

HowNet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念[1]。

HowNet秉承还原论思想,认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为“义原”(Sememe),顾名思义就是原子语义,即最基本的、不宜再分割的最小语义单位。在不断标注的过程中,HowNet逐渐构建出了一套精细的义原体系(约2000个义原)。HowNet基于该义原体系累计标注了数十万词汇/词义的语义信息。

例如“顶点”一词在HowNet有两个代表义项,分别标注义原信息如下,其中每个“xx|yy”代表一个义原,“|”左边为英文右边为中文;义原之间还被标注了复杂的语义关系,如host、modifier、belong等,从而能够精确地表示词义的语义信息。

在NLP领域知识库资源一直扮演着重要角色,在英语世界中最具知名度的是WordNet,采用同义词集(synset)的形式标注词汇/词义的语义知识。HowNet采取了不同于WordNet的标注思路,可以说是我国学者为NLP做出的最独具特色的杰出贡献。HowNet在2000年前后引起了国内NLP学术界极大的研究热情,在词汇相似度计算、文本分类、信息检索等方面探索了HowNet的重要应用价值[2,3],与当时国际上对WordNet的应用探索相映成趣。

深度学习时代HowNet有什么用

进入深度学习时代,人们发现通过大规模文本数据也能够很好地学习词汇的语义表示。例如以word2vec[4]为代表的词表示学习方法,用低维(一般数百维)、稠密、实值向量来表示每个词汇/词义的语义信息,又称为分布式表示(distributed representation,或embedding),利用大规模文本中的词汇上下文信息自动学习向量表示。我们可以用这些向量方便地计算词汇/词义相似度,能够取得比传统基于语言知识库的方法还好的效果。也正因为如此,近年来无论是HowNet还是WordNet的学术关注度都有显著下降,如以下两图所示。


阅读原文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值