AAAI、IJCAI和ACL录用三名清华本科生成果，华人NLP最杰出HowNet成功融入DL模型

最新推荐文章于 2023-03-16 17:13:49 发布

云栖精选

最新推荐文章于 2023-03-16 17:13:49 发布

阅读量954

点赞数

什么是HowNet

HowNet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库，主要面向中文（也包括英文）的词汇与概念[1]。

HowNet秉承还原论思想，认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为“义原”（Sememe），顾名思义就是原子语义，即最基本的、不宜再分割的最小语义单位。在不断标注的过程中，HowNet逐渐构建出了一套精细的义原体系（约2000个义原）。HowNet基于该义原体系累计标注了数十万词汇/词义的语义信息。

例如“顶点”一词在HowNet有两个代表义项，分别标注义原信息如下，其中每个“xx|yy”代表一个义原，“|”左边为英文右边为中文；义原之间还被标注了复杂的语义关系，如host、modifier、belong等，从而能够精确地表示词义的语义信息。

在NLP领域知识库资源一直扮演着重要角色，在英语世界中最具知名度的是WordNet，采用同义词集（synset）的形式标注词汇/词义的语义知识。HowNet采取了不同于WordNet的标注思路，可以说是我国学者为NLP做出的最独具特色的杰出贡献。HowNet在2000年前后引起了国内NLP学术界极大的研究热情，在词汇相似度计算、文本分类、信息检索等方面探索了HowNet的重要应用价值[2,3]，与当时国际上对WordNet的应用探索相映成趣。

深度学习时代HowNet有什么用

进入深度学习时代，人们发现通过大规模文本数据也能够很好地学习词汇的语义表示。例如以word2vec[4]为代表的词表示学习方法，用低维（一般数百维）、稠密、实值向量来表示每个词汇/词义的语义信息，又称为分布式表示（distributed representation，或embedding），利用大规模文本中的词汇上下文信息自动学习向量表示。我们可以用这些向量方便地计算词汇/词义相似度，能够取得比传统基于语言知识库的方法还好的效果。也正因为如此，近年来无论是HowNet还是WordNet的学术关注度都有显著下降，如以下两图所示。

阅读原文

云栖精选

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AAAI、IJCAI和ACL录用三名清华本科生成果，华人NLP最杰出HowNet成功融入DL模型

什么是HowNetHowNet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库，主要面向中文（也包括英文）的词汇与概念[1]。HowNet秉承还原论思想，认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为“义原”（Sememe），顾名思义就是原子语义，即最基本的、不宜再分割的最小语义单位。在不断标注的过程中，HowNet逐渐构建出了一套精细的义原体系（约2000
复制链接

扫一扫