什么是HowNet
HowNet是董振东先生、董强先生父子毕数十年之功标注的大型语言知识库,主要面向中文(也包括英文)的词汇与概念[1]。
HowNet秉承还原论思想,认为词汇/词义可以用更小的语义单位来描述。这种语义单位被称为“义原”(Sememe),顾名思义就是原子语义,即最基本的、不宜再分割的最小语义单位。在不断标注的过程中,HowNet逐渐构建出了一套精细的义原体系(约2000个义原)。HowNet基于该义原体系累计标注了数十万词汇/词义的语义信息。
例如“顶点”一词在HowNet有两个代表义项,分别标注义原信息如下,其中每个“xx|yy”代表一个义原,“|”左边为英文右边为中文;义原之间还被标注了复杂的语义关系,如host、modifier、belong等,从而能够精确地表示词义的语义信息。
在NLP领域知识库资源一直扮演着重要角色,在英语世界中最具知名度的是WordNet,采用同义词集(synset)的形式标注词汇/词义的语义知识。HowNet采取了不同于WordNet的标注思路,可以说是我国学者为NLP做出的最独具特色的杰出贡献。HowNet在2000年前后引起了国内NLP学术界极大的研究热情,在词汇相似度计算、文本分类、信息检索等方面探索了HowNet的重要应用价值[2,3],与当时国际上对WordNet的应用探索相映成趣。
深度学习时代HowNet有什么用
进入深度学习时代,人们发现通过大规模文本数据也能够很好地学习词汇的语义表示。例如以word2vec[4]为代表的词表示学习方法,用低维(一般数百维)、稠密、实值向量来表示每个词汇/词义的语义信息,又称为分布式表示(distributed representation,或embedding),利用大规模文本中的词汇上下文信息自动学习向量表示。我们可以用这些向量方便地计算词汇/词义相似度,能够取得比传统基于语言知识库的方法还好的效果。也正因为如此,近年来无论是HowNet还是WordNet的学术关注度都有显著下降,如以下两图所示。