知识库描述现实世界中实体(entity)间的关系(relation),是有结构的。主要研究目标是:从无(半)结构的互联网信息中获取有结构知识,自动融合构建知识库、服务知识推理等相关应用。知识表示是知识获取与应用的基础,知识表示学习问题是贯穿知识库的构建与应用全过程的关键问题。
一、知识表示学习
1.基本概念
表示学习的目标是通过机器学习将研究对象的语义信息表示为稠密低维实值向量。以知识库中的实体e和关系r为例,我们将表示学习得到的向量表示为le和lr。
独热表示(one-hot representation),将研究对象表示为向量,只是该向量只有某一维非零,其他维度上的值均为0。为了将不同对象区分开,有多少个不同的对象,独热表示向量就有多长。独热表示是信息检索和搜索引擎中广泛使用的词袋模型(bag-of-words model)的基础。
相较于表示学习,独热表示无需学习过程,简单高效,在信息检索和自然语言处理中得到广泛应用。但是因为独热表示假设的所有对象都是相互独立的,在独热表示空间中,所有对象的向量都是相互正交的,通过余弦距离或欧氏距离计算的语义相似度均为0,会丢失大量有用信息。也就是说,独热表示无法利用对象间的语义相似度信息,也就是说词袋模式无法有效表示短文本而且容易受到数据稀疏问题影响。
相较于独热表示,表示学习的向量纬度更低,有助于提高计算效率,同时能够充分利用对象间的语义信息,从而有效缓解数据稀疏问题。
2.理论基础
表示学习得到的低维向量表示是一种分布式表示(distributed representation)。如果孤立地看向量中的每一维,都没有明确对应的含义,而综合各维形成一个向量,则能够表示对象的语义信息。分布式表示的向量可以看作模拟人脑的多个神经元,每维对应一个神经元,而向量中的值对应神经元的激活或抑制状态。基于神经网络这种对离散世界的连续表示机制,人脑具备了高度的学习能力与智能水平。表示学习正是对人脑这一工作机制的模仿。
3.知识表示学习的优点
显著提升计算效率、有效缓解数据稀疏、实现异质信息融合。
二、知识表示学习的主要方法
知识表示学习的几个代表模型,包括距离模型、单层神经网络模型、能量模型、双线性模型、张量神经网络模型、矩阵分解模型和翻译模型等。