人工智能走过了七八十年的时光,各种主义如符号主义、联结主义等都为其发展贡献了自己的力量。在21世纪初,由于算力的提升和各种算法的涌现,以深度学习为代表的数据智能得到了快速发展。CV,NLP等领域通过对海量数据的学习,在各个具体的领域都发挥了巨大的作用。
但是,以自然语言处理为例,虽然以深度学习为代表的数据智能取得了令人惊喜的效果,但是其终究只是对于各种特定领域和专业的语义模式的学习,而无法实现对语义的真正理解。可解释性差、鲁棒性差等问题成了当前背景下深度学习的最大问题,而这也是通往让计算机拥有真正智能的道路上不可避免的一个问题。
为此,我们需要知识智能对该问题进行补充。知识图谱是当前知识智能发展的最新成果,其主要包括了3个核心环节,即知识的表示(对不同类型知识的组织和表示)、知识的获取(对互联网上各类知识的自动获取)、知识的推理和应用(如信息检索、智能问答等)。知识图谱将知识表示为实体和关系,它可以通过不同实体之间的链接很好的实现对每个知识点的解释。可以想象,如果能将深度学习解决问题的能力同知识图谱解释问题背后的知识推理逻辑相结合,便可以实现一条从对问题的分析,推理到根据推理结果得出问题解决方案的可解释的路线,完成对人类智能(知识)解决现实问题的复现。
知识图谱所涉及的知识包括常识知识、认知知识、世界知识、语言知识、专业知识等等,这些分类都很粗略。其中世界知识和语言知识与当前的自然语言处理任务密切相关,因此后续介绍将主要围绕两者展开。
知识图谱想要和深度学习融合,需要解决以下3个主要问题:
1. 知识的表示。深度学习中知识的表示主要采取分布式的表示方法。深度学习采用分布式表示,而知识图谱采用符号表示,这两种表示方案难分轩在,各有天地。如何在深度学习中充分利用大规模知识图谱,需要解决知识表示的问题。
2. 知识的获取。知识图谱形式丰富多样,根据历史实践经验,完全依靠手工标注费时费力,既极大地限制知识图谱的规模扩增,也无法有效保证知识图谱的内在一致性和可计算性。如何从互联网大规模的结构化数据、半结构数据和无结构数据中自动获取知识,辅以少量人工校验,是大规模知识图谱构建的必由之路,因此需要探索知识自动获取的技术。
3. 知识的计算。在面向大规模知识图谱建立了完善的知识表示后 ,需要系统探索如何面向不同自然语言处理任务和深度学习模型,将知识合理地嵌入与融合,实现知识指导的自然语言理解。
下一节,我将围绕世界知识图谱的知识表示部分展开介绍。参考书籍刘知远的《知识图谱与深度学习》