语义树索引技术
张留学[1] 张焕中[2]
摘要:
本文介绍文字语义树的索引技术。语言的基本为文字,由文字构成不同的语句,语句是文章或者人际交流最基本的语言单位。如果一句话为树的一个分支,那么相同起点的文字的语句结合在一起构成一颗语义树,树上的节点分为根节点,分支节点,果子节点(语句最后的节点,一般对应一篇文章,如果文章为果子的话,该节点为果子节点)。这样所有的语言组成不同的语义树,整个语义树表示现代的语言的语句的集合。
本文介绍一种语义树的索引技术,通过该技术找到最大匹配的语句,从而得到果子,已找到匹配的文章。
该技术可以用于全文索引、密文全文索引和NLP语义理解等领域。
关键词:
语义树 增量hash 链式存储 全文搜索 NLP语义理解
前言
语言是信息的高度浓缩,给人以记忆、联想,人们利用语言交流,写作,从事科研,人的活动可以通过文字的形式来表达。文字的形成是一件伟大的事,文字、语句和文章的组成需要满足该语言的规则,文字的上下文联系现在看来既浑然天成又不可思议。
信息时代是伟大的时代,信息时代的记忆对比人来说,对比传统的文章而言,不可同日而语。
用信息时代的技术来描述和记载文字,形象的描述文字的上下文联系,就成了一件有意义的事,于是开始语义树的研究。
意义不仅于此,通过语义树可以描述语言上下文的同时,也为语言文字全文的检索提供了可行的支撑。
备注:没有特殊的说明,本文展示的语义树数据来源于百度知道问答集。