向量空间搜索引擎理论

简述

向量空间搜索引擎使用了一个非常简单的计数对于矩阵代数去比较基于词频的文档。

向量空间搜索引擎的第一个主要组成部分是概念术语空间。简单地说,术语空间由每个唯一的单词组成出现在文档集合中。

向量空间搜索引擎的第二个主要组成部分是项目计数。项目计数只是记录每个项在an中出现的次数个人文档。这通常表示为一个表,如下图阐述。

通过使用term空间作为坐标空间,和项目计数作为坐标在那个空间中,我们能够给每个文档建立一个向量,让我们看一个简单的例子。

通过使用项目空间作为坐标空间,然后将项目计数值作为空间中的坐标,我门能够对每个文档创建一个向量。为了让我们理解我们是如何产生这么一些向量的,让我们先看一个简单的例子。
你们可能熟悉笛卡尔坐标,绘制通过x,y,z坐标轴。相似的,在项目空间中包含着三种独特的项目我们把他们称为term1,term2 和term3(在向量搜索空间中我们通常把term1,term2,term3这样的轴在理论上我们称为维度),通过计数文件中每个项目的数量,然后绘制出他们的坐标在维度中,我们能够确定一个点对应的文件在一个项目空间中。使用这一点,我们可以为文档创建一个返回原点的向量。

一旦,我们绘制了一个文档的向量通过项目空间,我们能够计算出向量的大小。考虑到线的产百度在文档中点与点之间在项目空间,还有原点。这些向量大小将允许我们通过计算它们之间夹角的协号来比较文档。举个例子,同一文档相同的文档的协号为1,文档包含相似的项目会有一个相似的十进制协号,然后毫无关系的他们的协号为0。

一个简单的例子:
在本教程中,我们将使用a遍历整个索引和搜索过程简单的三维

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值