向量空间模型(VSM)与TF-IDF

向量空间模型,可用于计算文本相似度。
首先我们希望将文章向量化。可以将一篇文章表示成从该文章抽取的关键词及其权重所构成的向量。


但如何提取文章的关键词和他的权重? e.g. TF-IDF(词频-逆文档频率)
当然首先我们要对文档向量降维:去除文章中的停用词,e.g. 的,这,那,是 …
然后:

第一步,计算词频:

第二步,计算逆文档频率:

即判断每个词在该文章中的重要程度(权重),若在本文中出现的多,而平时又不常见,则该词更能体现文章的特性,即越重要,如一文中中国和蜂蜜词频相同,中国更常见,故蜂蜜相对更能体现主题。
(已经提供了语料库)词约常见,分母越大,IDF越小,

第三步,计算TF-IDF:

T F − I D F = 词 频 ( T F ) × 逆 文 档 频 率 ( I D F ) TF-IDF = 词频(TF) \times逆文档频率(IDF) TFIDF=(TF)×(IDF)

以上
自动提取关键词的算法。计算每个词的TF-IDF值,按降序排列,取排在最前面的几个词。

用处:
1.自动提取文档关键词;
2.信息检索。对于每篇文档,计算搜索词的TF-IDF值,值最高的文档即为与搜索词最相关的文档。
缺点:词频衡量标准,不全面;忽略了词的位置信息(对全文第一段和每段第一句,给予较大权重)。


对文章进行向量空间建模
文本用D(Document)表示,特征项(Term)用 t i t_i ti 表示,即出现在文本D中且经过提取的能够代表D的内容的基本语言单位(方法 e . g . e.g. e.g.TF-IDF)。于是文本可表示成D( t 1 t_1 t1, t 2 t_2 t2,…, t n t_n tn)。 通常在建立向量空间模型时,一般会给每个特征项一个权值来表示该特征项对该文本的重要性,常见的是取TF-IDF值( w i w_i wi)。
于是文章可用此向量表示:D( t 1 t_1 t1, w 1 w_1 w1,…, t n t_n tn, w n w_n wn) ,简化为D( w 1 w_1 w1, w 2 w_2 w2,…, w n w_n wn) . 文本的向量表示
e . g . e.g. e.g.

文档(d) \ 特征项(t)abcde
d15.923.1801.230
d22.342.730.43.23.1
d32.51.31.800

于是,每个文档都能被表示成维数为|n|的向量。
第j篇文档:dj=( w 1 w_1 w1, w 2 w_2 w2,…, w j w_j wj) ; queries(查询):q=( w 1 q w_{1q} w1q, w 2 q w_{2q} w2q,…, w n q w_{nq} wnq)
实际情况下特征项非常多,每个向量非常稀疏。

如何比较查询(queries)和文档(document)之间的相似度?
常见:余弦测量(cosin measure)

公式中的分母称作规范化因子(normalization factor),使文档得分不受文档长度的影响。

  • 3
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
向量空间模型(Vector Space Model,VSM)是一种用于表示文本的数学模型,常用于信息检索和自然语言处理任务中。下面是一些使用向量空间模型的步骤: 1. 收集语料库:首先,你需要收集一组相关的文本数据,这些文本可以是文章、网页、问题和答案等。 2. 文本预处理:对文本进行预处理是必要的步骤,可以包括以下几个步骤: - 分词:将文本划分为单词或词组。 - 去除停用词:去除常见的无意义词语,如“的”、“是”等。 - 词干化或词形还原:将单词还原为其基本形式,如将“running”还原为“run”。 - 构建词汇表:建立一个包含所有文本中出现的单词的词汇表。 3. 特征提取:将文本转换为向量表示是向量空间模型的核心。常用的特征提取方法有: - 词袋模型(Bag-of-Words):将每个文本表示为一个向量,其中每个维度对应一个词汇表中的单词,数值表示该单词在文本中出现的频率或者权重。 - TF-IDF(Term Frequency-Inverse Document Frequency):通过计算单词在文本中的频率和在整个语料库中的逆文档频率来确定单词的权重。 - Word2Vec:将单词映射为低维向量表示,通过学习单词的上下文关系来捕捉语义信息。 4. 相似度计算:使用向量表示的文本可以计算文本之间的相似度。常用的相似度计算方法有: - 余弦相似度:计算两个向量之间的夹角余弦值,值越接近1表示越相似。 - 欧氏距离:计算两个向量之间的欧氏距离,值越小表示越相似。 5. 应用:使用向量空间模型可以进行多种文本相关任务,例如: - 文本检索:通过计算查询文本与语料库中文本的相似度,找到与查询相关的文本。 - 文本分类:使用文本的向量表示作为输入,训练分类模型进行文本分类任务。 - 文本聚类:将相似的文本聚集在一起,发现文本的分组或主题。 以上是向量空间模型的基本使用步骤,具体的实现可以根据具体任务和工具库进行调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值