gensim 理论篇

gensimRadim Rehurek 写的一个用来处理文本相似度的 python 库。可以很方便的用 tfidf,LDA,LSA,word2vec 等模型,涵盖了 NLP 里常见的词袋模型,主题模型,词嵌入等。下面简单介绍一下这些概念。

Vector Space model

在自然语言处理中,我们经常需要表示一个文档。一种常见的做法是写成向量的形式,比如直接统计一下该文章的词频,那么向量的大小就是词表的大小。这种模型就是向量空间模型(VSM,Vector Space Model),后面要讲的 TFIDF,LSA 等基本都是向量空间模型。

举个例子,假设文档集合 D 中的一个文档 d ,可以用列向量

vd=[w1,d,w2,d,...,wN,d]T
来表示 其中 N 是词汇表(字典)的长度。

BoW

上面的列向量其实就是 Bag-Of-Word Model,即词袋模型。这种模型直接统计了词频,把一片文章打散成一个个的词,因此会忽略词与词之间的顺序。这种做法显然是有代价的,比如“小明爱小花”跟“小花爱小明”的 BoW 表示是一样的。但是反过来讲,这样做也会简化模型。重要的是这种表示方法,可以把不定长的文档,用定长的向量表示出来,做起来后续的分类聚类等任务很方便。

其实除了在 NLP 领域,在 CV 里也经常用视觉词袋模型。比如我们用 SIFT 特征提取器,可以对图片提取比如 128 的特征。假如我们把图片切分成 100 个小 patch,每个都提取出来一个 SIFT 特征,那么最后得到的特征维度非常大。

可以考虑把训练集里的所有图片 patch 聚成 N 个类,这样每个 patch 都只用一个簇的 id 来表示,最后一张图片的维度就是 N,是图片 patch 的直方图表示。聚类的簇的个数 N 相当于词典的大小,每个簇都是一个词。

TF-IDF

前面的 BoW 模型,可能会给那些经常出现却没什么意义的词较大的权重,比如 “The,a,of” 之类的停词等。这些词无法代表这个文档,因此要降低这些词的权重,提高那些不怎么在其他文档里出现,但是却在这篇文档里反复出现的词。

TF-IDF 就是一种非常好的,也很常见的模型,可以看做是前面的词袋模型的拓展。TF-IDF 分成两个部分,

  • TF(term frequency)就是词频,和 BoW 说的是一个东西,就是数一下这篇文章有多少个这个词。
  • IDF(inverse document frequency)则是词的逆文档频率,就是有多少文章出现了该词,然后取个倒数。

假如用 wt,d 表示第 t 个词汇在文档 d 中的权重,定义 TF-IDF 计算公式如下,

wt,d=tft,dlog2|D||{ dD|td}|

  • 其中 tft,d 是局部参数(local parameter)

    • 表示在文档 d 中词汇 t 的词频。
    • 当然,也有别的做法,比如用 0,1 布尔值,或者用 log 平滑一下之类的。
  • log2|D||{ dD|td}| 是全局参数(global parameter)

    • |D| 表示文档的数量, |{ dD|td}
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值