gensim 快速入门 Word2Vec

gensim的核心概念

  1. Document: 文档。可以是一个一句话,或者一段话
  2. Corpus: 文档的集合
  3. Vector: 文档向量。将文档通过数学向量表示。
  4. Model: 模型。将文档转换为向量的模型。将文档转换为向量并不是直接用死算法转的,和机器学习一样,首先是训练模型,然后用训练好的模型将文档转为向量。
import gensim
gensim.__version__
'4.0.1'

Word2Vec简介

建议看这篇文章:https://zhuanlan.zhihu.com/p/26306795/

简单点说,word2vec就是将一个单词映射成一个高维向量,例如google训练的word2vec模型将man这个单词映射成一个300维的向量。

这么做的好处有:

  1. 将文本数字化,可以用于计算,比如计算man和woman两个单词的距离
  2. 可以计算单词之间的相似程度

Word2Vec初试探

word2vec是一个需要训练的模型,官方提供了训练好的模型供人们玩。

下载这个文件,然后将其放在当前目录下

链接:https://pan.baidu.com/s/1Y5no1IDg6qtCwolOQVV_8A 
提取码:at9e 

加载模型:

wv = gensim.models.KeyedVectors.load_word2vec_format("GoogleNews-vectors-negative300.bin.gz", binary=True) # wv = word2vec

如果上面这句报错,请参考这篇文章:https://stackoverflow.com/questions/57507832/unable-to-allocate-array-with-shape-and-data-type

wv就是加载好的模型,可以很方便的使用模型获取单词的向量

vec_king = wv['king']
vec_king.shape
(300,)

可以看出,king这个单词是一个300维度的向量

如果传递了一个不在词库中的单词,则会报错

try:
    vec_cameroon = wv['huluanxiede']
except KeyError:
    print("The word 'cameroon' does not appear in this model")
The word 'cameroon' does not appear in this model

计算两个单词的相似度:

wv.similarity('man', 'woman')  # 两个单词相似度很高
0.76640123
wv.similarity('woman', 'hello')  # 两个单词没什么关系,相似度很低
0.105804786

查询单词的最相似的5个单词

wv.most_similar(positive=['man'], topn=5)
[('woman', 0.7664012908935547),
 ('boy', 0.6824870705604553),
 ('teenager', 0.6586930751800537),
 ('teenage_girl', 0.6147903203964233),
 ('girl', 0.5921714305877686)]

将单词可视化

定义一些动物和颜色的单词:

animals = ['dog', 'cat', 'panda', 'elephant', 'tiger', 'lion', 'monkey', 'koala']
colors = ['black', 'blue', 'green', 'purple', 'yellow', 'red', 'pink', 'orange']
cars = ['bicycle', 'bus', 'bike', 'motor', 'plane', 'ship', 'car']

将上述单词转为300维的向量:

animals_vec = wv[animals]
colors_vec = wv[colors]
cars_vec = wv[cars]

使用sklearn的PCA库,对数据进行降维:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
pca.fit(animals_vec)
animals_vec = pca.transform(animals_vec)

pca.fit(colors_vec)
colors_vec = pca.transform(colors_vec)

pca.fit(cars_vec)
cars_vec = pca.transform(cars_vec)

将上述点绘制成图像:

import matplotlib.pyplot as plt

plt.scatter(animals_vec[:, 0], animals_vec[:, 1], marker='o')
plt.scatter(colors_vec[:, 0], colors_vec[:, 1], marker='x')
plt.scatter(cars_vec[:, 0], cars_vec[:, 1], marker='+')
plt.show()

在这里插入图片描述

从上图可以看出,比较相似的单词距离较近(虽然降维后不太明显)。

训练自己的Word2Vec模型

sentences = [
    ['I', 'like', 'dog'],
    ['I', 'like', 'cat'],
    ['I', 'go', 'to', 'school', 'by', 'bus'],
    ['I', 'go', 'to', 'work', 'by', 'subway'],
]  # 分好词的句子
"""
vector_size: 要将单词转化为多少维的向量
min_count: 当语料库中某个单词出现的次数小于min_count时,忽略该单词
window: 训练时,会考虑该单词的上下文。window表示考虑几个单词。一般情况下,该值越大,训练耗时越长,效果越好。
"""
model = gensim.models.Word2Vec(sentences=sentences, vector_size=10, min_count=1, window=2)
model.wv['dog'] # 获取dog单词的词向量
array([-0.08619688,  0.03665738,  0.05189884,  0.05741937,  0.07466917,
       -0.06167676,  0.01105614,  0.06047282, -0.02840052, -0.06173522],
      dtype=float32)
print("dog和cat的相似度:", wv.similarity('dog', 'cat'))
print("bus和subway的相似度:", wv.similarity('bus', 'subway'))
print("dog和bus的相似度:", wv.similarity('dog', 'bus'))
dog和cat的相似度: 0.7609457
bus和subway的相似度: 0.4529537
dog和bus的相似度: 0.16011381
  • 6
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

iioSnail

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值