Word2Vec的简单运用

Word2Vec的简单运用

以爬取的电影评论为例,主体思想是先用jieba对每段评论进行分词jieba.lcut(data),每处理一段评论用list.append()方法一个个存入形成一个二维数组

import jieba
raw_word_list = []
with open('pinglun.txt','r',encoding = 'utf-8') as f:
    line = f.readline()
    while line:
        if '\n' in line:
            line = line.replace('\n','')
        if ' ' in line:
            line = line.replace(' ','')
        if len(line)>0:
            raw_words = jieba.lcut(line,cut_all=False)
            raw_word_list.append(raw_words)
        line = f.readline()

下载gensim库

pip install gensim

引入Word2Vec进行模型训练

#训练模型
from gensim.models import Word2Vec
model = Word2Vec(raw_word_list,min_count=1)

显示与’word’最接近的的十个词

# 计算余弦距离最接近'word'的topn个词
for key in model.wv.similar_by_word('萧炎', topn = 10):
    print(key)

计算两个词的余弦相似度

# 基于词向量计算两个词的余弦相似度
model.wv.similarity('前者','后者')

计算两个集合的相似度

# 计算两个集合的相似度
model.n_similarity(list1,list2)

保存模型

model.save('xxx.word2vec.model')

加载模型

model = Word2Vec.load('xxx.word2vec.model')

在模型中增加词向量

model.train(cutdata, total_examples = model.corpus_count+'词个数', epochs = model.iter)

Word2Vec参数介绍
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值