利用Word2Vec在语料中构建种子词集同类词

本文介绍了如何使用gensim的Word2Vec模型在语料库中构建种子词集的同类词。首先从已打标签的语料中提取关键词作为种子词集,然后通过训练的词向量模型计算词汇相似度,从而找出全量语料中的同类词。数据处理包括去停用词和去除干扰词,并展示了如何使用`most_similar()`方法获取最高相似度的词汇。
摘要由CSDN通过智能技术生成

nlp小白努力探索的第n天......

今天记录和分享利用gensim.model.word2vec.Word2Vec在语料中构建种子词集同类词

先说明任务情况:

全量语料数据中包含:已打标语料,未打标语料。从已打标语料中提取出关键词,我们将这部分词汇成为种子词集。现需要从全量语料数据中找到种子词集的同类词。

步骤:

1)对语料库建立word2vec词向量模型;

2)利用 gensim.model 联动的词汇相似度计算方法,以种子词集作为研究对象在语料库中找出同类词。

数据展示:

文件名:userdic

可以发现,userdic中的词汇其实应该叫做phrase(短语),分词处理后会出现无效词,比如“了”,因此需要进行去停用词和去除干扰词的处理。

代码:

导入所需的库文件

# -*- coding: utf-8 -*-

import math

import jieba
import jieba.posseg as psg
from
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值