基于word2vec的k-means聚类

1.将txt文本用word2vec将每个词转换成词向量
2.将300维度的词向量用pca转换为2维
3.将2维的数据作为k-means聚类的输入

text.txt:作为训练的文本(最好是英文,如果是中文的话可以再用jieba库把中文解析)
word_model.txt:创建一个空的文本
data.csv:创建一个空的csv文件

#1。将文本的标点替换成空格
import re
import os
list=[',','?','.','?','!','*','(',')','“','”',':','"','`','\'']  ##要替换的标点符号做成一个列表
with open('text.txt','r') as f:                                  ##text.txt是用来训练的文本(英文小说)
    result = f.read()
    for i in range(len(list)):
        result=result.replace(list[i],' ')
    with open('text.txt','w') as w:
        w.write(str(result))



##2。wordvec2获取词向量
from gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
def wordsCluster(text, vectorSize):                              ##text:输入文本的本地路径 vectorSize:词向量大小(多少维度)
    name = []
    data = open(text, 'r', encoding='utf-8')
    for line in data.readlines():
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值