1、 词语截图如下
二. 需注意的是:
- word2vec 向量化的内容,可以将单个词的文见内容传入,也可以存在短句,但是向量化过程中都会将其拆分为单个单词并且向量话
下图为:存在短句,但是没有去stopwords
下图为分词且去除stopwords
一般而言 ,去除停止词后效果更佳
3 代码如下:
注:本文参考 --原文链接:https://blog.csdn.net/weixin_45314989/article/details/104390725
真心感谢 (:)
1. 导入所需模块
import sys
import gensim
import numpy as np
import pandas as pd
from gensim.models.word2vec import Word2Vec
from sklearn.cluster import KMeans
from gensim.models.word2vec import LineSentence
Word2vec 自带的预训练集有三个,我采用LineSentence
2. 内容的读取和处理 ,因为Nltk的模块使用不熟练,所以采用for循环遍历拆分单词和停止词去除
path="C:/Users/Administrator/Desktop/自然语言/屏蔽词.xlsx"
data=pd.read_excel(path)
print('开始写入txt文件...')
data.to_csv('file2.txt', header=None, sep=',', index=False)
print('文件写入成功!')
循环遍历拆分和去除
name=[]
j=1
data = open("file2.txt", 'r', encoding='utf-8')
for line in data.readlines():
line = line.replace('\n', '')
print(line)
print(j)
j+=1
if len(line)>1:
s=line.split(" ")
for i in s:
if i not in name:
name.append(i)
else:
if line not in name:
name.append(line)
path1="C:/Users/Administrator/Desktop/自然语言/链接词.xlsx"
data1=pd.read_excel(path1)
word_list=data1["d"