RPA手把手——python 词向量训练聚类

艺赛旗RPA

于 2019-08-15 16:02:37 发布

阅读量1.7k

点赞数 1

分类专栏： RPA教程 python基础 9.0版本体验文章标签： RPA 艺赛旗 Python

本文链接：https://blog.csdn.net/weixin_44447687/article/details/99640316

版权

本文介绍了使用Python的Gensim库进行词向量训练和聚类分析的过程，包括数据预处理、训练Word2Vec模型、保存和加载模型，以及展示模型的相似词结果。

摘要由CSDN通过智能技术生成

艺赛旗 RPA9.0全新首发免费下载点击下载

http://www.i-search.com.cn/index.html?from=line1

python 词向量训练以及聚类
#!/usr/bin/env Python3
author = ‘未昔/angelfate’
date = ‘2019/8/14 17:06’

-- coding: utf-8 --

import pandas as pd
import jieba,re,os
from gensim.models import word2vec
import logging

class Word2Vec_Test(object):
def init(self):
self.csv_path = ‘DouBanFilm_FanTanFengBao4.csv’
self.txt_path = ‘comment.txt’

```

`首先提取 csv的评论列内容，到txt`

1、读取txt评论内容

def read_file(self):
    """
    训练模型
    :return:
    """
    # jieba.load_userdict(self.txt_path)

    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO,
                        filename='test_01.log')
    filename = self.txt_path  # 测试文本
    pre, ext = os.path.splitext(filename)  # 输入文件分开前缀，后缀   pre=test_01   ext=.txt
    corpus = pre + '_seg' + ext  
    fin = open(filename, encoding='utf8').read().strip(' ').strip('\n').repl

最低0.47元/天解锁文章

艺赛旗RPA

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
RPA手把手——python 词向量训练聚类

艺赛旗 RPA9.0全新首发免费下载点击下载http://www.i-search.com.cn/index.html?from=line1python 词向量训练以及聚类#!/usr/bin/env Python3author = ‘未昔/angelfate’date = ‘2019/8/14 17:06’-- coding: utf-8 --import pandas as ...
复制链接

扫一扫