RPA手把手——python 词向量训练聚类

本文介绍了使用Python的Gensim库进行词向量训练和聚类分析的过程,包括数据预处理、训练Word2Vec模型、保存和加载模型,以及展示模型的相似词结果。
摘要由CSDN通过智能技术生成

艺赛旗 RPA9.0全新首发免费下载 点击下载

http://www.i-search.com.cn/index.html?from=line1

python 词向量训练 以及聚类
#!/usr/bin/env Python3
author = ‘未昔/angelfate’
date = ‘2019/8/14 17:06’

-- coding: utf-8 --

import pandas as pd
import jieba,re,os
from gensim.models import word2vec
import logging

class Word2Vec_Test(object):
def init(self):
self.csv_path = ‘DouBanFilm_FanTanFengBao4.csv’
self.txt_path = ‘comment.txt’

	```

首先提取 csv的 评论列内容,到txt

1、读取txt评论内容

def read_file(self):
    """
    训练模型
    :return:
    """
    # jieba.load_userdict(self.txt_path)

    logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO,
                        filename='test_01.log')
    filename = self.txt_path  # 测试文本
    pre, ext = os.path.splitext(filename)  # 输入文件分开前缀,后缀   pre=test_01   ext=.txt
    corpus = pre + '_seg' + ext  
    fin = open(filename, encoding='utf8').read().strip(' ').strip('\n').repl
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值