GloVe训练中文词向量

1.准备语料
准备好自己的语料。保存为txt格式,每行一个句子,分好词,并以空格进行分割(" “.join(seg1))
2.代码
从GitHub下载代码斯坦福训练Glove
将corpus.txt放入GloVe的主文件下。
在这里插入图片描述
3.修改文件
(1)将上述demo.sh文件中的"make"下的内容注释掉(源码是下载text8语料文件)
(2)修改下图中三个地方的内容(300,8)效果要好(据说)
CORPUS=text8 要生成词向量的文本 VOCAB_FILE=vocab.txt 得到的词和词频 COOCCURRENCE_FILE=cooccurrence.bin COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin BUILDDIR=build SAVE_FILE=vectors VERBOSE=2 MEMORY=4.0 内存 VOCAB_MIN_COUNT=5 最小词频数 VECTOR_SIZE=50 词向量维度 MAX_ITER=15 训练迭代次数 WINDOW_SIZE=15 上下文窗口数 BINARY=2 保存文件类型(2进制) NUM_THREADS=8 线程数 X_MAX=10
在这里插入图片描述
4.训练词向量
(1)进入主文件下:“make”
(2)然后”./demo.sh"
之后会生成vectors.txt和vectors.bin文件
5.将vectors.txt文件修改成Gensim可以使用的文件
在文件的额第一行加入vacob_size空格vector_size,这样才能用word2vec的load函数加载成功
我的数据:178633 50

参考文章:添加链接描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
你可以在以下网站下载GloVe训练词向量: 1. Stanford NLP Group:https://nlp.stanford.edu/projects/glove/ 2. GitHub:https://github.com/stanfordnlp/GloVe 选择下载你需要的词向量,比如说GloVe.6B,它包含了600000个词汇的向量,每个向量的维度为300。下载完成后,将解压后的文件保存为.vec格式即可。以下是一个示例代码: ``` python import urllib.request # 下载GloVe训练词向量 url = 'http://nlp.stanford.edu/data/glove.6B.zip' urllib.request.urlretrieve(url, 'glove.6B.zip') # 解压文件 import zipfile with zipfile.ZipFile('glove.6B.zip', 'r') as zip_ref: zip_ref.extractall('glove.6B') # 将词向量保存为.vec文件 import os import numpy as np def save_word_vectors_to_file(file_path, word_vectors): with open(file_path, 'w', encoding='utf-8') as f_out: for word, vector in word_vectors.items(): vector_str = ' '.join([str(val) for val in vector]) f_out.write(f"{word} {vector_str}\n") def load_word_vectors_from_file(file_path): word_vectors = {} with open(file_path, 'r', encoding='utf-8') as f_in: for line in f_in: parts = line.strip().split() word = parts[0] vector = np.array([float(val) for val in parts[1:]]) word_vectors[word] = vector return word_vectors glove_file = 'glove.6B/glove.6B.300d.txt' word_vectors = load_word_vectors_from_file(glove_file) save_word_vectors_to_file('glove.6B/glove.6B.300d.vec', word_vectors) ``` 这个代码会从Stanford NLP Group的网站下载GloVe.6B预训练词向量,解压文件,然后保存为.vec格式。你可以更改文件路径和下载的词向量类型来适应你的需要。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值