pytorch Glove 下载到使用

ref:Basics of Using Pre-trained GloVe Vectors in Python.

1. 下载

glove官网 获取下载地址

# 下载glove文件
import urllib 
import requests
urllib.request.urlretrieve('https://nlp.stanford.edu/data/wordvecs/glove.840B.300d.zip', "glove.840B.300d.zip")

2. 解压 glove文件

压缩解压zip可参考: Python压缩解压zip文件

# 解压 glove文件

import os
import shutil
import zipfile
from os.path import join, getsize

def unzip_file(zip_src, dst_dir):
    r = zipfile.is_zipfile(zip_src)
    if r:     
        fz = zipfile.ZipFile(zip_src, 'r')
        for file in fz.namelist():
            fz.extract(file, dst_dir)       
    else:
        print('This is not zip')

unzip_file('./glove.840B.300d.zip','./glove.840B.300d')

解压后
在这里插入图片描述

glove.twitter.27B.zip 解压后有4个文件,其中的embed维度不一样。分别为25,50,100,200 维
在这里插入图片描述

注:gensim.downloader 中有很多数据和词向量资源:

import gensim.downloader as api
api.info()

3. 提取词表和词向量 并保存

这个过程逐行读取,有点久

# 提取word-embedding matrix
import numpy as np
import scipy
import sklearn
import pickle

dir_glove = './glove.840B.300d//glove.840B.300d.txt'
words = ['PAD']
embeds = np
  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值