pytorch Glove 下载到使用

最新推荐文章于 2023-12-09 20:23:13 发布

今天也是要加油的DD

最新推荐文章于 2023-12-09 20:23:13 发布

阅读量2.6k

点赞数 1

分类专栏： Pytorch 代码

本文链接：https://blog.csdn.net/weixin_48354103/article/details/113755347

版权

本文档介绍了如何在PyTorch中使用预训练的GloVe词向量，包括从GloVe官网下载、解压文件、提取词表和词向量并保存，以及直接从GloVe文件中提取词表的方法。

摘要由CSDN通过智能技术生成

ref：Basics of Using Pre-trained GloVe Vectors in Python.

1. 下载

从 glove官网获取下载地址

# 下载glove文件
import urllib 
import requests
urllib.request.urlretrieve('https://nlp.stanford.edu/data/wordvecs/glove.840B.300d.zip', "glove.840B.300d.zip")

2. 解压 glove文件

压缩解压zip可参考: Python压缩解压zip文件

# 解压 glove文件

import os
import shutil
import zipfile
from os.path import join, getsize

def unzip_file(zip_src, dst_dir):
    r = zipfile.is_zipfile(zip_src)
    if r:     
        fz = zipfile.ZipFile(zip_src, 'r')
        for file in fz.namelist():
            fz.extract(file, dst_dir)       
    else:
        print('This is not zip')

unzip_file('./glove.840B.300d.zip','./glove.840B.300d')

解压后
在这里插入图片描述

glove.twitter.27B.zip 解压后有4个文件，其中的embed维度不一样。分别为25，50，100，200 维
在这里插入图片描述

注：gensim.downloader 中有很多数据和词向量资源:

import gensim.downloader as api
api.info()

3. 提取词表和词向量并保存

这个过程逐行读取，有点久

# 提取word-embedding matrix
import numpy as np
import scipy
import sklearn
import pickle

dir_glove = './glove.840B.300d//glove.840B.300d.txt'
words = ['PAD']
embeds = np

最低0.47元/天解锁文章

今天也是要加油的DD

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
4
评论
pytorch Glove 下载到使用

ref：Basics of Using Pre-trained GloVe Vectors in Python.1. 下载从 glove官网获取下载地址# 下载glove文件import urllib import requestsurllib.request.urlretrieve('https://nlp.stanford.edu/data/wordvecs/glove.840B.300d.zip', "glove.840B.300d.zip")2. 解压 glove文件压缩解压zi
复制链接

扫一扫