- 博客(39)
- 收藏
- 关注
原创 pytorch: 四种方法解决RuntimeError: CUDA out of memory. Tried to allocate ... MiB
Bug:RuntimeError: CUDA out of memory. Tried to allocate … MiB解决方法:法一:调小batch_size,设到4基本上能解决问题,如果还不行,该方法pass。法二:在报错处、代码关键节点(一个epoch跑完…)插入以下代码(目的是定时清内存):import torch, gcgc.collect()torch.cuda.empty_cache()法三(常用方法):在测试阶段和验证阶段前插入代码 with torch.no_gr
2021-07-06 20:44:08 190636 69
原创 SentiBank Dector上手指南
官网链接:https://www.ee.columbia.edu/ln/dvmm/vso/download/sentibank.htmlSentiBank Detector可以抽取图片中的形容词-名词对,之前一直看到,这次复现模型才第一次用到,上手的时候有点手足无措,因为官网在如何使用方面说的不是很清楚,但是用完发现也挺简单,这里记录一下。
2023-04-29 15:00:27 1523 4
原创 TensorboardX:如何在pytorch上画loss曲线图 | TensorboardX入门使用指南
TensorboardX入门使用指南
2022-07-05 14:53:57 5025
原创 论文阅读:An Empirical Study of Training End-to-End Vision-and-Language Transformers
摘要提出Multimodal End-to-end TransformER framework,即METER,通过这个框架研究如何以一个端到端的方式( in an end-to-end manner )设计和预训练一个完全基于transformer的视觉语言模型。端到端指的是输入是原始数据,输出是最后的结果,整个模型过程相当于黑箱操作;相反,非端到端的方法,数据的预处理部分是单独的模块,需要人工处理(如人工标注数据,人工提取图片特征)(笔者注)具体地,模型从多个维度被解剖(dissect)为:视
2022-02-25 18:52:40 2868
原创 Jupyter Notebook对数据集进行数据分析 数据统计(含:样本数量/样本长度/样本长度分布图/示例样本打印)
以下内容可直接以写入.ipynb文件的形式,放入服务器上任意已准备好数据集的文件夹下:导入模块import osimport jsonimport refrom collections import defaultdict绘图函数def draw(dic): #输入样本数量统计字典 import numpy as np import matplotlib.pyplot as plt from matplotlib.ticker import MaxNLocat
2022-02-25 12:30:15 5802
原创 多模态bert的变形:VisualBERT 和 BERT 的异同
BERTVisualBERT备注全称Bidirectional Encoder Representations from Transformers区别于传统Transformer使用 双向 (bidirectional) self-attention集成了 BERT, Transformer-based model for NLP, object proposals systems such as Faster-RCNN预训练数据集wikiCOCO ima...
2021-12-18 16:29:53 940
原创 跑通mmf:visualBert实现过程
使用代码github链接:https://github.com/di-dimitrov/propaganda-techniques-in-memes该代码相当在mmf-master上展开自己的任务,之前想直接跑通facebook的MMF,但是在环境配置问题上屡屡碰壁,后来被推荐了这套代码,才跑通了visualBert模型。实现过程1 将项目下载并存放到服务器2 Install MMFPrerequisites - generating image caption features for Vi
2021-12-13 10:14:23 2677 4
原创 使用os.path.join无效/不起作用的原因
os.path.join(a,b)在以下情况下会起不到连接作用,并返回b:a,b中存在一个为绝对路径,即不是patha/pathb的形式,而是/patha/pathb的形式
2021-11-30 10:57:28 2141
原创 解决合并压缩包分卷无法解压 错误信息:文件格式未知或者压缩文件数据已经损坏
问题起因:我想要获取Semantic Image-Text-Classes - Datasets - Forschungsdaten-Repositorium der LUH (uni-hannover.de)中的数据集,该数据集的train被分为了49个分卷,当我按照他的要求下载了所有的分卷并执行cat train.tar.part* > train_concat.tar合并分卷后,却无法打开或解压压缩包,报错内容如下(打开压缩包时弹出错误):(文件格式未知或者压缩文件数据已损坏。)最后
2021-11-25 10:12:41 10947
原创 matplotlib使用(二):绘制一个简单的双柱状图
import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.ticker import MaxNLocatorfrom collections import namedtuplefig, ax = plt.subplots()n_groups = 6 #列数data1=(6,8,10,12,14,16) #柱状1的每一列对应的数据data2=(7,8,9,13,13,15) #柱状2每一列对应的数据bar_width
2021-11-23 16:39:38 3162
原创 matplotlib使用(一):绘制一个简单的柱状图
import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.ticker import MaxNLocatorfrom collections import namedtuplefig, ax = plt.subplots()n_groups = 6 #列数data=(6,8,10,12,14,16) #每一列对应的数据index=('a','b','c','d','e','f') #横坐标bar_width = 0.
2021-11-23 15:57:57 1049
原创 对image caption任务做evaluation(计算Bleu1,Bleu2,Bleu3,Bleu4,METEOR,ROUGE_L,CIDEr)
用到一两个image caption任务的模型,模型中没有给出性能评估的方法,于是在github上找到了一个能够评估image caption的模型,该模型能够提供常见的评价指标的结果,包括Bleu1,Bleu2,Bleu3,Bleu4,METEOR,ROUGE_L,CIDEr,SkipThoughtsCosineSimilarity,EmbeddingAverageCosineSimilarity,VectorExtremaCosineSimilarity,GreedyMatchingScore。git
2021-11-23 15:29:37 1397
原创 AdaptiveAvgPool2d理解(中网、外网整合)
结合中网和外网关于pytorch的AdaptiveAvg2d的优秀解答,并结合自己的理解,分析了AdaptiveAvg2d和一般池化的区别,并举实例帮助理解。
2021-11-12 15:51:18 24752 5
原创 影响pytorch、cuda实现的一些原因
最近在给实验配置环境的过程中,频繁的碰到cuda错误,故记录最近的一些错误经验。首先,pytorch一定要和cuda版本对应,具体查看官网在显卡Tesla K40m上,即使使用了cuda10.1和其对应的torch == 1.6.0+cu101,也无法正常使用,报错RuntimeError: CUDA error: no kernel image is available for execution on the device,原因是Tesla K40m的算力为3.5,而pytorch1.3+要求算力
2021-10-12 15:32:35 610
原创 非root用户升级gcc至5.4.0完整流程及bug处理
原gcc版本4.8.5,模型要求gcc5+,故升级至gcc==5.4.0.安装流程:gmp-6.1.0mpfr-3.1.4mpc-1.0.3gcc-5.4.0一般教程会直接安装gcc-5.4.0,但是会在安装过程中报错:所以直接提前安装前三个。1. 安装gmp-6.1.0下载链接: https://gcc.gnu.org/pub/gcc/infrastructure/gmp-6.1.0.tar.bz2将下载好的安装包放在当前文件夹下。解压文件夹:tar -jxvf gmp-6
2021-10-12 11:01:57 1510
原创 跑通AttnGAN (Python 3, Pytorch 1.0) -- coco
目标:使用预训练模型,将指定的caption全部生成句子。1 按要求安装包,并在执行过程中补缺In addition, please add the project folder to PYTHONPATH and pip install the following packages:python-dateutileasydictpandastorchfilenltkscikit-image2 下载数据集Download our preprocessed metadata f
2021-09-14 15:48:02 2796 27
原创 linux下用.sh文件执行python命令
标准版假设,在终端要执行的命令是:python main.py首先在执行目录下创建test.sh(文件名自定义)文件并在test.sh文件中写入:python main.py保存。在终端执行:chmod a+x test.sh以上命令使test.sh成为可执行文件。再在终端执行:sh test.sh即可用sh命令执行python main.py。进阶版在.sh文件中输入更多内容实现调参过程,具体语法参考shell指令。for循环将test.sh 文件中的内容改为:f
2021-08-26 10:49:39 25164
原创 numpy常用知识(自用持更)
1 生成随机矩阵import numpy as npword=np.random.rand((dim,)) #0-1之间的随机数填充2 拼接另个numpy,效果类似于列表拼接c=np.concatenate((a,c), axis=0)eg:a=[[1,2,3],[2,3,4]]b=[[4,5,6],[6,7,8]]=>c=[[1,2,3],[2,3,4],[4,5,6],[6,7,8]]效果等同于:c=np.append(a,b)3 模型输出预测结果时使用y_pr
2021-08-09 16:27:58 84
原创 python:向word中写入文本和图片
安装python包pip install python-docximport python包from docx import Documentfrom docx.shared import Inches#eg:doc=Document() #开头:声明一个doc文件...doc.save('sentimentCasedStudy.docx') #结尾:定义文件名并保存实例:向doc中写入文本和图片doc=Document() #声明一个doc文件doc.add_paragrap
2021-07-26 20:56:57 1413
原创 在pytorch中如何使用lmdb
总述1、lmdb使用源码github链接:pytorch_lmdb_imagenet2、使用方法:①先修改folder2lmdb.py文件中的folder2lmdb函数将图片文件夹转化为lmdb文件;②再在实际实验中,修改 ImageFolderLMDB类,将现成的lmdb文件转化为dataset,方便后续读取。folder2lmdb.py完整源码及具体修改如下:import部分import osimport os.path as ospfrom PIL import Imageim
2021-07-14 16:43:23 3454
原创 pytorch常用知识(自用持更)
pytorch & cuda & torchversion 对应表上图参考CSDN图片来源github使用gpu运行程序device = torch.device('cuda:0')#并在每个数据和模型后添加.to(device)Bug解决:RuntimeError: CUDA out of memory. Tried to allocate … MiB法一:调小batch_size,设到4基本上能解决问题,如果还不行,该方法pass。法二:在报错处、代码关键节点(
2021-07-06 20:50:52 517
原创 机器学习实践:中文文本预处理(词袋模型/TF-IDF)
目标:为了实现利用贝叶斯模型进行新闻文本主题分类,对中文文本进行预处理。步骤1.准备2.创建停用词词典3.定义Document类(可省)4.序列化标签 载入数据5.创建词典6.文本向量化方法一:one-hot 表达方法方法二:词袋模型方法三:TF-IDF7.打乱数据集8.划分训练集、测试集,训练模型。(略)1.准备1/ 环境win10 64位anaconda3pycharm 2017...
2020-03-20 22:46:14 3635 1
原创 python爬虫:关于解决request.get和点击查看网页源代码的内容不同的问题//及大神版js加密参数获取教程指路
首先声明:爬虫小白,虽然爬过几个网站,但是知识几乎都是实践中获取,如果以下说的不对的,请多指正,谢谢!谨此给和我一样的小白提供一个解题思路!目录问题背景解决方案附:excel的下载方式问题背景这两天在做一个爬虫项目,要求爬取页面的附件(excel)并保存,在用分析得到的request url中的k值在源代码中搜索时,幸运的定位到网页源码中隐藏了url信息,确定了爬虫方案。如下:照原理,我...
2020-02-15 12:19:04 5948
原创 将老电脑从windows xp系统升级到10//将win10 32位系统更为64位
step1 了解电脑配置我家里的老电脑是初中的时候买的,高中又修过,所以配置不算太低。xp系统中可通过在 开始>运行>输入dxdiag 查看电脑配置。我的电脑配置:处理器 Intel® Core™ i3-3210 CPU @3.20GHz (4 CPUs)内存 3486MB RAMDirectX 版本 DirectX 9.0c显示器 1280 x 800 (32 bit)...
2020-02-09 10:15:51 8183 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人