自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 Huggingface报错

data_collator要对dataset中的所有列做填充,对于input_ids, attention_mask, labels 模型知道如何pad(因为他们是列表或者张量),但是对于text和label来说,他们是字符串,模型不知道该怎么填充。

2024-03-07 14:35:39 297

原创 transformers Trainer自定义optimizer和scheduler

我自定义了一个evaluate方法,想在每一轮训练过后都执行一次。如果只是在TrainingArguments里设置warmup_steps=100,那么每轮都会重置学习率,可以通过自定义optimizers的方法来解决

2024-01-03 16:57:42 640

原创 huggingface中Trainer设置了compute_metric后爆显存

我使用huggingface的Trainer,利用Lora微调Llama2模型,在我设置了compute_metrics属性后,出现Out of memory。

2023-12-25 14:11:41 976

原创 关于语言模型中CE loss的解释

我发不出论文

2023-09-30 17:40:05 179

原创 from_pretrained模型权重无法复制

如果我们让一个类继承了PretrainedModel,并对它调用from_pretrained方法,它的权重是在构造方法(__init__)方法执行过后才赋给了相应的模块,所以如果我们试图在构造方法里面获取某部分的权重,则只会得到一个随机权重。则会发现并没有成功复制,而是获得了一个随机初始化的权重。如果想要成功复制,则需要在执行过from_pretrained后才进行调用。

2023-09-25 14:23:54 152

原创 pycharm 没有project mapping

原因是新版的pycharm将设置mapping的地方放到了添加Interpreter里面。点击Add Interpreter选项。Sync folders极为路径映射。

2023-09-14 13:24:26 204

原创 pytorch中batch_size不起作用且会固定为某个值

奇怪的batch size修改了之后没有用,一个batch大小固定为某个值的bug

2023-08-29 15:10:18 86

原创 Assertion `index >= -sizes[i] && index < sizes[i] && “index out of bounds“` failed.

operator(): block: [0,0,0], thread: [5,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed.的一种解决方案

2023-07-01 20:52:51 670

原创 Mimicking the Thinking Process for Emotion Recognition in Conversation with Prompts and Paraphrasing

文章给我最大的启发在于给了很多细粒度或者说“会被忽略的”的知识的利用方法,例如如何利用说话人的背景知识,如何让情感标签之间的区别更大。

2023-06-18 17:59:10 163 2

原创 BERTScore——一种衡量两段文本相似度的方法

【代码】BERTScore——一种衡量两段文本相似度的方法。

2023-06-18 16:24:52 1747 7

原创 论文笔记——Generating Training Data with Language Models:Towards Zero-Shot Language Understanding

这篇文章探讨的是如何提升”某种意义上“的zero-shot性能。重点讨论的是双向模型的NLU(自然语言理解)性能。

2023-05-26 16:25:46 331 2

原创 GPT3:让我们发现了大模型的伟力

正常来讲,如果模型完全没有见过任何明确的该任务的样例,它应该无法成功的推理出结果,但在模型参数由1.3B到13B,在Number of Example为0时居然也有0以上的性能,而当参数量达到175B时,其性能居然开始可观,这是一件极其离谱的事情。在大量参数及数据的堆砌下,模型神奇的拥有了zero-shot的能力,也就是我们并不需要给模型样例,模型就能有一定的推理能力得到结果(当然,结果必然是不如one-shot和few-shot)。这就意味着,大模型的性能固然重要,那么,代价是什么呢?

2023-05-17 17:41:19 162

原创 如何利用huggingface训练自回归语言模型

然后获得我们所需的输入,要注意的是如果采用的是Encoder-Decoder架构,例如T5,input_ids对应的就是对话历史的编码,labels对应的就是回复的编码。对于自回归语言模型(例如GPT-2),input_ids是对话历史与回复编码的concate,labels是将input_ids中的context部分变为-100后的tensor(也就是只保留response部分,其余为-100).前者为对话历史,后者为对应的回复,我们首先要做的是加载模型,将两句话进行编码。

2023-05-13 12:42:26 343

原创 distinct指标计算代码

distinct指标代码

2023-04-08 17:09:04 182

原创 论文阅读笔记——Tailor: A Prompt-Based Approach to Attribute-Based Controlled Text Generation

多属性的可控文本生成介绍

2023-04-08 16:56:11 228

原创 distinct指标计算

distinct-n多样性指标介绍及举例计算

2023-03-26 19:51:47 689

原创 huggingface评测bleu下载脚本超时

huggingface使用evaluate评估bleu下载超时的解决方案

2023-03-23 17:02:58 860 1

原创 RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`的可能解决思路:embedding维度错误,只要让对应的embedding和词表维度相对应就好

2023-03-11 18:02:07 2366

原创 论文笔记——EMPATHETIC RESPONSE GENERATION VIA EMOTION CAUSE TRANSITION GRAPH

该论文发表在ICASSP,即International Conference on Acoustics, Speech and Signal Processing,是IEEE名下的,很明显这并不是一个做文本的学术会议总体评价是:这不是一篇好的论文,只能是说思路可以看,但细节完全不忍直视。

2023-03-01 12:31:16 243 2

原创 pytorch repeat使用

pytorch repeat使用

2023-02-27 15:45:31 431

原创 每日一题——最长回文子串

leetcode——5.最长回文子串

2023-02-13 08:37:27 173

原创 每日一题——n数之和

两数之和,三数之和,直到n数之和

2023-02-10 18:33:28 154

原创 每日一题——电话号码的字母组合

leetcode——电话号码的字母组合

2023-02-09 10:49:36 59

原创 每日一题——盛最多水的容器

leetcode——盛最多水的容器

2023-02-08 16:26:23 62

原创 每日算法——无重复字符的最长子串

leetcode——3.无重复字符的最长子串

2023-02-07 21:16:27 46

原创 linux使用Python命令 print的内容不输出

nohup运行python,输出的日志只有一行的解决方案

2023-01-13 10:31:09 1567

原创 在IDE里正常但在命令行里出现ModuleNotFoundError

在IDE里正常但在命令行里出现ModuleNotFoundError的解决方法

2023-01-12 14:07:26 193

原创 如何使用已训练好的预训练词向量

使用别人预训练好的embedding向量文件,附示例代码

2022-12-24 17:38:33 1051 1

原创 检索用的指标

关于检索的一些指标

2022-11-06 17:29:37 177

原创 负采样及其在skip-gram中的实现

本文参考了李沐老师在《动手学深度学习》中的代码,加入了自己的理解,并绘制了网络结构图,希望能让各位更理解负采样在skip-gram中的应用。

2022-09-05 11:31:16 1465

原创 maxout网络结构

对ICML2013年的文章Maxout Networks原理做了解释,并总结了作者的基本思路。

2022-08-18 20:52:13 327

原创 统计自然语言处理自学笔记(1)

阅读宗成庆老师的书,阅读笔记第一部分——基本概念

2022-08-12 16:17:28 114

原创 【毕业了,但又没有完全毕】

四年!你知道这四年我是怎么过的吗!\滑稽

2022-06-30 16:32:38 339

原创 BSA编码及解码

BSA编码及解码代码

2022-06-03 17:38:40 738 10

原创 CMake 环境下的相对路径问题

cmake环境下可能出现的fprintf无法写入文件的问题。

2022-05-17 19:10:00 2226 1

原创 anaconda其他环境安装jupyter

默认anaconda是在base环境下安装了jupyter,而自己创建的其他环境并没有安装。有以下三个步骤1.激活你需要切换的环境,假设我需要使用的环境是ML_tensorconda activate ML_tensor2.安装ipykernelconda install ipykernel3.将你的环境添加进去(里面的--user和--name不要动)python -m ipykernel install --user --name ML_tensor三个步骤结束,重启a

2022-05-12 21:28:35 714 1

原创 波士顿儿童医院CHB-MIT癫痫数据集预处理-提取发作时间

提取波士顿儿童医院CHB-MIT数据集的发作时间

2022-02-20 10:58:36 3262 1

原创 keras中LSTM的输入问题

当LSTM在Sequential第一层时,需要设置它的输入形状,为[time_stamp,input_dim],举例来说,有一段数据如下:X = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])X = X.reshape(2,5,1)timesteps=5data_dim=1model = keras.Sequential()model.add(keras.layers.LSTM(32, return_sequences=True, input_shape=

2022-01-29 22:15:59 3117

原创 层次建立二叉树(类似于二叉树的层次遍历,使用队列)

联想二叉树的层次遍历,也就是弹出当前节点-处理当前节点-左孩子入队(非空)-右孩子入队(非空)。代码如下(使用c++,但基本用的是C语言的语法)typedef struct BiTNode{ TElemType data; struct BiTNode* lchild,*rchild;}BiTNode,*BiTree;Status CreateBiTree(BiTree &T){ char ch;int MaxSize=50; BiTree queuep

2021-08-19 19:46:31 529

癫痫脑电识别源码,涉及编码解码及使用方式

对应于本人博文中所写,但对于其中滤波器的参数相关设置我可能不太理解,希望读者能够尽量查阅相关资料后再看。

2023-01-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除