自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 deepspeed 报错:AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘

报这种错一般是CUDA版本和torch版本不匹配,torch版本一般高于CUDA版本。解决方案:参考我的这篇文章安装对应torch。

2025-06-07 12:43:29 214

原创 【deepspeed使用报错】AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘

报错:AttributeError: ‘DeepSpeedCPUAdam’ object has no attribute ‘ds_opt_adam’降低torch版本,参考我之前的一篇博客,降低到2.1.2。

2025-05-07 13:35:43 208

原创 Tensors of the same index must be on the same device and the same dtype except `step` tensors that

如果是一张卡微调出现这个问题可能是step dtype的问题,参考https://github.com/pytorch/pytorch/issues/127197,一般出现在torch版本较低的时候,升级torch就能解决。参考 https://github.com/pytorch/pytorch/issues/140471 ,将transformer版本降低到。

2025-03-24 10:27:01 185

原创 一个大模型里面都有啥

在下载模型的时候,会有几个g的.safetensors文件,也会有几kb的tokenizer_config.json文件,曾经因为漏下了几个看似很小的文件而报错,今天决定整理一下这几个文件的用途。这里以stanford_alpaca的huggingface界面为例子。

2025-01-01 20:15:53 818

原创 he attention mask is not set and cannot be inferred from input because pad token is same as eos toke

重点在 input_ids = tokenizer.encode(prompt, return_tensors=‘pt’) 这一行,使用tokenizer.encode只会返回input_ids,使用tokenizer(prompt, return_tensors=‘pt’) 则会同时返回input_ids和attention_mask。

2024-12-16 19:35:45 1384

原创 无法打开笔记本编辑器类型为“jupyter-notebook”的资源,请检查是否已安装并启用正确的扩展

输出以下内容,点击网址应该就能到jupyternotebook页面。尝试了其他博客中的更换拓展版本的办法,还是没有解决。在服务器端中一直打不开jupyter notebook文件。但我直接在vscode中试图打开.ipynb文件还是报错。确保安装了python等基础环境。

2024-12-15 21:15:27 535

原创 size mismatch for base_model.model.model.embed_tokens.weight: copying a param with shape torch.Size

发现原本的vocab_size是128256,但是微调的时候出现了。暂时没有找到根源问题。

2024-12-12 22:09:00 770

原创 prompt提示工程科普:stanford_alpaca,vicuna,llama

之前看代码都比较粗,没太注意提示工程,昨天花了时间搜集整理了一下。我理解的template是针对一组(ins,input(可选),output)对,模型如何去组织,利用template去format一种可学习的“知识”。对stanford_alpaca而言,他使用了alpaca数据集,提出了standford_alpaca的template,同时利用这个 数据+模板 微调了一个模型ALPACA。

2024-11-23 18:08:25 430

原创 交叉熵,困惑度与llm推理得到答案prob概念辨析

最近在比较IFD与Nuggets方法,在最后之间快绕晕了,试着去辨析一下。

2024-11-13 20:52:35 346

原创 MLTD计算方法

MTLD 是一种用于衡量文本词汇多样性的指标,通过维持文本的 TTR(类型与词汇比,Type-Token Ratio)在 0.72 左右来避免因文本长度影响词汇多样性测量的稳定性。其计算过程主要分为几个步骤。

2024-11-07 20:48:26 731

原创 data selection调研(ml&llm) SPECULATIVE CORESET SELECTION FOR TASKSPECIFIC FINE-TUNING

感觉这篇论文的创新点EL2N的基础上maintain了diversity,至于效率还是不高,毕竟涉及到梯度计算。Bioinstruct dataset 25k数据量需要花llama-13b需要4.9h,相比EL2N 6.5h感觉并没有提升特别多。有点没弄清楚这种方法具体用在哪比较好,如果说希望小模型能够用那最开始已经用full data finetune了,难道是更小的模型吗?etc。

2024-10-30 23:12:20 1004

原创 data selection调研(ml&llm) -01 SelectIT: Selective Instruction Tuning for Large Language Models

​最近在调研data selection方向的一些论文,machine learning和llm都有看。看的比较粗,主要看motivation,解决方法和结果,会逐期更新~

2024-10-29 23:19:13 986

原创 VScode调试需要处理argparser输入

VScode调试需要处理parser输入

2024-09-26 17:18:16 247

原创 vscode在虚拟环境下调试

远程服务器在虚拟环境中调试

2024-09-26 16:54:15 485

原创 mac下设置ssh免密码登陆

mac ssh免密码登录

2024-09-26 15:14:53 718

原创 The detected CUDA version (11.8) mismatches the version that was used to compile

安装包时候出现这样的问题。

2024-07-08 16:39:36 3401

原创 VS Code连接服务器,Ctrl + 点击 无法跳转至函数底层 &vscode远程安装插件安装太慢问题

出现 ctrl+代码无法跳转问题,查看右下角代码解释器,只有一个python,无法选择具体的解释器,vscode安装拓展慢

2024-06-13 11:52:26 649

原创 conda 包不一致问题The following packages are causing the inconsistency

如图,执行命令时出现了包不一致的问题,参考了。的方法,删除pkgs下的包重新安装没有作用,

2024-05-02 16:49:44 843 1

原创 Ubuntu非root用户出现tmp空间不足

2023-03-16 16:18:55 247

原创 Ubuntu非Root用户报错ModuleNotFoundError: No module named ‘_ctypes‘解决

在服务器跑代码时,报 '_ctypes’错误,查了一下发现是缺少libffi-devel库的原因。CSDN上大多数解决方案为直接sudo apt-get install libffi-dev,但由于没有sudo权限,尝试源码安装的办法。根据服务器类型的不同选择不同的版本,我是Ubuntu服务器,所以下载deb版。如果是linux服务器则下载rpm版本。在原来解压Python的目录下。安装后对deb命令解压。

2023-03-15 19:28:37 2519

原创 hdu 1043/poj 1077八数码问题 BFS+康托展开求解

hdu1043求解

2022-08-23 15:46:04 166

原创 Hdu 1240 Asteroids题解

Hdu杭州电子科技大学OJ 1240题解

2022-08-21 16:48:59 315

原创 HDU 1716 排列2

Hdu 杭电 1716题

2022-08-20 18:59:01 89

原创 ++k与k++区别 和双目运算符结合

k++与++k区别

2022-08-20 18:17:48 3831

转载 一致性hash图解-初学者易懂

一致性Hash图解-初学者易懂注:转自https://www.zsythink.net/archives/1182在了解一致性哈希算法之前,最好先了解一下缓存中的一个应用场景,了解了这个应用场景之后,再来理解一致性哈希算法,就容易多了,也更能体现出一致性哈希算法的优点,那么,我们先来描述一下这个经典的分布式缓存的应用场景。场景描述假设,我们有三台缓存服务器,用于缓存图片,我们为这三台缓存服务器编号为0号、1号、2号,现在,有3万张图片需要缓存,我们希望这些图片被均匀的缓存到这3台服务器上,以便它们能

2021-11-01 11:18:19 270

原创 编程计算器-表达式求值(浮点数、标识符的实现)-顺序表链表实现-同维度向量运算-C语言

#include <stdio.h>#include <stdlib.h>#include<math.h>#define LIST_INIT_SIZE 100#define LISTINCREMENT 10#define STACK_INIT_SIZE 100#define STACKINCREMENT 10typedef struct{ int *elem; int length; int listsize;}Sqlist; //线性表的顺序表储

2020-10-31 23:00:50 1293

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除