- 博客(26)
- 收藏
- 关注
原创 deepspeed 报错:AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘
报这种错一般是CUDA版本和torch版本不匹配,torch版本一般高于CUDA版本。解决方案:参考我的这篇文章安装对应torch。
2025-06-07 12:43:29
214
原创 【deepspeed使用报错】AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘
报错:AttributeError: ‘DeepSpeedCPUAdam’ object has no attribute ‘ds_opt_adam’降低torch版本,参考我之前的一篇博客,降低到2.1.2。
2025-05-07 13:35:43
208
原创 Tensors of the same index must be on the same device and the same dtype except `step` tensors that
如果是一张卡微调出现这个问题可能是step dtype的问题,参考https://github.com/pytorch/pytorch/issues/127197,一般出现在torch版本较低的时候,升级torch就能解决。参考 https://github.com/pytorch/pytorch/issues/140471 ,将transformer版本降低到。
2025-03-24 10:27:01
185
原创 一个大模型里面都有啥
在下载模型的时候,会有几个g的.safetensors文件,也会有几kb的tokenizer_config.json文件,曾经因为漏下了几个看似很小的文件而报错,今天决定整理一下这几个文件的用途。这里以stanford_alpaca的huggingface界面为例子。
2025-01-01 20:15:53
818
原创 he attention mask is not set and cannot be inferred from input because pad token is same as eos toke
重点在 input_ids = tokenizer.encode(prompt, return_tensors=‘pt’) 这一行,使用tokenizer.encode只会返回input_ids,使用tokenizer(prompt, return_tensors=‘pt’) 则会同时返回input_ids和attention_mask。
2024-12-16 19:35:45
1384
原创 无法打开笔记本编辑器类型为“jupyter-notebook”的资源,请检查是否已安装并启用正确的扩展
输出以下内容,点击网址应该就能到jupyternotebook页面。尝试了其他博客中的更换拓展版本的办法,还是没有解决。在服务器端中一直打不开jupyter notebook文件。但我直接在vscode中试图打开.ipynb文件还是报错。确保安装了python等基础环境。
2024-12-15 21:15:27
535
原创 size mismatch for base_model.model.model.embed_tokens.weight: copying a param with shape torch.Size
发现原本的vocab_size是128256,但是微调的时候出现了。暂时没有找到根源问题。
2024-12-12 22:09:00
770
原创 prompt提示工程科普:stanford_alpaca,vicuna,llama
之前看代码都比较粗,没太注意提示工程,昨天花了时间搜集整理了一下。我理解的template是针对一组(ins,input(可选),output)对,模型如何去组织,利用template去format一种可学习的“知识”。对stanford_alpaca而言,他使用了alpaca数据集,提出了standford_alpaca的template,同时利用这个 数据+模板 微调了一个模型ALPACA。
2024-11-23 18:08:25
430
原创 MLTD计算方法
MTLD 是一种用于衡量文本词汇多样性的指标,通过维持文本的 TTR(类型与词汇比,Type-Token Ratio)在 0.72 左右来避免因文本长度影响词汇多样性测量的稳定性。其计算过程主要分为几个步骤。
2024-11-07 20:48:26
731
原创 data selection调研(ml&llm) SPECULATIVE CORESET SELECTION FOR TASKSPECIFIC FINE-TUNING
感觉这篇论文的创新点EL2N的基础上maintain了diversity,至于效率还是不高,毕竟涉及到梯度计算。Bioinstruct dataset 25k数据量需要花llama-13b需要4.9h,相比EL2N 6.5h感觉并没有提升特别多。有点没弄清楚这种方法具体用在哪比较好,如果说希望小模型能够用那最开始已经用full data finetune了,难道是更小的模型吗?etc。
2024-10-30 23:12:20
1004
原创 data selection调研(ml&llm) -01 SelectIT: Selective Instruction Tuning for Large Language Models
最近在调研data selection方向的一些论文,machine learning和llm都有看。看的比较粗,主要看motivation,解决方法和结果,会逐期更新~
2024-10-29 23:19:13
986
原创 The detected CUDA version (11.8) mismatches the version that was used to compile
安装包时候出现这样的问题。
2024-07-08 16:39:36
3401
原创 VS Code连接服务器,Ctrl + 点击 无法跳转至函数底层 &vscode远程安装插件安装太慢问题
出现 ctrl+代码无法跳转问题,查看右下角代码解释器,只有一个python,无法选择具体的解释器,vscode安装拓展慢
2024-06-13 11:52:26
649
原创 conda 包不一致问题The following packages are causing the inconsistency
如图,执行命令时出现了包不一致的问题,参考了。的方法,删除pkgs下的包重新安装没有作用,
2024-05-02 16:49:44
843
1
原创 Ubuntu非Root用户报错ModuleNotFoundError: No module named ‘_ctypes‘解决
在服务器跑代码时,报 '_ctypes’错误,查了一下发现是缺少libffi-devel库的原因。CSDN上大多数解决方案为直接sudo apt-get install libffi-dev,但由于没有sudo权限,尝试源码安装的办法。根据服务器类型的不同选择不同的版本,我是Ubuntu服务器,所以下载deb版。如果是linux服务器则下载rpm版本。在原来解压Python的目录下。安装后对deb命令解压。
2023-03-15 19:28:37
2519
转载 一致性hash图解-初学者易懂
一致性Hash图解-初学者易懂注:转自https://www.zsythink.net/archives/1182在了解一致性哈希算法之前,最好先了解一下缓存中的一个应用场景,了解了这个应用场景之后,再来理解一致性哈希算法,就容易多了,也更能体现出一致性哈希算法的优点,那么,我们先来描述一下这个经典的分布式缓存的应用场景。场景描述假设,我们有三台缓存服务器,用于缓存图片,我们为这三台缓存服务器编号为0号、1号、2号,现在,有3万张图片需要缓存,我们希望这些图片被均匀的缓存到这3台服务器上,以便它们能
2021-11-01 11:18:19
270
原创 编程计算器-表达式求值(浮点数、标识符的实现)-顺序表链表实现-同维度向量运算-C语言
#include <stdio.h>#include <stdlib.h>#include<math.h>#define LIST_INIT_SIZE 100#define LISTINCREMENT 10#define STACK_INIT_SIZE 100#define STACKINCREMENT 10typedef struct{ int *elem; int length; int listsize;}Sqlist; //线性表的顺序表储
2020-10-31 23:00:50
1293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人