遥Haruka-CSDN博客

原创 deepspeed 报错：AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘

报这种错一般是CUDA版本和torch版本不匹配，torch版本一般高于CUDA版本。解决方案：参考我的这篇文章安装对应torch。

2025-06-07 12:43:29 214

原创【deepspeed使用报错】AttributeError: ‘DeepSpeedCPUAdam‘ object has no attribute ‘ds_opt_adam‘

报错：AttributeError: ‘DeepSpeedCPUAdam’ object has no attribute ‘ds_opt_adam’降低torch版本，参考我之前的一篇博客，降低到2.1.2。

2025-05-07 13:35:43 208

原创 Tensors of the same index must be on the same device and the same dtype except `step` tensors that

如果是一张卡微调出现这个问题可能是step dtype的问题，参考https://github.com/pytorch/pytorch/issues/127197，一般出现在torch版本较低的时候，升级torch就能解决。参考 https://github.com/pytorch/pytorch/issues/140471 ，将transformer版本降低到。

2025-03-24 10:27:01 185

原创一个大模型里面都有啥

在下载模型的时候，会有几个g的.safetensors文件，也会有几kb的tokenizer_config.json文件，曾经因为漏下了几个看似很小的文件而报错，今天决定整理一下这几个文件的用途。这里以stanford_alpaca的huggingface界面为例子。

2025-01-01 20:15:53 818

原创 he attention mask is not set and cannot be inferred from input because pad token is same as eos toke

重点在 input_ids = tokenizer.encode(prompt, return_tensors=‘pt’) 这一行，使用tokenizer.encode只会返回input_ids，使用tokenizer(prompt, return_tensors=‘pt’) 则会同时返回input_ids和attention_mask。

2024-12-16 19:35:45 1384

原创无法打开笔记本编辑器类型为“jupyter-notebook”的资源，请检查是否已安装并启用正确的扩展

输出以下内容，点击网址应该就能到jupyternotebook页面。尝试了其他博客中的更换拓展版本的办法，还是没有解决。在服务器端中一直打不开jupyter notebook文件。但我直接在vscode中试图打开.ipynb文件还是报错。确保安装了python等基础环境。

2024-12-15 21:15:27 535

原创 size mismatch for base_model.model.model.embed_tokens.weight: copying a param with shape torch.Size

发现原本的vocab_size是128256，但是微调的时候出现了。暂时没有找到根源问题。

2024-12-12 22:09:00 770

原创 prompt提示工程科普：stanford_alpaca,vicuna，llama

之前看代码都比较粗，没太注意提示工程，昨天花了时间搜集整理了一下。我理解的template是针对一组（ins，input（可选），output）对，模型如何去组织，利用template去format一种可学习的“知识”。对stanford_alpaca而言，他使用了alpaca数据集，提出了standford_alpaca的template，同时利用这个数据+模板微调了一个模型ALPACA。

2024-11-23 18:08:25 430

原创交叉熵，困惑度与llm推理得到答案prob概念辨析

最近在比较IFD与Nuggets方法，在最后之间快绕晕了，试着去辨析一下。

2024-11-13 20:52:35 346

原创 MLTD计算方法

MTLD 是一种用于衡量文本词汇多样性的指标，通过维持文本的 TTR（类型与词汇比，Type-Token Ratio）在 0.72 左右来避免因文本长度影响词汇多样性测量的稳定性。其计算过程主要分为几个步骤。

2024-11-07 20:48:26 731

原创 data selection调研(ml&llm) SPECULATIVE CORESET SELECTION FOR TASKSPECIFIC FINE-TUNING

感觉这篇论文的创新点EL2N的基础上maintain了diversity，至于效率还是不高，毕竟涉及到梯度计算。Bioinstruct dataset 25k数据量需要花llama-13b需要4.9h，相比EL2N 6.5h感觉并没有提升特别多。有点没弄清楚这种方法具体用在哪比较好，如果说希望小模型能够用那最开始已经用full data finetune了，难道是更小的模型吗？etc。

2024-10-30 23:12:20 1004

原创 data selection调研(ml&llm) -01 SelectIT: Selective Instruction Tuning for Large Language Models

最近在调研data selection方向的一些论文，machine learning和llm都有看。看的比较粗，主要看motivation，解决方法和结果，会逐期更新～

2024-10-29 23:19:13 986

原创 VScode调试需要处理argparser输入

VScode调试需要处理parser输入

2024-09-26 17:18:16 247

原创 The detected CUDA version (11.8) mismatches the version that was used to compile

安装包时候出现这样的问题。

2024-07-08 16:39:36 3401

原创 VS Code连接服务器，Ctrl + 点击无法跳转至函数底层 &vscode远程安装插件安装太慢问题

出现 ctrl+代码无法跳转问题，查看右下角代码解释器，只有一个python，无法选择具体的解释器，vscode安装拓展慢

2024-06-13 11:52:26 649

原创 conda 包不一致问题The following packages are causing the inconsistency

如图，执行命令时出现了包不一致的问题，参考了。的方法，删除pkgs下的包重新安装没有作用，

2024-05-02 16:49:44 843 1

原创 Ubuntu非Root用户报错ModuleNotFoundError: No module named ‘_ctypes‘解决

在服务器跑代码时，报 '_ctypes’错误，查了一下发现是缺少libffi-devel库的原因。CSDN上大多数解决方案为直接sudo apt-get install libffi-dev，但由于没有sudo权限，尝试源码安装的办法。根据服务器类型的不同选择不同的版本，我是Ubuntu服务器，所以下载deb版。如果是linux服务器则下载rpm版本。在原来解压Python的目录下。安装后对deb命令解压。

2023-03-15 19:28:37 2519

原创 hdu 1043/poj 1077八数码问题 BFS+康托展开求解

hdu1043求解

2022-08-23 15:46:04 166

原创 Hdu 1240 Asteroids题解

Hdu杭州电子科技大学OJ 1240题解

2022-08-21 16:48:59 315

原创 HDU 1716 排列2

Hdu 杭电 1716题

2022-08-20 18:59:01 89

原创 ++k与k++区别和双目运算符结合

k++与++k区别

2022-08-20 18:17:48 3831

转载一致性hash图解-初学者易懂

一致性Hash图解-初学者易懂注：转自https://www.zsythink.net/archives/1182在了解一致性哈希算法之前，最好先了解一下缓存中的一个应用场景，了解了这个应用场景之后，再来理解一致性哈希算法，就容易多了，也更能体现出一致性哈希算法的优点，那么，我们先来描述一下这个经典的分布式缓存的应用场景。场景描述假设，我们有三台缓存服务器，用于缓存图片，我们为这三台缓存服务器编号为0号、1号、2号，现在，有3万张图片需要缓存，我们希望这些图片被均匀的缓存到这3台服务器上，以便它们能

2021-11-01 11:18:19 270

原创编程计算器-表达式求值（浮点数、标识符的实现）-顺序表链表实现-同维度向量运算-C语言

#include <stdio.h>#include <stdlib.h>#include<math.h>#define LIST_INIT_SIZE 100#define LISTINCREMENT 10#define STACK_INIT_SIZE 100#define STACKINCREMENT 10typedef struct{ int *elem; int length; int listsize;}Sqlist; //线性表的顺序表储

2020-10-31 23:00:50 1293

weixin_45720206的博客