- 博客(88)
- 收藏
- 关注
原创 生存分析基因组数据下载
下载泛癌相关的数据,然后使用MMP定义好的50个通路,将20000多个(筛选后4000+多个特征),然后一共整理为50个通路(可以理解为50个基于生信知识归纳的tokens)
2025-11-13 17:39:27
176
原创 生存分析任务建模以及损失函数
Loss参考自项目:https://github.com/JJ-ZHOU-Code/RobustMultiModel/blob/00d8c10a4d3a14ef0c02584b991b139678e6845d/utils/utils.py。
2025-10-17 20:33:01
371
原创 C盘扩容笔记
选择备份分区到镜像文件不会的可以参考:https://blog.csdn.net/qq_39571617/article/details/123474836我选择的是锁定后备份,问题不大。32GB的D盘内容压缩成镜像只有19GB。
2025-09-13 21:26:23
323
原创 强化学习中重要性采样
然后,在计算颜色时,为那些射向光源的光线赋予较低的权重(因为你发射了太多条了),为那些射向黑暗角落的光线赋予较高的权重(因为你发射的很少)。重要性采样的应用:我们仍然使用旧策略的数据,但在用这些数据计算新策略的收益时,给每一条数据都加上一个重要性权重:权重 = (新策略采取旧行动的概率) / (旧策略采取旧行动的概率)。反之,如果你偶尔在岸边捞到一条小鱼,你会想:“这条鱼虽然小,但它来自一个我几乎不采样的‘低产区域’,它能被捞上来非常难得,它的价值应该被放大。比如,在模拟时故意让股价的波动性变大。
2025-09-13 21:14:01
1009
原创 json的indent=4能占用多少空间xxx
有一天我一个5GB的json文件,使用indent=4的方式另存了一下,突然变成一个7GB的json文件…应该是挺多行数的,大概有千万行以上吧,然后就导致了突然多了2GB的大小。所以以后大文件一般就不要设置indent了。小文件可视化才需要indent。
2025-09-10 14:55:36
94
原创 MedSAM踩坑
然后保存figure的时候去看github上有一个issue,他说需要*255,改完之后就能看到segment的效果了。胸片解剖区域分割不如直接上torchvisionxray。感觉还是有点一般般,病变区域并不是泛化得很好。因为medsam感觉胸片上效果比较一般。只需要github clone。虽然MedSAM上手很简单。不需要使用medsam。
2025-08-13 16:41:23
131
原创 论文阅读 2025-8-3 [FaceXformer, RadGPT , Uni-CoT]
最近ICCV 2025很多工作都release了,赶紧跟一波热度了解一下大家在做什么。
2025-08-09 18:23:58
1011
原创 window的WSL怎么一键重置
也就是说,这个大文件不在WSL里面,但是spacesniffer又只想这个大文件在WSL里面,真的不知道该怎么办了。之前用WSL来在windows和服务器之间传输数据,所以有很多数据缓存,但是现在找不到他们的路径,所以想直接重置。注意,一定得 管理员权限 打开 powershell,不能cmd,也不能普通用户。看起来,这个WSL真的占用了很多空间,但是我又不知道该怎么删除。这个drivers都用了300GB了。结果发现全部都是小文件啊,我服气了。然后我尝试在WSL里面找。看来只能尝试重装WSL。
2025-07-27 19:47:16
435
原创 将 cuda 12.1 升级到 cuda 12.4 版本然后vllm来训reasoning
参考官网链接如下:https://developer.nvidia.com/cuda-toolkit-archive。
2025-07-06 01:50:28
720
原创 图片太大,该怎么进行resize,才能尽可能少降低损耗?
我使用了下面的代码测试了一下这样子压缩的MSE,发现损耗很小,基本小于1,跟原图基本上差异不大,肉眼看不出来,大模型应该也能够适应把。但是如果你担心图片resize之后不够适用,不能够泛化到别的模型,那么你可以找一个最大的分辨率进行等比例压缩。因为一些常见的模型,比如medgemma,它使用的图片大小是896*896,而且是没有padding的。那么我图片就可以把最短边压缩到1024长度,最长边等比例压缩。如果按照原来的分辨率,那么图片大小就会传输半天,超级久。我们可以通过压缩图片的方式,降低几倍的空间。
2025-06-27 13:32:26
304
原创 【删除的目录下有其他硬盘的挂载点 - 导致误删】为什么不是链接的文件也会同时被删除?
为什么不是链接的文件也会同时被删除?在删除数据之前,我特地看了一下是不是链接(软连接/硬链接)然后发现不是然后我就安心地remove了比如一个数据在 /mnt/tmp_home 这是之前备份系统的时候的数据然后他居然和home是绑定的我就觉得奇怪,为啥不是同一个目录都能关联?首先然后发现mnt没有问题,他是独立硬盘但是 mnt/tmp_home 他有问题啊他和home居然是同一个逻辑卷的。。。。谁知道他居然mount上去了xxxx然后我使用 findmnt 发现lv01挂载到这两个地方。
2025-06-27 01:22:04
193
原创 大模型解码基础知识笔记
最简单直接的策略,每一步都选择当前概率最高的词。贪心解码是所有解码策略中最基础的一种。它遵循一个简单的原则:在生成序列的每一步,都毫不犹豫地选择模型预测出的概率最大的那个词(Token)。
2025-06-26 23:35:21
837
原创 字符串的向量处理技巧:KD树和TF-IDF向量
代码来源:https://github.com/zhaozh10/ChatCAD/blob/main/search_engine/src/db.py。当你有一个 (vocabs, document, library) 时,你可以用TD-IDF向量作为document的向量。一个sentence的TD-IDF向量就是这个句子的所有token的TD-IDF值而已。KD-Tree 搭建以字符串向量为索引的树,以。的时间复杂度快速查找到最近的向量。
2025-06-10 01:02:51
273
原创 latex写作踩坑经验
可以人工调节成为 5pt,不影响字体,比较不影响可读性。如果列宽距很挤了,字体很小了,那么只能resizebox了。,neurips 使用的就是这个大小。控制表格的字体,一般使用。
2025-05-12 19:51:49
685
原创 latex中 \par, \newline 和 \\ 之间的区别
在表格里面使用 \newline,他会认为是 cell内部的换行,而 \ 则认为是表格行换行。在文章段落、表格之中,他们虽然都是换行的意思,但是实际是不一样的。最后我是使用 \parbox[t]{} 达到目的的。
2025-04-26 00:30:32
390
原创 apt --fix-broken install报错? Nvidia-driver没办法安装x
apt --fix-broken install报错是很常见的事情他不会真的给你fix错误,他想要做的事fix broken但是这个broken没办法fix的时候,就会一直报错所以我们需要remove掉之前错误安装的包因为这个错误安装的包没办法安装,所以是没办法fix的,所以是一定要remove的!但是remove命令往往由依赖于fix!就连特定删除purge都不行找到真的解决方法了!!!!!
2025-04-22 20:32:21
958
原创 [llava框架] 关于llava框架中微调问题
使用peft模型进行微调,model_base是基于llava的。训练中断之后加载checkpoint,却发现没有non_lora_trainable.bin文件。然后发现最后lora微调出来的non_lora_trainable.bin文件居然是跟随机初始化一样的。。。这一句话assert False了。但是lora权重是微调成功的,不然loss也不会下降。输出的norm值一直都是这个,但是loss神奇地下降。
2025-04-10 00:59:32
457
原创 LLM微调失败的经历
反正chexagent的微调使用llava的多轮对话框架真的很难顶,但是chexagent又没给训练代码,有点坑了。也不知道要不要微调embedding,embedding这么大我也没微调过啊。啊这,原来是converstations template的问题。,所以可能会出问题。目前重新训练,后续看看有没有问题。反正看起来就不能单纯用lora微调了。拼接,但是我用的llava默认的,就是。,但是实际上chexagent是。多轮对话,轮次之间要用。
2025-04-05 14:59:34
324
原创 UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda
感觉像是平时在复制指令的时候不小心设置了这个,被别人坑了。使用vim打开文件,在vim命令行中输入。
2025-03-30 01:41:44
541
原创 [医学图像数据的预处理工作] 关于dicom格式怎么处理成为nii.gz为后续使用,以及mask配准
当然我觉得如果能一步提取到目标数据,那肯定是最好的,如果不行,那就多步去做。
2025-03-08 17:07:55
506
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅