zzzyulin-CSDN博客

原创 InternVL3.5 精读

TODOpaper:rl训练使用到的数据：https://huggingface.co/datasets/OpenGVLab/MMPR-v1.2。

2025-12-10 00:45:36 1297

原创 qwen2-vl实现细节记录（自用）

空间层次结构（从粗到细）每一行代表什么？图像中某个 28×28 像素区域（2×2 个 patch，每个 patch 14×14）跨越 2 个时间帧包含 RGB 3 个通道总共 1176 个原始像素值。

2025-11-07 14:06:55 1017

你要找的是……“满足条件”的判断式“等于”和谁合并？为什么？第一个> target> target和≤合并（即归入 else）等于不满足“大于”第一个≥ target（左边界）≥ target和合并等于满足“≥”，但左边可能还有最后一个≤ target（右边界）≤ target和合并等于满足“≤”，但右边可能还有任意== target== target单独判断不合并，直接返回找到就结束💡终极心法先明确“满足条件”的定义，再看“等于”是否属于这个条件。

2025-10-27 10:06:55 238

原创（Hello-Agents 第四章学习笔记）智能体经典范式构建

本文记录了Hello-Agents第四章学习中的笔记和实验分析。

2025-10-23 20:51:36 1048

原创 huggingface transformers调试问题--加载本地路径模型时pdb断点消失

在 Hugging Face Transformers 动态加载的模块缓存文件中设置 pdb.set_trace() 断点后，断点“消失”或文件被还原为原始内容。

2025-10-22 21:32:17 595

原创 git note

记录git使用中常用的指令，待补充。

2025-10-20 21:01:20 199

原创下载huggingface中数据集/模型

整理从huggingface下载数据/模型的方法，以及解决国内访问huggingface慢的问题。

2025-09-23 17:20:02 902

原创 vscode+ssh连接server

服务器端（简单）深度学习环境搭建。

2025-09-21 17:27:45 535

原创堆 -- lc295

把真实值 x 存成 -x，就能让“数值越大，负数越小”，于是小顶堆的堆顶就对应原始数据的最大值。大顶堆和小顶堆是二叉堆的两种形式，属于完全二叉树结构，常用于实现优先队列。python 中 heapq 是小顶堆。A – 小顶堆 – 储存较大的一半。B – 大顶堆 – 储存较小的一半。

2025-09-17 22:00:40 245

原创论文写作提效

在使用overleaf写作的过程中会遇到编译慢的问题，而且没法便捷的借助AI的力量，于是想通过在vscode编写latex，这样可以方便通过插件之间的联动提升写作效率。

2025-09-10 23:45:52 523

原创 (LLM decoding) beam search

记录LLM decoding的beam search 策略在transformers库中的实现。

2025-09-08 20:38:07 1156

原创 ReLU、GeLU、Swish（自用）

该博客分析了ReLU、GeLU和Swish激活函数的数学性质，揭示了一个关键恒等式：x = f(x) - f(-x)。这一性质使得使用这些激活函数的两层神经网络可以退化为一层，即网络能够自适应调整实际深度，类似于ResNet的工作原理。作者通过数学推导表明，这些激活函数保留了输入的线性可恢复性，而传统激活函数如Sigmoid则不具备这一特性。这解释了为什么ReLU类激活函数在深度学习中的表现往往优于传统激活函数。

2025-09-04 18:55:23 656

原创 DPO复习（自用）

对离散变量yyy（连续情形换成积分）DKL⁣p∥q∑ypylog⁡⁣pyqyEy∼p⁣log⁡py−log⁡qyEy∼p⁣log⁡⁣pyqy=\;=\;=\;DKLp∥qy∑pylogqypyEy∼plogpy−logqyEy∼plogqypy也就是说，只要满足两点期望是对ppp取的——这里是y。

2025-07-23 13:21:28 1186

原创【CVPR2023】Seeing Beyond the Brain

Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding 文献阅读

2024-11-08 11:45:20 1386

原创【Windows11 你的设备遇到问题，需要重启】终止代码：SYSTEM_THREAD_EXCEPTION_NOT_HANDLED 失败的操作：Netwtw12.sys

解决“Windows11 你的设备遇到问题，需要重启。终止代码：SYSTEM_THREAD_EXCEPTION_NOT_HANDLED失败的操作：Netwtw12.sys”

2024-11-02 17:03:40 6578

原创 Transformer复习（自用）

复习Transformer相关内容

2024-08-12 22:38:33 1221 1

原创如何评估分类任务的模型性能

这些指标可以帮助我们从不同角度评估模型的性能，选择最适合特定任务和数据集的模型。例如，在医疗诊断中，人们可能更倾向于使用高召回率的模型以避免漏诊，即使这可能会牺牲一些精确度。在多分类任务中，选择哪种评估指标取决于具体问题的需求和类别的不平衡程度。计算每个类别的性能指标的平均值，但每个类别的权重与其在数据集中的样本数量成比例。将所有类别的性能指标在样本级别上进行平均，考虑类别的样本数量。计算每个类别的性能指标的简单平均值，不考虑类别的样本数量。表示所有实际负类别中被错误分类为正类别的比例。

2024-08-11 16:23:05 1623

原创【Brain Connectivity Toolbox】大脑连接图谱：图度计算总结

这篇博客总结了Brain Connectivity Toolbox中关于计算图的`度`相关的方法。

2024-07-13 15:39:33 1240

原创【文献阅读】大脑连接性的复杂网络度量

大脑连接数据集由解剖束或功能联系连接的大脑区域网络组成。复杂网络分析，一种新兴的多学科方法，用于研究复杂系统——旨在用少量具有神经生物学意义且易于计算的度量来表征这些大脑网络。

2024-07-12 15:31:51 1324

原创 Java 反射中动态类型识别的深度解析

本文深入探讨了Java反射机制中的动态类型识别功能。

2024-06-10 22:52:14 550

原创 Linux Samba部署宝典：轻松搭建，高效管理

这篇博客可以帮助你如何在你的设备上部署 Samba，实现跨平台的资源管理。

2024-06-09 16:42:25 1554 1

原创 Whisper.cpp本地化：Windows端部署详解与实操

本篇博客将介绍如何使用Whisper.cpp工具来为 Windows 上的视频文件生成字幕。

2024-06-08 16:04:48 6133 1

weixin_52318459的博客