自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 资源 (5)
  • 收藏
  • 关注

原创 每天一个Python小技巧:使用异步编程asyncio.create_task被光速打脸的一天(十一)

大家好,今天继续我们的"每天一个Python小技巧"系列。近期需要用asyncio.create_task做异步编程,自己学习,然后就经历了很黑暗的一天,每次都觉得自己的代码写好了,然后就被光速打脸,记录一下,希望大家别犯我这种错误。

2025-05-15 11:01:53 484

原创 llamafactory-记录一次消除模型随机性的成功过程

在使用 LLamafactory 部署生成式模型(如 LLaMA、Qwen 等)时,开发者常会遇到以下问题:❗️ ‌即使设置 do_sample=False,模型输出依然存在不可控的随机性‌这在 ‌文本分类、事实问答、代码生成‌ 等确定性任务中尤为致命。本文将从一系列错误中,找到一套成功的解决方案。

2025-05-13 17:20:57 1070

原创 Deepseek-v3-之MLA代码解析(二)

本来想延续之前的博客风格(从输入到输出),但是这里Deepseek-V3属实太大了,我在服务器上跑不起来了,所以这里挑出一些和之前的代码不同的进行解析,本篇从核心之一MLA出发解析

2025-05-12 17:26:39 292

原创 Deepseek-v3-之MOE代码解析(一)

本来想延续之前的博客风格(从输入到输出),但是这里Deepseek-V3属实太大了,我在服务器上跑不起来了,所以这里挑出一些和之前的代码不同的进行解析,本篇从核心之一MOE出发解析loss free和topkrouter以及最后的MOE

2025-05-12 13:51:40 433

原创 每天一个Python小技巧:contextmanager秒变上下文管理器(十)

大家好,今天继续我们的"每天一个Python小技巧"系列。在日常python编程中,有许多地方都可能会发生资源泄漏,今天介绍@contextmanager来解决这个问题,我找了几个常见的场景,大家一起来发现更多的场景吧

2025-05-07 09:57:31 181

转载 已解决【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法

已解决【nvidia-smi】Failed to initialize NVML: Driver/library version mismatch解决方法

2025-05-06 13:19:26 337

原创 每天一个Python小技巧:用defaultdict魔法方法打造智能字典(九)

大家好,今天继续我们的"每天一个Python小技巧"系列。在日常Python编程中,处理字典时最常遇到的错误之一就是KeyError。当访问不存在的键时,Python会直接抛出异常,打断程序流程。之前写过一篇每天一个Python小技巧:用__missing__魔法方法打造智能字典(三)今天要介绍的collections.defaultdict可以也完美解决这个问题,让你的代码更加健壮和优雅!

2025-04-30 14:13:05 374

原创 每天一个Python小技巧:5个优雅处理字符串的方法(八)

大家好,今天继续我们的"每天一个Python小技巧"系列。字符串操作是Python编程中最基础也最常用的功能之一。掌握这些技巧能让你的代码更加简洁高效!今天分享5个‌实用字符串处理技巧‌,助你提升编码效率。

2025-04-30 11:07:39 141

原创 每天一个Python小技巧:混淆矩阵的高效生成+画图(七)

大家好,今天继续我们的"每天一个Python小技巧"系列。今天给大家分享Python中生成混淆矩阵的几种实用方法,帮助大家更好地评估分类模型性能。混淆矩阵是机器学习中非常重要的评估工具,它能直观展示模型的分类效果。

2025-04-29 14:07:38 194

原创 每天一个Python小技巧:高效处理列表的隐藏技巧(六)

大家好,今天继续我们的"每天一个Python小技巧"系列。之前有几篇是在介绍高效处理列表的技巧每天一个Python小技巧:使用enumerate()同时获取索引和值(一、每天一个Python小技巧:优雅的列表推导式(四),今天继续补齐几个小技巧

2025-04-28 10:19:54 152

原创 每天一个Python小技巧:优雅的字典推导式(五)

大家好!今天继续我们的"每天一个Python小技巧"系列。昨天我们学习了列表推导式,今天让我们来看看它的近亲——字典推导式(Dictionary Comprehension)。

2025-04-27 09:20:20 223

原创 每天一个Python小技巧:优雅的列表推导式(四)

大家好!今天继续我们的"每天一个Python小技巧"系列。今天要分享的是Python中非常强大且优雅的特性——列表推导式(List Comprehension)。

2025-04-27 09:12:35 300

原创 每天一个Python小技巧:用__missing__魔法方法打造智能字典(三)

大家好,今天继续我们的"每天一个Python小技巧"系列。大家在需要实现自动填充默认值的字典时都是怎么做的呢?我之前都是判断这个key是否在字典中,每次都要显性查询,今天和大家分享一个小技巧,让字典自动帮你赋值,一起来看看吧。

2025-04-26 09:34:33 684

原创 每天一个Python小技巧:Flask流式响应+g对象实战:高效处理大数据请求(二)

在Web开发中,处理大文件下载或实时数据推送时,传统的一次性响应往往会占用大量内存。本文将介绍如何使用Flask的Response对象结合g对象实现高效的流式输出。

2025-04-25 09:59:02 545

原创 每天一个Python小技巧:使用enumerate()同时获取索引和值(一)

大家好!这是"每天一个Python小技巧"系列的第一篇文章。作为Python开发者,我们经常需要遍历列表同时获取元素和它的索引。今天我要分享一个简单但非常实用的内置函数enumerate(),它能让你写出更优雅、更Pythonic的代码。

2025-04-24 16:48:58 170

原创 大模型不是在推理,只是在复述??

看见一篇论文,论文中建立了一个推理题库,通过将推理问题进行改写(通过只改写几个字,颠覆整个问题)让大模型去做推理,结果却差了很多,即使加了few-shot也没有解决这个问题,我这里简单从题库中用百度的Deepseek-R1做了一下测试,结果很差呢。

2025-04-14 16:07:08 318

原创 MiniCPM-V-2_6如何从输入到输出-代码解析(一)

之前写的等文章还是有不少人看的,NLP基本就是这样的处理流程了(当然有我还没发现的模型架构,比如说RWKV),这次尝试从Minicpm-V出发,将代码改写成我们熟悉的样子。

2025-03-20 16:31:36 434

原创 Qwen1.5-MoE-A2.7B-Chat如何从输入到输出-代码解析

与Qwen1.5-14B-Chat如何从输入到输出-代码解析一致,这里使用的是RepetitionPenaltyLogitsProcessor,Deepseek-llm中的代码要做一下修改从输入到输出的逻辑是没有发生变化的。

2025-03-10 15:30:12 599

原创 Qwen1.5-14B-Chat如何从输入到输出-代码解析

import re把这些代码保存成llama.py,放在Qwen1.5-14B-Chat的代码中,就可以正常使用了prompt = "介绍一下LLM"{"role": "system", "content": "你是一个有用的AI助手"},

2025-03-10 10:28:15 327

原创 Deepseek-MOE-16B-chat如何从输入到输出-代码解析

之前写的几篇关于大模型从输入到输出的代码都是transformer结构的代码,这次挑战一下MOE的代码,我是基于Deepseek-MOE-16B-chat的代码做的修改,这中间关于模型结构deepseek-llm-7b-chat调整的内容不是很多,主要是MOE的部分做了调整。请先阅读上一篇,关于完全一样的内容,这里不再重复

2025-03-06 17:08:52 822

原创 Deepseek-LLM-7B-chat如何从输入到输出-代码解析(一)

到此基本就写完了代码,最后补充上一点import和实际调用的代码import re把这些代码保存成llama.py,放在deepseek-llm-7b-chat的代码中,就可以正常使用了{"role": "user", "content": "你是谁?"}代码量在450行,原始代码量是1100,减少一半的代码的小目标基本实现(成功)

2025-03-04 09:15:11 784

原创 ChatGLM2-6B如何从输入到输出-代码解析(二)

解析了Chatglm2-6b的模型架构,并和Chatglm-6b进行对比,这一篇的目的是讲明白attention和rotaryEmbedding,并实现整体目标,完全替代modeling_chatglm.py,并将代码缩减到一半儿。

2025-02-25 18:25:39 360

原创 ChatGLM2-6B如何从输入到输出-代码解析(一)

上周整理了Chatglm-6b的代码,对模型从输入到输出一目了然,对模型内几个主要的模块更加熟悉了,这周继续出发,对Chatglm2-6b下手,看一下两个版本的代码有哪些改动,这周稍微有点不一样的是,我是直接在modeling_chatglm.py上进行修改的,一起来看一下吧。

2025-02-25 15:54:33 1202

原创 gelu-代码解读

最近写到了chatglm-6B的代码解读,发现gelu这么常用的激活函数的来龙去脉我都没搞明白,所以去翻了一下论文和代码,不翻不知道,一翻吓一跳啊,原来我们经常看到的代码竟然是近似形式,它还有很多的背景知识,一起来看一下吧。

2025-02-21 14:37:25 255

原创 ChatGLM-6B如何从输入到输出-代码解析(二)

已经从输入得到了对应的input_ids、attention_mask、position_ids等模型需要的变量,递归的输入模型也已经能得到输出,模型还是个黑盒子,我们这篇就画一下模型的流程图,在流程图的基础上拆解一下代码,希望代码量少一半,且能正常从输入到输出。

2025-02-21 11:18:13 994

原创 ChatGLM-6B如何从输入到输出-代码解析(一)

将输入得到输出的相关代码摘出来,主要是在使用past_key_values部分比较复杂,因为相对应的attention_mask和position_ids也会发生变化,还没有涉及到模型部分,下一步会进入模型解构部分,期待吧。

2025-02-18 15:22:57 327

原创 MiNicpm-o2.6和MiNicpm-V2.6模型架构对比

MiNicpm-o2.6和MiNicpm-V2.6在哪些方面有变化呢?为什么都是8B模型呢?本文探索了这些问题,且提出了一些自己想不透的问题

2025-01-23 14:19:43 763

原创 手撕RNN代码

简单介绍了RNN,通过三种方法实现RNN

2024-11-21 16:53:54 208

原创 huggingface之tokenization基础结构Trie-代码解读

对字典树的代码进行解读,并对其中发现的一个bug进行标注且修改

2024-10-30 17:25:51 353

原创 attn_mask-代码解读

看到关于attn_mask给出了一个新的源文件,里面包含了创建4d_causal_attention源码,那是怎么实现的呢,一起来看一下吧。

2024-10-22 14:49:10 1064

原创 ROPE及各种变体-代码解读

看到关于rope给出了一个新的源文件,里面包含了rope及多种变体的源码,那都有哪些变体呢,又是怎么实现的呢,各个变体之间的区别和联系是什么呢,一起来看一下吧。

2024-10-17 11:57:52 1105 3

原创 MINICPM-V2_6图像+文本得到embedding-代码解读

基于将不同长度的图片patch embedding通过resampler变换成固定长度的patch embedding,那这个patch embedding是怎么和文本embedding到一起的呢?本篇从此出发,一起来看一下吧。

2024-09-25 17:22:42 902

原创 MINICPM-V2_6之图像embedding的resampler-代码解读

既然是attention,那其中必然有位置embedding,这里使用的是ROPE,只是因为是2D,所以这里也要处理一下得到2D的位置embedding"""输入:embed_dim: 向量维度输出:demo:"""else:grid = np.meshgrid(grid_w, grid_h) # 生成网格,但是这里是w在前;torch.meshgrid是h在前grid = np.stack(grid, axis=0)# 在第0维拼接"""输入:embed_dim: 向量维度。

2024-09-13 11:53:03 1321

原创 MINICPM-V2_6图像得到embedding-代码解读

通过阅读代码,找到MINICPM-V2_6由图片得到embedding(位置编码和像素编码)的过程,并将代码本地化,每个代码都有对应的输入和输出,并详细的介绍了2D位置编码得到的过程。

2024-09-11 17:38:26 1115

原创 MINICPM-V2_6图像预处理流程-代码解读

通过阅读多个代码,找到MINICPM-V2_6对应的图片切片的过程,并将代码本地化,每个代码块都有完整的输入输出,且解读了代码的每一步流程

2024-09-10 16:57:16 1742 3

原创 All mistakes are not equal: Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP)

多层级loss函数

2022-08-15 16:31:09 494

原创 representation learning for resource-constrained keyphrase generation

关键词生成2022

2022-08-01 17:05:23 338

原创 InferSent

Supervised Learning of Universal Sentence Representations from Natural Language Inference DataGitHub论文目的NLP系统基于word embedding作为base features,却很少有成功的sentence embedding。本论文基于Stanford NLI数据得到好的sentence representations,也可以转换到其它数据集。相关工作word2vecgloveSkip

2022-01-27 16:59:04 988

原创 ERNIE-DOC

ERNIE-DOC: A Retrospective Long-Document Modeling TransformerGitHub论文目的因为随着长度的增加,transformer的内存和时间消耗成倍增加,所以transformer不适合处理长文本。简单的截断文档或使用稀疏attention并不能解决这个问题,提出ERNIE-DOC:一种基于循环transformer的文档级语言预训练模型,由两种技术组成:retrospective feed mechanism(回溯) and the enhan

2022-01-20 16:40:59 1335

原创 GATER

Heterogeneous Graph Neural Networks for Keyphrase GenerationGitHub论文目的keyphrase generation(KG)同时预测present keyphrases和absent keyphrases,但是仅依靠source document会产生不可控和不准确的absent keyphrases。为了解决这个问题,本论文基于图从相关的参考文献中获取显式的信息,首先从预定义的索引中找到与source document相似的文档-关键词

2022-01-18 16:55:48 1043

orb-surf-brisk-freak

包含orb-surf-brisk-freak四种特征提取方法,以及时间的计算,并在识别到物体以后,进行跟踪。

2017-04-14

PCLDebug.props

pcl1.8.0配置vs2015属性列表

2017-03-13

passthrough

里面包含cmake文件和vs2015的可执行文件

2017-04-21

opencv+Meanshift

使用opencv的Meanshift函数写的一个小demo,需要自己cmake一下,链接到自己的opencv库

2017-03-30

normal_estimation_using_integral_images

normal_estimation_using_integral_images

2017-04-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除