worldEmbeding
码龄5年
关注
提问 私信
  • 博客:15,826
    社区:165
    15,991
    总访问量
  • 33
    原创
  • 135,416
    排名
  • 166
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2019-10-16
博客简介:

weixin_45760926的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    2
    当前总分
    157
    当月
    0
个人成就
  • 获得232次点赞
  • 内容获得4次评论
  • 获得244次收藏
创作历程
  • 12篇
    2024年
  • 4篇
    2023年
  • 1篇
    2021年
  • 16篇
    2020年
成就勋章
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

342人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

LLM学习笔记

​ LLM是自回归生成模型,每次只会生成一个 token,难道 SFT 时,对于一个 (L, D) 的数据,要调用 L 次LLM去计算loss?​ 像Q1中那样,我们生成的时候是一次性把整个序列的概率分布拿到。​ 在每个前向传播过程,模型一次性生成整个序列的概率分布,而不是逐个生成令牌。​ 首先,如果要是像问题中这种策略去训练,一来每次要调用。的输入,那么Attention后,我们还是会得到一个。一样,也就是在相对正确的环境下再去生成生成第。的策略,就在第i个位置,我们会得到一个。​ SFT时,构造的。
原创
发布博客 2024.05.28 ·
781 阅读 ·
4 点赞 ·
0 评论 ·
9 收藏

手撸nano-gpt

这里具体解释一下为什么送入模型前要做reshape。因为规定了input的shape必须是[N, C]其中N是样本数C是类别数这里也就是我们的vocab_size。与之对应,我们的target的shape就应该是[N]。input 送入模型后我们会得到input中每一个位置的下一个位置的预测,如果原文本是 [1,2,3],input: [1,2] ,target: [2,3]。那么送入input后我们可能会得到[2, 2.7]然后用这个和target计算损失。else:# 关注最后一个位置。
原创
发布博客 2024.03.11 ·
816 阅读 ·
10 点赞 ·
1 评论 ·
12 收藏

Mixtral模型解读

Mistral 7B模型与Llama2 7B模型结构整体上是相似的,其结构参数如下所示。细节上来说,他有两点不同。
原创
发布博客 2024.03.03 ·
1264 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

Llama2学习

原本的中一般使用层归一化。而Llama2中使用了RMSNormMeanx2σx​∗γ。γ是可学习参数,Meanx2∑i1N​N1​xi2​。
原创
发布博客 2024.02.28 ·
1243 阅读 ·
23 点赞 ·
0 评论 ·
26 收藏

书生开源大模型训练营-第1讲笔记

实验室提出的开源评测体系OpenCompass,是全球领先的评测体系,提供了六大维度和超过80个数据集,以及四十多万道评测题目。OpenCompass将大模型能力分为学科语言、知识理解、推理和安全四个维度,并在每个维度上进行细分。所有评测集都围绕这些维度进行分类和构建,以形成全面的评测体系,避免只关注某个方面或某个能力维度。5.提供了完备的应用工具链,能够覆盖量化推理服务的全流程,并与OpenAI接口兼容。2.提供了不同的接口,如Python接口、gRPC接口和RESTful接口。
原创
发布博客 2024.02.18 ·
976 阅读 ·
18 点赞 ·
0 评论 ·
20 收藏

书生开源大模型训练营-第6讲笔记+作业

OpenCompass 是面向LLM评测的一站式平台。
原创
发布博客 2024.02.18 ·
417 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

书生开源大模型训练营-第5讲笔记

可能得原因是,量化会导致一定的误差,有时候这种误差可能会减少模型对训练数据的拟合,从而提高泛化性能。所以说,实际和前面的架构图是有区别的。一般情况下,我们并不需要对这些参数进行修改,但有时候为了满足特定需要,可能需要调整其中一部分配置值。具体来说,就是对历史的 K 和 V 存储 quant 后的值,使用时在 dequant。​ W4A16中的A是指Activation,保持FP16,只对参数进行 4bit 量化。​ 按照服务部署的结构图,我们应将TurboMind作为一个服务,然后客户端访问这个服务。
原创
发布博客 2024.02.16 ·
957 阅读 ·
17 点赞 ·
0 评论 ·
26 收藏

书生开源大模型训练营-第4讲-笔记+作业

​以数据集为例​# 转好的数据# 配置文件# 做些修改# 修改import部分# 修改模型为本地路径# 修改训练数据为 MedQA2019-structured-train.jsonl 路径# 修改 train_dataset 对象启动!
原创
发布博客 2024.02.16 ·
1060 阅读 ·
24 点赞 ·
0 评论 ·
22 收藏

书生开源大模型训练营-第3讲笔记

llm.predict("你是谁")构建检索问答链,还需要构建一个 Prompt Template,该 Template 其实基于一个带变量的字符串,在检索之后,LangChain 会将检索到的相关文档片段填入到 Template 的变量中,从而实现带知识的 Prompt 构建。from langchain . prompts import PromptTemplate # 我们所构造的 Prompt 模板 template = """使用以下上下文来回答用户的问题。如果你不知道答案,就说你不知道。
原创
发布博客 2024.02.16 ·
1016 阅读 ·
22 点赞 ·
0 评论 ·
24 收藏

书生开源大模型-第2讲-作业

模型写一个300字小故事。的config文件。
原创
发布博客 2024.02.16 ·
332 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

书生开源大模型-第2讲-笔记

我尝试了上传一张简单方程的图片,但是似乎失败了,模型并不能理解图中内容。注意这里复制好参数后,在下面的代码中要替换成我们自己的模型参数位置。首先创建我们的ssh密钥。然后根据控制台上的端口号使用如下命令即可链接。下载或者复制下来,开发机中已经有一份参数了。上clone模型代码以及创建一个demo。可以自动生成内容,并自动寻找合适图片!控制台,点击配置 SSH Key。在我们本机上去运行一个demo。我们将其全部复制下来,然后回到。应该做的也是修改模型参数文件。与2.1中一样,先本机链接。
原创
发布博客 2024.02.16 ·
690 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

目标检测中的损失函数

目标检测中常见的损失函数
原创
发布博客 2024.01.20 ·
904 阅读 ·
22 点赞 ·
0 评论 ·
21 收藏

swin_transformer学习

将每张图片划分为4x4的patch,那么共有4H​∗4W​∗48。将每个patch对应的token送入后续。
原创
发布博客 2023.11.26 ·
992 阅读 ·
24 点赞 ·
0 评论 ·
16 收藏

信息量 | 熵 | 交叉熵

某个时间发生的难度有大多。发生难度大即信息量大,反之。​ 对于独立事件。
原创
发布博客 2023.11.24 ·
832 阅读 ·
20 点赞 ·
1 评论 ·
22 收藏

Yolov5学习笔记

BackBone。
原创
发布博客 2023.11.18 ·
147 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

解决Conda创建新环境位置问题,和新环境依赖过多问题

创建新虚拟环境时,会创建到一个奇怪的地方。导致pycharm中无法使用到这个新环境。如果不想彻底删掉conda重新安装,可以在安装时用如下命令指定新环境的创建位置。这个时候,会发现这个新环境中依赖非常杂,并不像一个新环境。由于不知名原因(可能是conda装在了C盘),在。并不是我们对应环境的位置。现在,重新打开项目,输入。可以发现依赖正常了!
原创
发布博客 2023.11.14 ·
375 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

2021牛客暑期多校训练营8 F.Robots

题意:有三种机器人1:只会向下走2:只会向右走3:可以右也可以下题意:有三种机器人1:只会向下走2:只会向右走3:可以右也可以下题意:有三种机器人1:只会向下走2:只会向右走3:可以右也可以下思路:我们去维护每一个终点,记录所有能顺利走到他的起点,所以我们从<1,1>开始枚举到<n,m>,令f[a][b][c][d]是终点<a,b>到起点<c,d>的连通性,1.如果该点不是'1',那么必能由j-1走来,显然也能由所有能走到j-1的地方走来,所以f[a][b
原创
发布博客 2021.08.12 ·
142 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DFS之搜索顺序

acwing 1117单词接龙单词接龙是一个与我们经常玩的成语接龙相类似的游戏。现在我们已知一组单词,且给定一个开头的字母,要求出以这个字母开头的最长的“龙”,每个单词最多被使用两次。在两个单词相连时,其重合部分合为一部分,例如 beast 和 astonish ,如果接成一条龙则变为 beastonish。我们可以任意选择重合部分的长度,但其长度必须大于等于1,且严格小于两个串的长度,例如 at 和 atide 间不能相连。输入格式输入的第一行为一个单独的整数 n 表示单词数,以下 n 行每行
原创
发布博客 2020.10.14 ·
186 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DFS的连通性搜索

DFS和BFS都能解决问题的时候 DFS的代码会简洁很多 因为不需要自己去维护队列 可以使用系统自带的栈空间eg1:acwing1112.迷宫一天Extense在森林里探险的时候不小心走入了一个迷宫,迷宫可以看成是由 n∗n 的格点组成,每个格点只有2种状态,.和#,前者表示可以通行后者表示不能通行。同时当Extense处在某个格点时,他只能移动到东南西北(或者说上下左右)四个方向之一的相邻格点上,Extense想要从点A走到点B,问在不走出迷宫的情况下能不能办到。如果起点或者终点有一个不能通行
原创
发布博客 2020.10.12 ·
136 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

codeforces 674(div.3) ABCD题解

AFloor Number第一层有2个单元 其他每层有k个单元 (n-2)/k 即可得到答案**注意* * 向上取整#include<bits/stdc++.h>using namespace std;const int N = 110;int main(){ int T; cin>>T; while(T--) { int n,k; cin>>n>>k; if(n==1
原创
发布博客 2020.09.30 ·
140 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多