沉下心来学鲁班
码龄17年
关注
提问 私信
  • 博客:127,976
    社区:5,004
    问答:5
    动态:23,828
    156,813
    总访问量
  • 120
    原创
  • 11,474
    排名
  • 2,183
    粉丝
  • 165
    铁粉
  • 学习成就

个人简介:擅长设计高性能、可扩展、结构优良的软件,并致力于在编程领域宏扬工匠精神。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 目前就职: 全时云商务服务股份有限公司
  • 加入CSDN时间: 2008-03-08
博客简介:

golfxiao的专栏

博客描述:
擅长设计高性能、可扩展、结构优良的软件,并致力于在编程领域宏扬工匠精神。
查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,347
    当月
    79
个人成就
  • 分布式系统下多条件分页查询方法专利发明者
  • 获得1,713次点赞
  • 内容获得27次评论
  • 获得1,621次收藏
  • 代码片获得1,850次分享
创作历程
  • 83篇
    2024年
  • 34篇
    2023年
  • 3篇
    2022年
成就勋章
TA的专栏
  • 复现LLM
    9篇
  • 模型压缩
    1篇
  • 英语口语学习
    19篇
  • 微调
    19篇
  • 深度学习
    20篇
  • 语言模型
    7篇
  • 故障剖析
    8篇
  • 实践案例
    25篇
  • 知识笔记
    20篇
  • 成长
    2篇
  • 信创
    6篇
TA的推广
兴趣领域 设置
  • 大数据
    数据库开发
  • 后端
    架构中间件
  • 测试
    测试工具
  • 软件工程
    性能优化软件工程重构
  • AIGC
    AI编程
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

复现LLM——带你构建TransformerBlock

在以前的某些架构中,层归一化是在MultiHeadAttention和FeedForward之后用的,这被称为Post-Layernorm,这种方法在较浅的网络中表现良好,但在更深的网络中会遇到训练不稳定的问题,总体来说,Pre-Layernorm在稳定性方面表现更好。
原创
发布博客 6 小时前 ·
274 阅读 ·
9 点赞 ·
0 评论 ·
9 收藏

模型压缩概览

通过让学生模型来学习教师模型的行为模式,减少模型大小和计算成本的同时,也保留了教师模型的性能。将功能类似的神经元用一个神经元等效代替,并从模型中删除不必要的连接和神经元,让模型变得更紧凑,运行更快,同时剪枝后的模型仍然保持较高的准确性。
原创
发布博客 19 小时前 ·
633 阅读 ·
8 点赞 ·
0 评论 ·
9 收藏

复现LLM——带你实现多头注意力

将大权重矩阵按照头的数量(num_heads)分割,即能模拟出多头各有一个小的权重矩阵的效果。多头注意力是指将注意力机制分为多个“头”,每个头学习数据的不同方面,使模型能够从多个层面来捕获输入序列中各部分之间的关系,这提高了模型在复杂任务中的表现。
原创
发布博客 前天 23:21 ·
559 阅读 ·
20 点赞 ·
0 评论 ·
10 收藏

复现LLM——带你实现因果注意力机制

与标准自注意力一次允许访问访问整个输入序列不同的是,因果自注意力会遮蔽序列中当前位置之后的输入,限制模型在计算注意力得分时,只能访问当前位置及之前的token,因此也被称为遮蔽注意力(masked_attention)。
原创
发布博客 前天 13:14 ·
890 阅读 ·
22 点赞 ·
0 评论 ·
16 收藏

欺诈文本分类检测(十八):基于llama.cpp+CPU推理

我们用Lora训练出自己的个性化模型后,首先面临的问题是:如何让模型在普通机器上跑起来?毕竟模型微调训练时都是在几十G的专用GPU上训练的,如果换到只有CPU的普通电脑上,可能会面临几秒蹦一个词的尴尬问题。LLama.cpp项目就是来解决这个问题的,它是由Georgi Gerganov开发的一个开源工具,主要用于将大语言模型(LLM)转换为C++代码,使它们可以在任意的CPU设备上运行。无需依赖pytorch和python,而是以c++编译的可执行文件来运行。
原创
发布博客 2024.11.09 ·
802 阅读 ·
20 点赞 ·
0 评论 ·
22 收藏

复现LLM——带你从零认识自注意力

尽管只是计算一个token的上下文向量z(2),但我们仍然需要所有token的键向量k和值向量v,因为查询向量q_2需要与序列中所有token的k向量和v向量运算,才能得到x_2的注意力权重和上下文向量。
原创
发布博客 2024.11.06 ·
848 阅读 ·
33 点赞 ·
0 评论 ·
13 收藏

复现LLM——词嵌入和位置嵌入

在前面一篇文章带你从零训练分词器中我们训练了一个分词器,并通过分词器的序列化方法得到了文本的token_id序列表示。但是在深度学习中,许多算法(例如:注意力)都需要对输入数据进行距离和相似度计算,而离散的token_id序列本身并没有距离和相似度的概念,例如100和101两个token_id虽然数值接近,但并不表示这两个token_id相似。因此,我们通常会将离散的token映射到一个高维的、连续的向量空间,这样就允许我们使用线性代数中的操作(如加法、点积)进行计算。
原创
发布博客 2024.11.06 ·
683 阅读 ·
20 点赞 ·
0 评论 ·
28 收藏

复现LLM:带你从零训练tokenizer

这一点非常重要,因为每个utf-8字符都是由一到多个字节组成的,将这个长度为256的编码表中的字节进行组合,理论上就能对世界上所有语言中的字符进行编码,并且还不会出现。
原创
发布博客 2024.11.04 ·
575 阅读 ·
25 点赞 ·
0 评论 ·
19 收藏

复现LLM:带你从零认识语言模型

本文会以Qwen2-0.5B模型为例,从使用者的角度,从零开始一步一步的探索语言模型的推理过程。从使用的角度来接触模型本地运行的方式来认识模型以文本生成过程来理解模型以内部窥探的方式来解剖模型。
原创
发布博客 2024.11.04 ·
846 阅读 ·
21 点赞 ·
1 评论 ·
17 收藏

口语笔记——时态

修饰形容词(How old / How big / how beautiful / how tall / how long / how many / how much)修饰副词( how fast / how often / how soon / how slowly / how much / how long)不可以延续的词可以用现在进行时表将来:例如go, come, leave, arrive, start, begin。对于现在进行时和一般将来时,当疑问词和主语相同时,将主语省略掉。
原创
发布博客 2024.09.27 ·
1064 阅读 ·
25 点赞 ·
0 评论 ·
19 收藏

欺诈文本分类检测(十七):支持分类原因训练

进行了数据增强,本文将使用增强后的数据对模型进行进一步训练,以便得到能同时预测出分类标签、欺诈者、原因分析多个信息。总共进行了5折数据10轮训练,每折数据进行了两轮训练。训练结果中共包含三个信息,由于三个信息的输出类型不同,需要分别分析每个字段的评测方式。
原创
发布博客 2024.09.27 ·
1044 阅读 ·
11 点赞 ·
0 评论 ·
30 收藏

口语笔记——被动语态

英语的语态共有两种:主动语态和被动语态。主动语态表示主语是动作的执行者。被动语态表示主语是动作的承受者。被动语态(passive voice)是动词的一种形式,只有需要动作对象的及物动词才有被动语态。被动语态的结构是be+done(过去分词)。
原创
发布博客 2024.09.25 ·
1054 阅读 ·
8 点赞 ·
0 评论 ·
14 收藏

欺诈文本分类检测(十六):支持分类原因评测改造

由此可见,如果不考虑序列中词的顺序,则选择rouge-1,反之,如果考虑序列中词的顺序,则选择rouge-L。上面的tokenize方法中,先使用jieba.cut方法进行分词,再将分词后的序列用空格连接,转换成与英文文本相同的分隔符,以便rouge库能自动分词。
原创
发布博客 2024.09.25 ·
1142 阅读 ·
20 点赞 ·
0 评论 ·
18 收藏

欺诈文本分类检测(十五)——数据校正与增强

有一个数据层面的隐患在于,我们在给正向数据集所打的标签,并不是那么的准确。前面打标签的基本做法是: - 从正向数据集中分割出的对话,都打的是正向标签 - 从反向数据集中分割出的对话,都打的是负向标签 后一类问题不大,但前一类其实是存在一些问题的,一个完整案例中带有欺诈时,并不见得从中分割出的子对话也带有欺诈。
原创
发布博客 2024.09.21 ·
656 阅读 ·
25 点赞 ·
0 评论 ·
26 收藏

口语笔记——现在完成时

对时间段提问时(how long),必须用可延续动词,不可延续动词 要换成 可延续的动词或系表结构,来表示可延续的状态。穿衣服的动词原本是put on,但这个动作不可延续,所以换成了能表达相同含义的be动词。当无法变成延续性动词或状态时,用since从句,从句的时态是一般过去式。也可以将put on 换成 wear,表示长时间穿着,也是可延续性动词。现在完成时中的时间有两种表示形式:时间点和时间段。
原创
发布博客 2024.09.11 ·
1075 阅读 ·
20 点赞 ·
0 评论 ·
19 收藏

欺诈文本分类检测(十四):GPTQ量化模型

本文通过gptq方法分别对微调后的模型进行了8位量化和4位量化,并对比了量化前后模型的性能指标差异,8位量化模型的性能指标变化小,而4位量化模型的性能指标变异较大。
原创
发布博客 2024.09.11 ·
1461 阅读 ·
32 点赞 ·
0 评论 ·
31 收藏

口语笔记——状语

状语主要用来修饰动词,也可以修饰副词、形容词和整句。状语是用来说明时间、地点、原因、方式、程度、频率、目的、结果、伴随等。状语特点:加上或去掉对整个句子是否成立没有影响,就像上面的和yesterday去掉后的句子剩余部分仍然成立。
原创
发布博客 2024.09.07 ·
914 阅读 ·
22 点赞 ·
0 评论 ·
17 收藏

欺诈文本分类检测(十三):交叉训练验证

修改评估和保存模型的策略,由每100step改为每个epoch,原因是前者保存的checkpoint有太多冗余。将num_train_epochs调整为2,表示每个折子的数据集训练2遍,k=5时数据总共会训练10遍。注:当时训练过程中会意外发生OOM,所以临时将批次大小per_device_train_batch_size改为8.lora_config.lora_dropout = 0.2 # 增加泛化能力。
原创
发布博客 2024.09.07 ·
1749 阅读 ·
34 点赞 ·
0 评论 ·
23 收藏

欺诈文本分类检测(十二):模型导出与部署

使用LoRA 适配器训练完后,每次推理时候都需要分别加载基座模型和 LoRA 适配器,一方面比较繁琐,另一方面也不利于模型部署,因此有必要将基座模型和 LoRA 适配器进行合并,导出成一个模型。
原创
发布博客 2024.09.06 ·
1082 阅读 ·
20 点赞 ·
0 评论 ·
6 收藏

口语笔记——定语

定语主要是对名词进行修饰和限定,目的是为了帮助人们把名词说的更清楚具体。
原创
发布博客 2024.09.05 ·
1101 阅读 ·
12 点赞 ·
0 评论 ·
19 收藏
加载更多