多吃轻食
码龄5年
关注
提问 私信
  • 博客:42,670
    42,670
    总访问量
  • 42
    原创
  • 23,202
    排名
  • 702
    粉丝
  • 0
    铁粉
  • 学习成就

个人简介:一个喜欢晚上加班的社畜

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-12-16
博客简介:

weixin_46034279的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    3
    当前总分
    218
    当月
    104
个人成就
  • 获得975次点赞
  • 内容获得6次评论
  • 获得767次收藏
  • 代码片获得101次分享
创作历程
  • 42篇
    2024年
成就勋章
TA的专栏
  • 大模型微调
    7篇
  • 深度学习与自然语言处理
    4篇
  • 面试经典150题
    7篇
  • python人工智能之常用第三方库
    2篇
  • 《统计学习方法》
    7篇
兴趣领域 设置
  • 数据结构与算法
    算法数据结构推荐算法
  • 人工智能
    opencv数据挖掘机器学习人工智能深度学习神经网络自然语言处理sklearnword2vec数据分析scikit-learn聚类迁移学习gpt-3chatgptocr
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大模型采样技术(从头到尾明明白白的~)

Top-p 采样中,采样不只是在最有可能的 K 个单词中进行,,而是在累积概率超过 P 的最小单词集中进行。在 Top-K 采样中,概率最大的 K 个词会被选中,然后对这 K 个词重新归一化,最后在这重新归一化概率后的 K 个词进行采样。假设 p=0.92,Top-p 采样对单词概率进行降序排列并累加,然后选择概率和首次超过 p=0.92 的单词集作为采样池。在 t=1 的时候,词集有 9 个词,而在 t=2 的时候,他只需要选择前三个词就超过了 0.92.对于输出概率陡峭的情况,可能效果不好。
原创
发布博客 9 小时前 ·
381 阅读 ·
6 点赞 ·
0 评论 ·
7 收藏

开放域问答的密集段落检索(以密集检索的角度解决 QA 问题)

开放域问答依赖于有效的段落检索去选择候选内容,传统的稀疏向量空间模型,比如 TF-IDF 恶和 BM25,确实是一个方法。在这项工作中,我们证明了检索实际上可以单独使用密集表示来实现,其中嵌入是通过一个简单的双编码器框架从少量的问题和段落中学习到的。在广泛的开放域 QA 数据集上进行评估时,我们的密集检索器在前 20 个段落检索准确率方面的绝对性能大大超过强大的 Lucene-BM25 系统 9%-19%,并帮助我们的端到端 QA 系统在多个开放域 QA 基准上建立新的最先进水平。
原创
发布博客 前天 15:01 ·
701 阅读 ·
14 点赞 ·
0 评论 ·
19 收藏

RRF(Reciprocal Rank Fusion,倒数排序融合)

倒数排序融合 RRF 是一种简单的方法,用于结合多个 IR(Information Retrieval) 系统的文档排名,始终比任何单独的系统产生更好的结果。通过使用 RRF 来结合几个TREC实验的结果,并建立一个 元学习器,该元学习器 对 LETOR 3 数据集的排名优于任何先前的方法,从而证明了这一结果。
原创
发布博客 2024.11.09 ·
652 阅读 ·
26 点赞 ·
0 评论 ·
5 收藏

FastAPI 教程(官网同步,包含30+demo,英语不好的宝子来!)

你可以为查询参数声明额外的校验和元数据。aliastitledeprecatedmin_lengthmax_lengthregex在这些示例中,你了解了如何声明对str值的校验。你能够以与查询参数和字符串校验相同的方式使用QueryPath(以及其他你还没见过的类)声明元数据和字符串校验。gt:大于(greaterthan)ge:大于等于(gequal)lt:小于(lessthan)le:小于等于(lequal)与 JSON 不同,HTML 表单 (
原创
发布博客 2024.11.09 ·
883 阅读 ·
16 点赞 ·
0 评论 ·
13 收藏

大模型微调技术 --> IA3

我们引入了一种名为IA3(通过抑制和放大内部激活的注入适配器, Infused Adapter by Inhibiting and Amplifying Inner Activations)的新的PEFT方法,该方法通过学习向量缩放激活,在只引入相对少量的新参数的情况下获得更强的性能。我们还提出了一个基于 T0 模型的简单配方,称为T-Few,可以应用于新任务,而无需针对任务进行调优或修改。
原创
发布博客 2024.11.08 ·
772 阅读 ·
24 点赞 ·
0 评论 ·
30 收藏

大模型微调技术 --> LoRA 系列之 QLoRA (省资源能手)

通过提出的两种技术实现了高保真度的4位微调——
原创
发布博客 2024.11.07 ·
825 阅读 ·
26 点赞 ·
0 评论 ·
11 收藏

大模型微调技术 --> LoRA 系列之 AdaLoRA

之前的微调方法(如低秩更新)通常将增量更新的预算均匀地分布在所有预训练的权重矩阵上,并且忽略了不同权重参数的不同重要性。结果,微调结果不是最优的。为了弥补这一差距,我们提出了AdaLoRA,它根据权重矩阵的重要性得分自适应地在权重矩阵之间分配参数预算。特别地,AdaLoRA以奇异值分解的形式将增量更新参数化。这种新的方法允许我们有效地修剪不重要更新的奇异值,这实质上是减少它们的参数预算,但避免了密集的精确 SVD 计算。
原创
发布博客 2024.11.07 ·
992 阅读 ·
29 点赞 ·
0 评论 ·
14 收藏

大模型微调技术 --> LoRA 系列之 LoRA(现今最火热的模型微调方法,甚至没有之一,下面有常用的 lora 参数)

"r": 8,# 起始rank"alpha": 8,# 与rank相同"dropout": 0.1,# 默认dropout"target_modules": ["q_proj", "v_proj"]# 基础配置Step 1: 先固定其他参数,调整 rank 和 alphaStep 2: 确定最优 rank 后,可以尝试增加 target modulesStep 3: 如果还不够好,可以调整 dropout 或 学习率rank 设置过大可能导致显存不足。
原创
发布博客 2024.11.07 ·
1348 阅读 ·
27 点赞 ·
0 评论 ·
18 收藏

大模型微调技术 --> Adapter

权衡准确率和可训练任务特定参数的数量,对于 adapter 微调和 finetuning。y 轴以全量微调的性能为基准,x 轴是微调参数量。曲线显示了 GLUE 基准九项任务的第 20、50 和 80 百分位数性能。基于 adapter 的调整在训练参数数量减少两个数量级的情况下取得了与 全量微调 类似的性能。提出了 compact 和 extensible 下游任务模型的迁移学习策略紧凑型(compact)模型是只需要为每个任务添加少量参数,就能解决多项任务的模型。
原创
发布博客 2024.11.06 ·
985 阅读 ·
27 点赞 ·
0 评论 ·
8 收藏

大模型微调技术 --> P-Tuning v1和 P-Tuning v2

手动的离散提示通常导致一个不稳定的性能——比如,在提示中改变一个词可能导致性能大幅度下降。于是提出了新颖的方法 —— P-Tuning,它采用连续的提示 embedding 与离散提示 结合在一起。P-Tuning 不仅能够通过最小化各种离散提示之间的差距来稳定训练,还能在很多基准测试中提高性能。预训练模型一般都可以通过手动编写提示模版进一步的提升性能。但是,手动的离散提示有很大程度的不稳定性。如图所示,仅仅改变一个单词,就导致了准确率大幅度的变化,但是 P-Tuning 基本稳定。
原创
发布博客 2024.11.05 ·
1023 阅读 ·
22 点赞 ·
0 评论 ·
24 收藏

大模型微调技术 --> 脉络

微调技术从最早期的全模型微调演变成如今的各种参数高效微调(PEFT)方法,背后是为了应对大模型中的计算、存储和数据适应性的挑战。
原创
发布博客 2024.11.05 ·
668 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

RAG 系统的评测 --> RAGAs(量化 RAG 系统的好坏)

在开发RAG系统的过程中,比较头疼的就是怎么评测做出来的系统的好与坏。人工评测最直观,但是局限性很大,且不够客观。所以 RAGAs 作为一个很方便的一个测评 RAG 系统的工具而问世。让我们来看看他的真面目吧。
原创
发布博客 2024.11.05 ·
782 阅读 ·
27 点赞 ·
0 评论 ·
19 收藏

关于 PDF 抽取的吐槽

今天一下午写了8,9个 PDF 抽取的脚本。最后又回归最开始简单的模式了,要疯了,谁懂啊。我是下午的工作是这样的(我是这么疯的)
原创
发布博客 2024.11.04 ·
359 阅读 ·
3 点赞 ·
0 评论 ·
3 收藏

大模型的常用指令格式 --> ShareGPT 和 Alpaca (以 llama-factory 里的设置为例)

包含了所有经过处理的 本地数据集 和 在线数据集。如果使用本地数据集, 务必在中添加对应数据集及其内容的定义目前支持Alpaca格式 和ShareGPT的格式。
原创
发布博客 2024.11.03 ·
1282 阅读 ·
26 点赞 ·
0 评论 ·
29 收藏

大模型部署利器 -- vLLM(别总用着好,不知道他哪好啊)

大型语言模型(LLM)的高吞吐量服务需要一次处理足够多的请求。然而,现有的系统很难做到这一点,因为每个请求的键值缓存(KV 缓存)内存都很大,并且动态地增长和收缩。当管理效率低下时,碎片和冗余复制会严重浪费此内存,从而限制批处理大小。为了解决这个问题,我们提出了,这个注意力算法的灵感来自经典的虚拟内存和操作系统中的分页技术。在此基础上,我们构建了 vLLM,这是一个 LLM 服务系统,它实现了(1)KV 缓存内存的近零浪费,以及(2)在请求内部和请求之间灵活共享 KV 缓存,以进一步减少内存使用。
原创
发布博客 2024.11.03 ·
1346 阅读 ·
38 点赞 ·
0 评论 ·
21 收藏

SBERT 原始论文(带你3分钟了解 SBERT,草履虫都能看懂)

BERT 和 RoBERTa 在语义文本相似性(STS)等句对回归任务上设置了新的最先进的性能。然而,它需要将两个句子都输入到网络中,这导致了巨大的计算开销:在 10000 个句子的集合中找到最相似的一对需要大约 5000 万次 BERT 推理计算(约65小时)。BERT的构造使其不适合语义相似性搜索以及聚类等无监督任务。
原创
发布博客 2024.11.03 ·
870 阅读 ·
24 点赞 ·
0 评论 ·
17 收藏

在 NLP 中,为什么用 LN 而不是 BN(面试常见!)

normalization 的计算一般都是对数据进行“减均值,除方差”的操作。他们都能缓解 ICL 的内部偏移现象,不同点在于特征映射的维度,所以导致了应用范围的不同。在 CV 时代,normalization 几乎被 BN 支配;但是在 NLP 时代,LN 却变成了主流,为什么呢?在自然界中,大多数的客观事物都遵循高斯分布,
原创
发布博客 2024.11.03 ·
316 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏

生成式语言模型的文本生成评价指标(从传统的基于统计到现在的基于语义)

BLEU优点:计算速度,适合评估机器翻译等文本生成任务的准确性。依赖于 n-gram 匹配,所以对短文本评价友好缺点:无法衡量语义,容易惩罚语义合理的表示;对自由度较高的生成任务表现不佳使用场景:机器翻译、文本摘要,尤其是目标文本相对固定的情形ROUGE优点:对文本摘要任务适用,尤其是 ROUGE-L 可识别长的匹配序列,适合评估摘要生成中较长的语义片段缺点:依赖表层匹配,缺乏对语义的深层次理解使用场景:在摘要生成任务中表现良好PPL。
原创
发布博客 2024.11.03 ·
940 阅读 ·
8 点赞 ·
0 评论 ·
18 收藏

大模型中的 KV Cache

是否大家在部署大模型的时候,总会遇到显存不足的问题呢?明明我的设备能存下模型参数啊!凭什么超内存了了呢!?其实,这是 KV Cache 在作祟KV Cache 是一种大模型推理加速的方法,该方法通过缓存 Attention 中的 K, V 来实现推理优化。
原创
发布博客 2024.11.03 ·
899 阅读 ·
15 点赞 ·
1 评论 ·
31 收藏

ElastricSearch 原理以及简单实用(超级通俗)

提到非结构化数据的检索,常常用到 ElasticSearch,他是什么呢?ElasticSearch 是一个基于 Apache Lucene 的分布式搜索引擎,可以作为实时文档存储系统,且文档的每一个内容都可以被检索,能够处理 PB 级别的结构化和非结构化数据。ElasticSearch 本身具有分布式特性的特点。背景Lucene 是为了解决大规模文本数据的高效检索问题而设计的。90 年代末,互联网的内容量飞速增加,企业的大量文本数据难以快速检索。
原创
发布博客 2024.11.03 ·
1006 阅读 ·
17 点赞 ·
0 评论 ·
30 收藏
加载更多