- 博客(535)
- 资源 (29)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 从零实现深度学习框架【实现自己的PyTorch(已完结)】
本着“凡我不能创造的,我就不能理解”的思想,此系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。
2021-12-19 15:38:18
4946
原创 [论文笔记]LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming
⭐ 作者提出了基于双层结构的提示设计框架,还提供了基于LangGPT的常见场景的通用提示模板。重要的是上线了一个在线社区,其中包含很多提示案例可以来学习参考。
2024-07-16 19:34:03
834
原创 [论文笔记]构建基于RAG聊天机器人的要素
⭐ 作者来自英伟达的团队,介绍了他们在构建企业级RAG聊天机器人的经验。提出了FACTS这5个要注意的方面以及15个可提升性能的控制点。是一篇偏实战的工作,值得仔细研读。
2024-07-12 20:30:00
766
原创 [论文笔记]涨点近5%! 以内容中心的检索增强生成可扩展的级联框架:Pistis-RAG
⭐ 作者提出了一个新颖的框架,以内容为中心。该框架包括不同的阶段:匹配、预排名、排名、多路径推理和聚合。其中包含了很多工程细节,值得参考。但没有看到总体耗时相关的描述以及整体代码,可能耗时会相对较长。
2024-07-11 08:29:34
871
2
原创 [论文笔记]RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL
⭐ 作者引入了一种新颖的方法,递归嵌入、聚类和总结文本片段,从底部开始构建具有不同摘要级别的树。在推理期间,首先将这棵树拉平,然后从拉平的树节点中检索,将跨不同抽象级别的庞大文档中的信息整合起来。
2024-07-10 20:54:17
1236
2
原创 [论文笔记]Mixture-of-Agents Enhances Large Language Model Capabilities
⭐ 作者提出了一种混合多个智能体的方法,通过多层的设计,最终层给出输出。取得了较好的效果,但成本和响应时间也增加很多。在仅需要高质量回复的场景下可以使用。
2024-06-25 18:29:34
1022
1
原创 [论文笔记]Are Large Language Models All You Need for Task-Oriented Dialogue?
⭐ 作者测试了基于LLM做领域识别、状态追踪和响应生成。但是状态追踪的效果不好,如果想用LLM做TOD需要额外加入状态追踪逻辑。
2024-06-17 19:11:57
1195
1
原创 [论文笔记]Query Rewriting for Retrieval-Augmented Large Language Models
⭐ 作者提出了可在查询之前先应用LLM作为重写器对问题进行重写,然后再走RAG的流程。同时也提出了可以训练一个小模型来作为重写器。但博主对该小模型的泛化能力存疑。建议还是通过在提示词中给一些示例,让LLM进行重写。
2024-06-11 20:01:52
1264
1
原创 [论文笔记]AIOS: LLM Agent Operating System
⭐ 作者借鉴操作系统的知识,把LLM多智能体的协作看成是一个操作系统,包括短期的内存(记忆)管理器和长期的存储管理器、智能体调度器、访问管理器等。
2024-06-07 22:47:09
1203
2
原创 [论文笔记]KwaiAgents: Generalized Information-seeking Agent System with Large Language Models
⭐ 作者提出了KwaiAgents,由三个部分组成。(1)KAgentSys,一个自主代理循环,集成了存储库、工具库、任务规划和结束模块。(2)KAgentLMs,一套不断微调以增强代理能力的开源LLMs,可以帮助6B-13B的大模型具有较好的代理能力。(3)KAgentBench,一个评估LLMs在不同能力下对不同代理系统的响应性能的基准测试。
2024-06-05 20:51:37
1069
原创 [论文笔记]Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Mod
⭐ 为了解决思维链应用中的计算错误、缺失推理步骤错误和语义理解错误。作者引入了计划与解决提示策略。引导大语言模型制定一个将整个任务分解为较小子任务的计划,并根据计划执行子任务,从而达到更好的效果。
2024-06-05 20:45:46
761
1
原创 [论文笔记]Mixtral of Experts
⭐ 作者提出了Mixtral-8x7B,是一种稀疏的混合专家模型,通过门控机制来选择专家(MoE层),每个时间步只激活少量的专家,可以加快推理计算,但实际上要存储所有的参数所需的资源也是不少的。
2024-06-05 20:43:49
997
原创 [论文笔记]Mistral 7B
⭐ 作者提出了Mistral模型,相比LLaMA引入一些改动:滑动窗口注意力、滚动缓存以及预填充和分块。不管是基础模型还是指令微调模型效果都比较优秀。
2024-06-04 00:07:40
1324
1
原创 [论文笔记]MemGPT: Towards LLMs as Operating Systems
⭐ 作者受传统操作系统中层次化内存系统的启发,提出了虚拟上下文管理技术,通过在物理内存和磁盘之间进行分页,提供无限上下文的错觉。
2024-05-31 18:27:38
1230
2
原创 [论文笔记]SELF-INSTRUCT
作者提出了SELF-INSTRUCT,一种通过利用预训练语言模型自我生成来改进模型遵循指令能力的框架。首先从语言模型中生成指令、输入和输出样本,然后过滤无效或相似的样本。最后微调原始模型。
2024-05-27 21:56:13
1460
2
原创 [论文笔记]REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
⭐ 作者结合了推理和行动以交错方式生成推理轨迹和任务特定行动的方法,用于通用任务的解决。
2024-05-21 20:56:31
830
1
原创 [论文笔记]Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
⭐ 思维链轮笔记:作者提出了通过生成一系列中间推理步骤的思维链,可以显著提升大型语言模型在进行复杂推理时的能力,但是仅限于100B以上的大模型。
2024-05-21 20:52:38
1187
1
原创 [论文笔记]LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
⭐ 作者提出了LoRA,冻结了预训练模型的权重,将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数数量。同时秩分解矩阵和原始矩阵可以合并,可以不引入推理延迟。
2024-05-16 22:05:23
1139
1
原创 [论文笔记]Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Com
⭐ 作者提出了一个自适应QA框架,通过一个分类器计算查询复杂度,然后动态选择最适合的策略,提供了一种平衡的策略,能够在各种查询复杂度下无缝地在迭代和单步检索增强的LLMs之间进行适应,以及无检索方法。
2024-05-16 08:04:01
1023
1
原创 [论文笔记]Corrective Retrieval Augmented Generation
⭐ 本篇工作提出了纠正式RAG来提高RAG生成的鲁棒性,但需要用到一个微调的检索评估器,不想进行这一步的也可以直接用LLM代替。同时对检索后的文档就行细粒度的处理,仅保留相关部分,以避免影响LLM的生成。
2024-05-12 15:47:49
667
原创 [论文笔记]Longformer: The Long-Document Transformer
⭐ 作者提出随着序列长度线性增长的稀疏注意力机制,并提供了自定义CUDA内核实现。
2024-05-05 20:25:32
1199
2
原创 [论文笔记]Language Modeling with Gated Convolutional Networks
⭐ GLU论文笔记:作者提出了门控线性单元,通过类似LSTM的门控机制,让每一层的输出在线性变换的基础上乘上门控来控制信息的传递。
2024-04-28 15:30:54
1235
原创 [论文笔记]SEARCHING FOR ACTIVATION FUNCTIONS
⭐ 作者利用自动搜索技术来发现新的激活函数。并且通过实验发现最佳的激活函数为f(x) = x * sigmoid(βx),称为Swish。
2024-04-28 14:28:52
1366
原创 [论文笔记]Root Mean Square Layer Normalization
⭐ 作者在层归一化的基础上移除掉均值相关项,得到了RMSNorm。然后通过实现证明其效果还不错。
2024-04-17 19:43:52
1750
原创 [论文翻译]GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
⭐ 本篇工作提出分组查询注意力,简单来说就是在MQA的基础上增加了key-value头的数量,经过实验证明取得了不错的效果。
2024-04-13 23:20:49
693
原创 [论文翻译]GLU Variants Improve Transformer
⭐ 作者用流行的激活函数(Swish,GeLU和ReLU等)替换GLU中的激活函数,得到了一个困惑度比较好的GLU变体——SwiGLU,但作者也无法解释效果好的原因。
2024-04-13 21:39:12
810
原创 [论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。
2024-04-13 19:59:04
331
原创 [论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。
2024-04-13 19:56:35
201
英文-中文机器翻译数据集
2022-07-21
bert_sentence_classification.7z
2021-09-25
词性标注traindata.rar
2020-08-29
RocketMQ实战与原理解析【清晰版】
2018-11-03
Java网络编程第4版英文版
2018-07-03
Dubbo与Zookeeper、SpringMVC整合和使用
2017-05-13
安卓实现选择联系人
2014-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人