自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

日积月累,天道酬勤

我代码写的少,你可别骗我

  • 博客(535)
  • 资源 (29)
  • 收藏
  • 关注

原创 从零实现深度学习框架【实现自己的PyTorch(已完结)】

本着“凡我不能创造的,我就不能理解”的思想,此系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架,该框架类似PyTorch能实现自动求导。

2021-12-19 15:38:18 4946

原创 人工智能数学基础之高等数学

人工智能中用到的高数知识,看这一篇就够了。

2019-07-15 23:18:25 11186 6

原创 [论文笔记]LangGPT: Rethinking Structured Reusable Prompt Design Framework for LLMs from the Programming

⭐ 作者提出了基于双层结构的提示设计框架,还提供了基于LangGPT的常见场景的通用提示模板。重要的是上线了一个在线社区,其中包含很多提示案例可以来学习参考。

2024-07-16 19:34:03 834

原创 [论文笔记]构建基于RAG聊天机器人的要素

⭐ 作者来自英伟达的团队,介绍了他们在构建企业级RAG聊天机器人的经验。提出了FACTS这5个要注意的方面以及15个可提升性能的控制点。是一篇偏实战的工作,值得仔细研读。

2024-07-12 20:30:00 766

原创 [论文笔记]涨点近5%! 以内容中心的检索增强生成可扩展的级联框架:Pistis-RAG

⭐ 作者提出了一个新颖的框架,以内容为中心。该框架包括不同的阶段:匹配、预排名、排名、多路径推理和聚合。其中包含了很多工程细节,值得参考。但没有看到总体耗时相关的描述以及整体代码,可能耗时会相对较长。

2024-07-11 08:29:34 871 2

原创 [论文笔记]RAPTOR: RECURSIVE ABSTRACTIVE PROCESSING FOR TREE-ORGANIZED RETRIEVAL

⭐ 作者引入了一种新颖的方法,递归嵌入、聚类和总结文本片段,从底部开始构建具有不同摘要级别的树。在推理期间,首先将这棵树拉平,然后从拉平的树节点中检索,将跨不同抽象级别的庞大文档中的信息整合起来。

2024-07-10 20:54:17 1236 2

原创 [论文笔记]Mixture-of-Agents Enhances Large Language Model Capabilities

⭐ 作者提出了一种混合多个智能体的方法,通过多层的设计,最终层给出输出。取得了较好的效果,但成本和响应时间也增加很多。在仅需要高质量回复的场景下可以使用。

2024-06-25 18:29:34 1022 1

原创 [论文笔记]Are Large Language Models All You Need for Task-Oriented Dialogue?

⭐ 作者测试了基于LLM做领域识别、状态追踪和响应生成。但是状态追踪的效果不好,如果想用LLM做TOD需要额外加入状态追踪逻辑。

2024-06-17 19:11:57 1195 1

原创 LangGraph核心概念

介绍LangGraph核心概念。

2024-06-14 22:47:18 904

原创 [论文笔记]Query Rewriting for Retrieval-Augmented Large Language Models

⭐ 作者提出了可在查询之前先应用LLM作为重写器对问题进行重写,然后再走RAG的流程。同时也提出了可以训练一个小模型来作为重写器。但博主对该小模型的泛化能力存疑。建议还是通过在提示词中给一些示例,让LLM进行重写。

2024-06-11 20:01:52 1264 1

原创 [论文笔记]AIOS: LLM Agent Operating System

⭐ 作者借鉴操作系统的知识,把LLM多智能体的协作看成是一个操作系统,包括短期的内存(记忆)管理器和长期的存储管理器、智能体调度器、访问管理器等。

2024-06-07 22:47:09 1203 2

原创 [论文笔记]KwaiAgents: Generalized Information-seeking Agent System with Large Language Models

⭐ 作者提出了KwaiAgents,由三个部分组成。(1)KAgentSys,一个自主代理循环,集成了存储库、工具库、任务规划和结束模块。(2)KAgentLMs,一套不断微调以增强代理能力的开源LLMs,可以帮助6B-13B的大模型具有较好的代理能力。(3)KAgentBench,一个评估LLMs在不同能力下对不同代理系统的响应性能的基准测试。

2024-06-05 20:51:37 1069

原创 [论文笔记]Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Mod

⭐ 为了解决思维链应用中的计算错误、缺失推理步骤错误和语义理解错误。作者引入了计划与解决提示策略。引导大语言模型制定一个将整个任务分解为较小子任务的计划,并根据计划执行子任务,从而达到更好的效果。

2024-06-05 20:45:46 761 1

原创 [论文笔记]Mixtral of Experts

⭐ 作者提出了Mixtral-8x7B,是一种稀疏的混合专家模型,通过门控机制来选择专家(MoE层),每个时间步只激活少量的专家,可以加快推理计算,但实际上要存储所有的参数所需的资源也是不少的。

2024-06-05 20:43:49 997

原创 [论文笔记]Mistral 7B

⭐ 作者提出了Mistral模型,相比LLaMA引入一些改动:滑动窗口注意力、滚动缓存以及预填充和分块。不管是基础模型还是指令微调模型效果都比较优秀。

2024-06-04 00:07:40 1324 1

原创 [论文笔记]MemGPT: Towards LLMs as Operating Systems

⭐ 作者受传统操作系统中层次化内存系统的启发,提出了虚拟上下文管理技术,通过在物理内存和磁盘之间进行分页,提供无限上下文的错觉。

2024-05-31 18:27:38 1230 2

原创 Llama改进之——分组查询注意力

本文介绍了分组查询注意力的实现以及如何应用旋转位置编码到分组查询注意力上。

2024-05-31 18:26:29 1226

原创 Llama改进之——RoPE旋转位置编码

旋转位置编码从理论到实战。

2024-05-29 18:30:32 853

原创 [论文笔记]SELF-INSTRUCT

作者提出了SELF-INSTRUCT,一种通过利用预训练语言模型自我生成来改进模型遵循指令能力的框架。首先从语言模型中生成指令、输入和输出样本,然后过滤无效或相似的样本。最后微调原始模型。

2024-05-27 21:56:13 1460 2

原创 [论文笔记]REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

⭐ 作者结合了推理和行动以交错方式生成推理轨迹和任务特定行动的方法,用于通用任务的解决。

2024-05-21 20:56:31 830 1

原创 [论文笔记]Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

⭐ 思维链轮笔记:作者提出了通过生成一系列中间推理步骤的思维链,可以显著提升大型语言模型在进行复杂推理时的能力,但是仅限于100B以上的大模型。

2024-05-21 20:52:38 1187 1

原创 [论文笔记]LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

⭐ 作者提出了LoRA,冻结了预训练模型的权重,将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数数量。同时秩分解矩阵和原始矩阵可以合并,可以不引入推理延迟。

2024-05-16 22:05:23 1139 1

原创 [论文笔记]Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Com

⭐ 作者提出了一个自适应QA框架,通过一个分类器计算查询复杂度,然后动态选择最适合的策略,提供了一种平衡的策略,能够在各种查询复杂度下无缝地在迭代和单步检索增强的LLMs之间进行适应,以及无检索方法。

2024-05-16 08:04:01 1023 1

原创 [论文笔记]Corrective Retrieval Augmented Generation

⭐ 本篇工作提出了纠正式RAG来提高RAG生成的鲁棒性,但需要用到一个微调的检索评估器,不想进行这一步的也可以直接用LLM代替。同时对检索后的文档就行细粒度的处理,仅保留相关部分,以避免影响LLM的生成。

2024-05-12 15:47:49 667

原创 [论文笔记]Longformer: The Long-Document Transformer

⭐ 作者提出随着序列长度线性增长的稀疏注意力机制,并提供了自定义CUDA内核实现。

2024-05-05 20:25:32 1199 2

原创 Llama改进之——SwiGLU激活函数

本文介绍如何实现SwiGLU。

2024-05-04 14:54:44 2323

原创 [论文笔记]Language Modeling with Gated Convolutional Networks

⭐ GLU论文笔记:作者提出了门控线性单元,通过类似LSTM的门控机制,让每一层的输出在线性变换的基础上乘上门控来控制信息的传递。

2024-04-28 15:30:54 1235

原创 [论文笔记]SEARCHING FOR ACTIVATION FUNCTIONS

⭐ 作者利用自动搜索技术来发现新的激活函数。并且通过实验发现最佳的激活函数为f(x) = x * sigmoid(βx),称为Swish。

2024-04-28 14:28:52 1366

原创 [论文笔记]GAUSSIAN ERROR LINEAR UNITS (GELUS)

看完本篇文章你就会深入理解BERT中用到的GELU激活函数。

2024-04-28 09:34:03 723

原创 Llama改进之——均方根层归一化RMSNorm

本文介绍Llama模型引入的均方根层归一化改进。

2024-04-23 22:11:48 3669

原创 [论文笔记]Root Mean Square Layer Normalization

⭐ 作者在层归一化的基础上移除掉均值相关项,得到了RMSNorm。然后通过实现证明其效果还不错。

2024-04-17 19:43:52 1750

原创 [论文翻译]GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

⭐ 本篇工作提出分组查询注意力,简单来说就是在MQA的基础上增加了key-value头的数量,经过实验证明取得了不错的效果。

2024-04-13 23:20:49 693

原创 [论文翻译]GLU Variants Improve Transformer

⭐ 作者用流行的激活函数(Swish,GeLU和ReLU等)替换GLU中的激活函数,得到了一个困惑度比较好的GLU变体——SwiGLU,但作者也无法解释效果好的原因。

2024-04-13 21:39:12 810

原创 [论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)

该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。

2024-04-13 19:59:04 331

原创 [论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)

该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。

2024-04-13 19:56:35 201

原创 复数与二维空间旋转

为了理解旋转位置编码才有了这篇文章

2024-04-06 17:57:02 742

原创 李宏毅深度强化学习导论——当奖励是稀疏的

本文介绍如何处理稀疏奖励问题。

2024-04-01 20:41:38 693

原创 GPT2从放弃到入门(四)

本文介绍如何将模型转换为ONNX,并在HuggingFace的Spaces上部署提供给大家访问。

2024-03-26 22:49:52 1246 1

原创 李宏毅深度强化学习导论——演员-评论员

本文主要介绍演员-评论员(Actor-Critic)算法。

2024-03-26 08:32:07 730

原创 李宏毅深度强化学习导论——策略梯度

本文介绍了什么是策略梯度

2024-03-25 20:44:29 757

Transformer机器翻译数据集

机器翻译数据集,使用教程 https://helloai.blog.csdn.net/article/details/135344697

2024-01-03

英文-中文机器翻译数据集

中英文翻译数据集: Anyone can do that. 任何人都可以做到。 How about another piece of cake? 要不要再來一塊蛋糕? She married him. 她嫁给了他。 I don't like learning irregular verbs. 我不喜欢学习不规则动词。 It's a whole new ball game for me. 這對我來說是個全新的球類遊戲。 He's sleeping like a baby. 他正睡着,像个婴儿一样。 He can play both tennis and baseball. 他既会打网球,又会打棒球。 We should cancel the hike. 我們應該取消這次遠足。 He is good at dealing with children. 他擅長應付小孩子。

2022-07-21

介绍TFIDF与BM25的优秀PPT

介绍从TFIDF到BM25的优秀PPT

2022-06-23

bert_sentence_classification.7z

基于HuggingFace 哈工大hfl/chinese-bert-wwm-ext预训练模型微调的中文句子分类模型

2021-09-25

chinese_sentence_classification_corpus.7z

中文问句分类数据集,可用于训练中文问句分类和句向量抽取等任务。

2021-09-25

sentence_classification.7z

基于HuggingFace 哈工大hfl/chinese-robert-wwm-ext预训练模型微调的中文句子分类模型

2021-09-24

chinese_wwm_ext_pytorch.zip

哈工大发布的BERT WWM-EXT版预训练模型

2021-09-21

VIM常见命令总结vim常见命令总结

VIM常见命令总结VIM常见命令总结

2021-08-19

datasets.rar

文章中用到的数据

2021-03-01

英文情绪分类数据集文件

经典的英文情绪分类/情感分析数据集

2020-09-02

词性标注traindata.rar

英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。英文词性标注训练数据。

2020-08-29

Typora 0.9.9.66 绿色版

Typora 0.9.9.66 绿色版

2019-03-19

RabbitMQ示例代码

rabbitmq示例代码,

2018-12-17

RocketMQ实战与原理解析【清晰版】

作者是阿里资深数据专家,对RocketMQ有深入的研究,并有大量的实践经验。在写这本书之前,作者不仅系统、深入地阅读了RocketMQ的源代码,而且还向RocketMQ的官方开发团队深入了解了它的诸多设计细节。作者结合自己多年使用RocketMQ的经验,从开发和运维两个维度,给出了大部分场景下的优秀实践,能帮助读者在学会使用和用好RocketMQ的同时,尽量少“踩坑”。同时,本书也结合源码分析了分布式消息队列的原理,使读者可以在复杂业务场景下定制有特殊功能的消息队列。 该PDF仅供购买纸质版参考,请在下载24小时后删除!!!

2018-11-03

Angular6依赖注入Demo

Angular6依赖注入Demo,包含懒加载实现。 Angular6依赖注入Demo,包含懒加载实现。

2018-07-23

Java网络编程第4版英文版

《Java网络编程(第四版)》实用指南全面介绍了如何使用Java开发网络程序。你将学习如何使用Java的网络类库既快速又轻松地完成常见的网络编程任务,如编写多线程服务器、加密通信、广播到本地网络,以及向服务器端程序提交数据。作者提供了真正可实用的程序来讲解他介绍的方法和类。第4版经过全面修订,已经涵盖REST、SPDY、异步I/O和很多其他高级技术。本书主要内容有:研究Internet底层协议,如TCP/IP和UDP/IP;了解Java的核心I/O API如何处理网络输入和输出;发现InetAddress类如何帮助Java程序与DNS交互;用Java的URI和URL类定位、识别和下载网络资源;深入研究HTTP协议,包括REST、HTTP首部和cookie;使用Java的底层Socket类编写服务器和网络客户端;利用非阻塞I/O同时管理多个连接。

2018-07-03

snmp4j-2.2.5.jar

snmp4j 2.2.5 版本的 snmp4j 2.2.5 版本的 snmp4j 2.2.5 版本的

2018-07-03

非常好的红黑树教程,值得一看

红黑树教程,看这一篇就够了

2018-05-16

Dubbo与Zookeeper、SpringMVC整合和使用

Dubbo与Zookeeper、SpringMVC整合和使用 项目代码,文章见:http://www.cnblogs.com/EDGClearlove/p/6848460.html

2017-05-13

dubbo-admin-2.5.4

兼容jdk1.8的dubbo-admin

2017-05-12

Java JDBC 连接数据库实例

Java JDBC 连接数据库实例 通用度稍好

2014-10-28

安卓实现选择联系人

一个选择联系人控件实现,可以显示联系人名称,图片,号码。 支持多选,自定义了Checkbox样式,自定义了Adapter 界面可以自己修改。 缺点是字符串没有放到String.xml里面,懒得改了。 这是一个小作品目里面的测试功能。 本人新手,不足之处请大家指点出来。 PS:资源分2分不多吧

2014-09-08

JavaIO 2nd Edition PDF

Java IO 第二版 真正PDF版本的

2013-04-24

软件需求规格说明书

软件需求规格说明书模板,解释得很详细。值得一下

2013-04-10

非递归归并排序详细分析

非递归归并排序详细分析,Java实现. 非常详细,基本上可以看明白

2012-09-25

易学C++教程

比较适合新手入门的一本教程。 可以让你由浅入深,从入门到精通。

2011-12-03

C++真值表模拟程序

这是一个用C++做的离散数学 实现任意给定公式真值表的计算,并显示运算结果。

2011-12-03

主流编程语言的选择和学习杂谈

此资料送给那些在选择学习编程语言的人 ,所有内容都摘自网络。

2011-10-15

coloader80.dll

coloader80.dll 下载看看。 描述要大于字,怎么办了。我要怎么描述啊。

2011-08-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除