一夜了-CSDN博客

原创对话机器人-检索与生成模型

综述从应用的角度来说，对话机器人可以分为三个类别，分别是闲聊机器人，qa机器人以及任务型机器人。本系列主要介绍闲聊机器人。由于本文的内容主要是对对话机器人做一个简单的介绍，所以都是一些简单的介绍，详细的内容后面后有介绍。一 QA机器人问答机器人主要功能是在知识库找到用户提问的问题的答案。主要用于智能客服等。一般来说问答机器人是不涉及多轮，主要是针对某一个领域的问答。构建一个问答...

2019-12-17 22:47:54 36811 50

原创设计模式之小结

设计模式系统总结： 1.设计模式-创建型软件设计模式(一) 2.设计模式-创建型软件设计模式(二) 3.设计模式-创建型软件设计模式(三) 4.设计模式-结构型软件设计模式(一) 5.设计模式-结构型软件设计模式(二) 6.设计模式-结构型软件设计模式(三) 7.设计模式-结构型软件设计模式(四) 8.设计模式-行为型软件设计模式(一) 9. 设计模式-行为型软件设计模式(二)

2017-07-16 12:00:56 26343 17

原创算法与数据结构系列

本篇是算法与数据结构系列的目录： 1.排序算法总结 2.红黑树 3.在线生成红黑树作者：yiyele 转载请保留原文地址：http://write.blog.csdn.net/mdeditor#!postId=74317447如果本文对您有所帮助，欢迎您扫码下图所示的微信支付点赞码对本文进行打赏。

2017-07-04 14:10:24 25886 16

原创 C++系列之浅谈

本篇blog是关于所有Ｃ＋＋文章的所有链接总结：１.从C++类创建后，自动创建的函数有哪些开始谈起２.this指针介绍 3.C++模板详解 4.C++关键字总结 5. C++内存处理 6. 内存映射文件原理探索 7.C++中使用内存映射文件存取struct，并用指针访问 8.C++实现只能动态或者静态创建对象 9.静态链接库和动态链接库 1

2017-06-29 18:21:51 10669 2

原创关于机器学习-深度学习的总结

最近在知乎上看到了一个机器学习的相关学习流程，觉得很有道理，所以，后面的blog我将开始具体的分享一些机器学习的学习笔记。目前已经更新的blog有：数据篇：1.关于中英文语料的获取途径总结基础总结篇：1.机器学习中的相似性度量2.机器学习中的损失函数总结3.pearson相关系数与spearman相关系数4.机器学习中error（误差），bias（偏差）与varienc............

2017-02-28 13:41:28 12648 1

原创【RL系列】RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

本文提出了StarPO（State-Thinking-Actions-Reward Policy Optimization)），这是一个轨迹级智能体强化学习的通用框架，并引入了RAGEN，这是一个用于训练和评估LLM智能体的模块化系统。

2025-04-30 21:32:26 1097

原创【RL系列】ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

本文介绍了ReTool，一种tool-based RL训练方式，让llm训练后会调用tool。

2025-04-19 16:47:05 970

原创【RL系列】DAPO: An Open-Source LLM Reinforcement Learning System at Scale

尽管RL对complex reasoning效果提升有重要作用，但是在openAI o1和DeepSeek R1 technical report上都没有详细的实验细节。本文主要提出了DAPO算法，提出了4个关键技术点并开源参数和代码。在AIME 2024验证了DAPO算法的有效性。

2025-04-13 23:47:32 1302

原创【RL系列】What’s Behind PPO’s Collapse in Long-CoT? Value Optimization Holds the Secret

因为在long CoT训练中，采用的是rule-based reward，所以不太可能对output length有偏好。为了更好的定位这个问题，本文图示了value，advantage和token position之间的关系。时，会给accumulated reward带来较大的方差，最终会导致更慢的收敛。相比之下，在RLHF中，一个reward model或rule-based scoring mechanism提供了一个非积累和定义良好的轨迹级反馈。

2025-04-09 23:10:25 1088

原创【RL系列】StepFun之Open-Reasoner-Zero

本文主要介绍了stepfun在PPO上的一些实践经验。并且开源了包括code，数据，实验参数等。

2025-04-09 18:35:43 1125

原创【LLM系列】Deepseek-R1模型详细介绍

本文主要介绍了deepseek-r1和deepseek-r1-zero两种模型的数据构造方式及训练方式。

2025-02-26 20:44:50 1181

原创预训练技巧：在训练末尾对领域数据上采样

介绍了一种在模型训练结尾对领域数据上采样能够提升在benchmark上的指标。通过实验表明上采样比例在10-20%是能够在通用语言能力与目标benchmark保持权衡的最好比例。

2024-09-30 15:50:43 1317 4

原创随着Batch size增加，最佳learning rate如何选择？

一开始learning rate随着batch size增大而增大，随后达到一个点后，会随着batch size增加而降低，同时，随着训练不断进行，BnoiseB_{noise}Bnoise会不断后移。为了加速训练进程，可以设计自适应的learning rate和batch size。

2024-09-14 16:55:58 1438 4

原创【MLLM系列】MiniCPM-V

模型结构层面和llava类似，只不过connection layer一个是MLP，一个是perceiver resampler，但对模型效果影响不大；预训练阶段仅训练vit和compression layer；多语言能力仅靠LLM和sft阶段；为了降低幻觉使用了RLAIF-V；目前MiniCPM-V2.6已经发布了，有了更强的OCR，多语言，可靠性，因为目前technical report还没发布，技术细节还不清楚。

2024-09-13 20:58:40 1523

原创 Post-Training有多重要？一文带你了解全部细节

本文主要介绍了llama3.1，Nemotron4-340B及gemma2三个模型在post-training阶段的一些工作。主要涉及数据搜集，合成数据，SFT及DPO等。

2024-09-07 18:29:26 3539 4

原创论文阅读-Transformer Layers as Painters

尽管大语言模型现在已经被广泛的应用于各种任务，但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响，本文设计了一系列的实验。通过实验表明，预训练语言模型中的lower和final layers与中间层分布不一致，并且中间层有着惊人的一致性。

2024-08-14 20:32:05 1500 4

原创【MLLM系列】MM1

这部分主要探索三个（结构，数据和训练步骤）对多模态大模型效果的影响，模型基础配置：Image Encoder：ViT-L/14模型，训练loss为clip loss，训练数据DFN-5B和VeCap-300M，image size为336*336Vision-Language Connector：C-Abstractor，最大输出144 image token。

2024-07-15 17:13:02 1270 2

原创【MLLM系列】LLaVA系列模型

本文主要介绍了LLaVA系列的多模态大模型，详细的介绍了每个版本的优化思路及方法。

2024-07-08 15:58:57 1868 2

原创【RL系列】Q-learning算法

本文主要介绍强化学习之Q-learning算法，如果喜欢的话可以多读读。

2023-05-25 09:00:00 1246

原创【RL系列】Policy Gradient算法

自chatgpt出来之后，SFT+RM+RL就成为了对话模型的主流技术，本系列主要介绍强化学习相关的技术。

2023-05-23 19:59:46 1103 1

原创一文了解预训练相关加速技巧

大模型训练效率技巧总结, 包括数据并行, 模型并行, 流水线并行, ZeRO等技术, 以及megatron, deepspeed, oneflow等框架的介绍.

2021-12-01 16:46:39 14408 18

原创位置编码 - 领略位置编码神奇的风景 - 系列(1)

位置编码 - 领略位置编码神奇的风景 - 系列(1)前文自从attention在nlp流行之后，不管是在bert还是在transformer，都缺少不了位置编码的身影（position embedding）。主要原因是attention在计算的时候，不管是QK之间的点乘运算，还是attention scores与V之间的点乘运算在训练时都是并行计算的，从逻辑上来说，跟RNN不一样，attention处理时并没有先后之分。当一个句子中出现多个相同的token时，从语义上来说，同一个t

2021-08-26 20:13:16 13248 72

原创一文让你了解生成模型相关的解码Tricks

一文让你了解生成模型相关的解码Tricks本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的，如果对于屏幕前的隔着读者有些许帮助，真是欣慰之至。当然，各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞，评论，收藏。在生成模型中，解码是一个很重要的步骤，直接影响到生成回复质量的高低，所以除了一些解码策略可以使用之外，在解码策略之中，可以穿插使用一些tricks，通过这些tricks的使用，可以解决一些在解码策略中出现的问题，例如解码出现“UNK”字符，解码长度过短等问题。这些trick

2021-08-06 16:21:32 14922 64

原创生成模型-解码策略小结

解码方法小结本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的，如果对于屏幕前的隔着读者有些许帮助，真是欣慰之至。当然，各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞，评论，收藏。1. 简介在对话生成任务中，解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy，beam search，top-k以及top p等方法。每种方法都有自己的优缺点。本文主要是针对上面的解码策略做个汇总，以便读者以及笔者后续查看。在自回归的解码方法，主要是在inference阶段，

2021-04-15 16:42:02 23145 6

原创最详尽版本：一文带你了解beam search算法

目录文章目录目录Beam Search算法1. 简介2. 算法细节3. 具体实现4.算法优化Beam Search算法1. 简介在对话生成任务中，解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy，beam search，top-k以及top p等方法。每种方法都有自己的优缺点。本文主要针对beam search方法做详细的介绍。其它相关的解码策略后面会有相应的文章进行介绍，这里就不多做说明。在自回归的解码方法，主要是在inference阶段，输入query，然后

2021-04-12 23:24:34 24455 4

原创【LLM系列】transformer具体介绍-威力加强版

目录文章目录目录Transformer模型介绍1. 简介1.1 模型结构图1.2 概括2. 具体模块2.1 Inputs2.2 Encoder2.3 Decoder3. 示例说明3.1 具体示例3.2 模型训练3.3 inference阶段Transformer模型介绍1. 简介1.1 模型结构图本文主要介绍了transformer模型，尽力做到对transformer的模型的结构与代码面面俱到，让读者能够通过阅读本文对transformer总体结果与实现细节方面都能够有清晰的认识。当然，做到上

2021-04-07 22:13:15 22910 7

原创终端快捷键操作

Terminator操作快捷命令具体的命令操作如下：作用命令打开terminatorCtrl+Alt+T新建终端窗口Ctrl+Shift+T关闭终端窗口Ctrl+D清空屏幕Ctrl+L自动补全Tab光标移动到行首Ctrl+a光标移动到行末Ctrl+e向前移动光标Ctrl+f向后移动光标Ctrl+b删除当前字符Ctrl+d删除前一个字符Ctrl+h删除光标至行首所有字符Ctrl+u删除光标至

2020-11-10 19:54:49 28333 3

原创 nlp相关会议总结

相关nlp会议的总结A类：ACL(ACL) Meeting of the Association for Computational Linguistics 下载地址：https://link.zhihu.com/?target=http%3A//www.aclweb.org/anthology-new/IJCAI(AAAI) International Joint Conference on Artificial Intelligence 国际人工智能联合会议两年一次，奇数年份举办 IJ

2020-06-23 20:33:07 32714

原创线性规划-概念与公式总结

linear algebra用空间的语言表达向量、矩阵和行列式向量与空间基底线性空间是一个只有原点的空间，没有坐标，没有刻度。所以在线性空间中只能做向量的加法与数乘（数字与向量相乘）运算。但是为了能够更好的描述有向线段，所以需要基底。所以作为基准的一组向量作为基底，这一组向量中的的每个向量称为基向量。基底的选取条件：当前空间中的任何向量v→\overrightarrow{v}v都可以表示为：v→=xie→1+...+xne→n\overrightarrow{v}=x_i\overrigh

2020-06-23 20:29:19 36035 7

原创 Docker使用教程之命令大全

Docker 使用教程主要命令搜索需要的imagedocker search XXX拉取镜像：docker image pull XXX运行docker：docker run --gpus all -itd --name xxq_tf2 -v /home/work/xx/data:/root/data -v /home/work/xx/algpt2:/root/algpt2 -v /home/work/xx/algpt2:/root/xx patientzero/tensorf

2020-05-22 19:43:00 31243 2

原创 chatbot-检索式模型介绍（四）

检索式模型介绍（四）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-04-19 15:46:53 34405

原创 Chatbot-检索式模型介绍（三）

检索式模型介绍（三）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-01-19 16:28:23 35551

原创 Chatbot-检索式模型介绍（二）

检索式模型介绍（二）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-01-15 20:46:29 36228

原创 Chatbot-检索式模型介绍（一）

检索式模型介绍（一）这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型，有些是比较基础的算法，例如bm25。有些模型是基于深度学习的架构，比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式，一个是学习不同domain中text的represation，然后利用represation计算score，这个的score可以是相似度（cosine，欧式距离等）。...

2020-01-08 20:34:48 33859

原创 tensorflow serving服务器安装过程总结

1.安装环境centoscuda 9cudnn 72.非gpu版本tf_serving安装tf_serving的安装(非gpu版本)(cuda 9 cudnn 7)编译tf_serving的过程git clone -b r1.3 --recurse-submodules https://github.com/tensorflow/serving进入serving/tensor...

2019-05-06 14:54:13 23532 4

原创 bert模型代码介绍

关于bert模型的细节记录1. Input1.1. pretrain输入包含七个部分,分别为input_ids,input_mask,segment_ids,masked_lm_positions,mask_lm_ids,masked_lm_weights,next_sentence_labels.input_ids:表示tokens的idsinput_mask:表示哪些是inpu...

2019-05-06 14:46:28 37099 7

原创 tensorflow- tf.reduce_all

函数 tf.reduce_all示例

2019-04-09 20:01:34 2501

原创 tensoflow-unstack

函数unstack示例

2019-04-09 19:59:29 24145

原创 tensorflow-tile_batch

函数tensorflow.contrib.seq2seq.tile_batch作用主要是对tensor复制importtensorflow.contrib.seq2seq as seq2seq示例

2019-04-09 19:49:56 22553

原创论文总结：Ask Me Anything: Dynamic Memory Networks for Natural Language Processing

论文总结：Ask Me Anything: Dynamic Memory Networks for Natural Language Processing简介具体结构Input ModuleQuestion ModuleEpisodic Memory ModuleAnswer Module简介本文主要是对《Ask Me Anything: Dynamic Memory Networks for...

2018-09-30 14:32:58 17724