- 博客(129)
- 资源 (49)
- 问答 (1)
- 收藏
- 关注
原创 对话机器人-检索与生成模型
综述从应用的角度来说,对话机器人可以分为三个类别,分别是闲聊机器人,qa机器人以及任务型机器人。本系列主要介绍闲聊机器人。由于本文的内容主要是对对话机器人做一个简单的介绍,所以都是一些简单的介绍,详细的内容后面后有介绍。一 QA机器人问答机器人主要功能是在知识库找到用户提问的问题的答案。主要用于智能客服等。一般来说问答机器人是不涉及多轮,主要是针对某一个领域的问答。构建一个问答...
2019-12-17 22:47:54 36552 49
原创 设计模式之小结
设计模式系统总结: 1.设计模式-创建型软件设计模式(一) 2.设计模式-创建型软件设计模式(二) 3.设计模式-创建型软件设计模式(三) 4.设计模式-结构型软件设计模式(一) 5.设计模式-结构型软件设计模式(二) 6.设计模式-结构型软件设计模式(三) 7.设计模式-结构型软件设计模式(四) 8.设计模式-行为型软件设计模式(一) 9. 设计模式-行为型软件设计模式(二)
2017-07-16 12:00:56 26296 17
原创 算法与数据结构系列
本篇是算法与数据结构系列的目录: 1.排序算法总结 2.红黑树 3.在线生成红黑树作者:yiyele 转载请保留原文地址:http://write.blog.csdn.net/mdeditor#!postId=74317447如果本文对您有所帮助,欢迎您扫码下图所示的微信支付点赞码对本文进行打赏。
2017-07-04 14:10:24 25852 16
原创 C++系列之浅谈
本篇blog是关于所有C++文章的所有链接总结: 1.从C++类创建后,自动创建的函数有哪些开始谈起 2.this指针介绍 3.C++模板详解 4.C++关键字总结 5. C++内存处理 6. 内存映射文件原理探索 7.C++中使用内存映射文件存取struct,并用指针访问 8.C++实现只能动态或者静态创建对象 9.静态链接库和动态链接库 1
2017-06-29 18:21:51 10605 1
原创 关于机器学习-深度学习的总结
最近在知乎上看到了一个机器学习的相关学习流程,觉得很有道理,所以,后面的blog我将开始具体的分享一些机器学习的学习笔记。目前已经更新的blog有:数据篇:1.关于中英文语料的获取途径总结基础总结篇:1.机器学习中的相似性度量2.机器学习中的损失函数总结3.pearson相关系数与spearman相关系数4.机器学习中error(误差),bias(偏差)与varienc............
2017-02-28 13:41:28 12602 1
原创 预训练技巧:在训练末尾对领域数据上采样
介绍了一种在模型训练结尾对领域数据上采样能够提升在benchmark上的指标。通过实验表明上采样比例在10-20%是能够在通用语言能力与目标benchmark保持权衡的最好比例。
2024-09-30 15:50:43 1102 2
原创 随着Batch size增加,最佳learning rate如何选择?
一开始learning rate随着batch size增大而增大,随后达到一个点后,会随着batch size增加而降低,同时,随着训练不断进行,BnoiseB_{noise}Bnoise会不断后移。为了加速训练进程,可以设计自适应的learning rate和batch size。
2024-09-14 16:55:58 1236 3
原创 多模态大模型-MiniCPM-V
模型结构层面和llava类似,只不过connection layer一个是MLP,一个是perceiver resampler,但对模型效果影响不大;预训练阶段仅训练vit和compression layer;多语言能力仅靠LLM和sft阶段;为了降低幻觉使用了RLAIF-V;目前MiniCPM-V2.6已经发布了,有了更强的OCR,多语言,可靠性,因为目前technical report还没发布,技术细节还不清楚。
2024-09-13 20:58:40 1127
原创 Post-Training有多重要?一文带你了解全部细节
本文主要介绍了llama3.1,Nemotron4-340B及gemma2三个模型在post-training阶段的一些工作。主要涉及数据搜集,合成数据,SFT及DPO等。
2024-09-07 18:29:26 1604 3
原创 论文阅读-Transformer Layers as Painters
尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。
2024-08-14 20:32:05 1341 3
原创 多模态大模型 - MM1
这部分主要探索三个(结构,数据和训练步骤)对多模态大模型效果的影响,模型基础配置:Image Encoder:ViT-L/14模型,训练loss为clip loss,训练数据DFN-5B和VeCap-300M,image size为336*336Vision-Language Connector:C-Abstractor,最大输出144 image token。
2024-07-15 17:13:02 1101 2
原创 强化学习系列之Policy Gradient算法
自chatgpt出来之后,SFT+RM+RL就成为了对话模型的主流技术,本系列主要介绍强化学习相关的技术。
2023-05-23 19:59:46 1003 1
原创 一文了解预训练相关加速技巧
大模型训练效率技巧总结, 包括数据并行, 模型并行, 流水线并行, ZeRO等技术, 以及megatron, deepspeed, oneflow等框架的介绍.
2021-12-01 16:46:39 14309 18
原创 位置编码 - 领略位置编码神奇的风景 - 系列(1)
位置编码 - 领略位置编码神奇的风景 - 系列(1)前文自从attention在nlp流行之后,不管是在bert还是在transformer,都缺少不了位置编码的身影(position embedding)。主要原因是attention在计算的时候,不管是QK之间的点乘运算,还是attention scores与V之间的点乘运算在训练时都是并行计算的,从逻辑上来说,跟RNN不一样,attention处理时并没有先后之分。当一个句子中出现多个相同的token时,从语义上来说,同一个t
2021-08-26 20:13:16 13106 72
原创 一文让你了解生成模型相关的解码Tricks
一文让你了解生成模型相关的解码Tricks本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的,如果对于屏幕前的隔着读者有些许帮助,真是欣慰之至。当然,各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞,评论,收藏。在生成模型中,解码是一个很重要的步骤,直接影响到生成回复质量的高低,所以除了一些解码策略可以使用之外,在解码策略之中,可以穿插使用一些tricks,通过这些tricks的使用,可以解决一些在解码策略中出现的问题,例如解码出现“UNK”字符,解码长度过短等问题。这些trick
2021-08-06 16:21:32 14862 64
原创 生成模型-解码策略小结
解码方法小结本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的,如果对于屏幕前的隔着读者有些许帮助,真是欣慰之至。当然,各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞,评论,收藏。1. 简介在对话生成任务中,解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy,beam search,top-k以及top p等方法。每种方法都有自己的优缺点。本文主要是针对上面的解码策略做个汇总,以便读者以及笔者后续查看。在自回归的解码方法,主要是在inference阶段,
2021-04-15 16:42:02 23060 6
原创 最详尽版本:一文带你了解beam search算法
目录文章目录目录Beam Search算法1. 简介2. 算法细节3. 具体实现4.算法优化Beam Search算法1. 简介在对话生成任务中,解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy,beam search,top-k以及top p等方法。每种方法都有自己的优缺点。本文主要针对beam search方法做详细的介绍。其它相关的解码策略后面会有相应的文章进行介绍,这里就不多做说明。在自回归的解码方法,主要是在inference阶段,输入query,然后
2021-04-12 23:24:34 24321 4
原创 transformer具体介绍-威力加强版
目录文章目录目录Transformer模型介绍1. 简介1.1 模型结构图1.2 概括2. 具体模块2.1 Inputs2.2 Encoder2.3 Decoder3. 示例说明3.1 具体示例3.2 模型训练3.3 inference阶段Transformer模型介绍1. 简介1.1 模型结构图本文主要介绍了transformer模型,尽力做到对transformer的模型的结构与代码面面俱到,让读者能够通过阅读本文对transformer总体结果与实现细节方面都能够有清晰的认识。当然,做到上
2021-04-07 22:13:15 22857 7
原创 终端快捷键操作
Terminator操作快捷命令具体的命令操作如下:作用命令打开terminatorCtrl+Alt+T新建终端窗口Ctrl+Shift+T关闭终端窗口Ctrl+D清空屏幕Ctrl+L自动补全Tab光标移动到行首Ctrl+a光标移动到行末Ctrl+e向前移动光标Ctrl+f向后移动光标Ctrl+b删除当前字符Ctrl+d删除前一个字符Ctrl+h删除光标至行首所有字符Ctrl+u删除光标至
2020-11-10 19:54:49 28300 3
原创 nlp相关会议总结
相关nlp会议的总结A类:ACL(ACL) Meeting of the Association for Computational Linguistics 下载地址:https://link.zhihu.com/?target=http%3A//www.aclweb.org/anthology-new/IJCAI(AAAI) International Joint Conference on Artificial Intelligence 国际人工智能联合会议两年一次,奇数年份举办 IJ
2020-06-23 20:33:07 32534
原创 线性规划-概念与公式总结
linear algebra用空间的语言表达向量、矩阵和行列式向量与空间基底线性空间是一个只有原点的空间,没有坐标,没有刻度。所以在线性空间中只能做向量的加法与数乘(数字与向量相乘)运算。但是为了能够更好的描述有向线段,所以需要基底。所以作为基准的一组向量作为基底,这一组向量中的的每个向量称为基向量。基底的选取条件:当前空间中的任何向量v→\overrightarrow{v}v都可以表示为:v→=xie→1+...+xne→n\overrightarrow{v}=x_i\overrigh
2020-06-23 20:29:19 35846 7
原创 Docker使用教程之命令大全
Docker 使用教程主要命令搜索需要的imagedocker search XXX拉取镜像:docker image pull XXX运行docker:docker run --gpus all -itd --name xxq_tf2 -v /home/work/xx/data:/root/data -v /home/work/xx/algpt2:/root/algpt2 -v /home/work/xx/algpt2:/root/xx patientzero/tensorf
2020-05-22 19:43:00 31153 2
原创 chatbot-检索式模型介绍(四)
检索式模型介绍(四)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...
2020-04-19 15:46:53 34332
原创 Chatbot-检索式模型介绍(三)
检索式模型介绍(三)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...
2020-01-19 16:28:23 35466
原创 Chatbot-检索式模型介绍(二)
检索式模型介绍(二)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...
2020-01-15 20:46:29 36112
原创 Chatbot-检索式模型介绍(一)
检索式模型介绍(一)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...
2020-01-08 20:34:48 33764
原创 tensorflow serving服务器安装过程总结
1.安装环境centoscuda 9cudnn 72.非gpu版本tf_serving安装tf_serving的安装(非gpu版本)(cuda 9 cudnn 7)编译tf_serving的过程git clone -b r1.3 --recurse-submodules https://github.com/tensorflow/serving进入serving/tensor...
2019-05-06 14:54:13 23490 4
原创 bert模型代码介绍
关于bert模型的细节记录1. Input1.1. pretrain输入包含七个部分,分别为input_ids,input_mask,segment_ids,masked_lm_positions,mask_lm_ids,masked_lm_weights,next_sentence_labels.input_ids:表示tokens的idsinput_mask:表示哪些是inpu...
2019-05-06 14:46:28 36934 7
原创 tensorflow-tile_batch
函数tensorflow.contrib.seq2seq.tile_batch作用主要是对tensor复制importtensorflow.contrib.seq2seq as seq2seq示例
2019-04-09 19:49:56 22529
原创 论文总结:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing
论文总结:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing简介具体结构Input ModuleQuestion ModuleEpisodic Memory ModuleAnswer Module简介本文主要是对《Ask Me Anything: Dynamic Memory Networks for...
2018-09-30 14:32:58 17636
原创 如何将pyspark的rdd数据类型转化为DataFrame
简述 在用pyspark进行开发的时候,经常会遇到如何将pyspark读取的数据使用xgboost的模型进行训练,当然,如果是使用scala,可以直接使用xgboost4j,这个库里面提供了可以读取rdd的数据文件的函数接口,通过scala可以很简单的进行训练,但是对于python用户来说,如何使用pyspark和xgboost进行训练,就比较难以处理了? 本人通过对libsvm的数据...
2018-09-17 11:03:33 7680
原创 关于中英文语料的获取途径总结
中文:https://github.com/candlewill/Dialog_Corpus 这个是一个集合,包括之前答主的答案! 包含的语料包括了 1)小黄鸡 xiaohuangji50w_nofenci.conv.zip 2)dgk_shooter_min.conv.zip 中文电影对白语料,噪音比较大,许多对白问答关系没有对应好 3)smsCorpus_zh_xml_201...
2018-09-01 11:51:26 9091 3
原创 关于RNN相关模型-tensorflow源码理解
本文主要是对tensorflow中lstm模型中的c,h进行解析。rnn_cell_impl.py1.关于RNN模型在rnn_cell_impl.py的tensorflow源码中,关于RNN部分实现的类主要是BasicRNNCell, 首先在build函数中,定义了两个变量_kernel和_bias。 其中_num_untis表示RNN cell 的unt...
2018-08-23 21:03:32 30012
原创 关于transformer模型总结(源码)
本文主要是对transfermer模型的源码进行解析: transfermer主要结构是由encoder和decoder构成。其中,encoder是由embedding + positional_encoding作为输入,然后加一个dropout层,然后输入放到6个multihead_attention构成的结构中,每个multihead_attention后面跟一个feedforwar...
2018-08-21 19:19:41 11317 3
原创 grid lstm模型简介
理论介绍主要通过论文《Grid Long short-Term Memory》。 grid LSTM沿着任何或所有维度(包括网络深度)部署cell。 一个Grid LSTM网络的block有N个hidden vector h1, …, hN和N 个memory vectorm1,m2..作为输入,另外block的各个输出各不相同。 标准的lstm模型的计算公式如下: 源码介绍...
2018-08-21 18:26:39 3804 2
原创 Normalization Technique总结
1.相关介绍:神经网络在多个领域取得了非凡的成就,例如,语音识别,图像识别等。所以,训练神经网络是个重要的任务,gradient descent常被用来寻来拿神经网络。但在网络比较深时,gradient descent容易出现梯度消失或梯度爆炸等现象。因此,在使用SGD算法对神经网络进行优化时,需要小心的对模型超参数进行微调,例如学习速率,模型参数的初始化等。神经网络的训练过程是很复杂的,每层.........
2018-08-06 20:33:20 32863 10
对于一个C++项目,怎么用VS打开,没有sln文件
2016-09-20
TA创建的收藏夹 TA关注的收藏夹
TA关注的人