自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yiyele的博客

Our greatest glory is not in never falling, but in rising every time we fall.

  • 博客(128)
  • 资源 (31)
  • 问答 (1)
  • 收藏
  • 关注

原创 对话机器人-检索与生成模型

综述从应用的角度来说,对话机器人可以分为三个类别,分别是闲聊机器人,qa机器人以及任务型机器人。本系列主要介绍闲聊机器人。由于本文的内容主要是对对话机器人做一个简单的介绍,所以都是一些简单的介绍,详细的内容后面后有介绍。一 QA机器人问答机器人主要功能是在知识库找到用户提问的问题的答案。主要用于智能客服等。一般来说问答机器人是不涉及多轮,主要是针对某一个领域的问答。构建一个问答...

2019-12-17 22:47:54 36491 49

原创 设计模式之小结

设计模式系统总结: 1.设计模式-创建型软件设计模式(一) 2.设计模式-创建型软件设计模式(二) 3.设计模式-创建型软件设计模式(三) 4.设计模式-结构型软件设计模式(一) 5.设计模式-结构型软件设计模式(二) 6.设计模式-结构型软件设计模式(三) 7.设计模式-结构型软件设计模式(四) 8.设计模式-行为型软件设计模式(一) 9. 设计模式-行为型软件设计模式(二)

2017-07-16 12:00:56 26278 17

原创 算法与数据结构系列

本篇是算法与数据结构系列的目录: 1.排序算法总结 2.红黑树 3.在线生成红黑树作者:yiyele 转载请保留原文地址:http://write.blog.csdn.net/mdeditor#!postId=74317447如果本文对您有所帮助,欢迎您扫码下图所示的微信支付点赞码对本文进行打赏。

2017-07-04 14:10:24 25843 16

原创 C++系列之浅谈

本篇blog是关于所有C++文章的所有链接总结: 1.从C++类创建后,自动创建的函数有哪些开始谈起 2.this指针介绍 3.C++模板详解 4.C++关键字总结 5. C++内存处理 6. 内存映射文件原理探索 7.C++中使用内存映射文件存取struct,并用指针访问 8.C++实现只能动态或者静态创建对象 9.静态链接库和动态链接库 1

2017-06-29 18:21:51 10582

原创 关于机器学习-深度学习的总结

最近在知乎上看到了一个机器学习的相关学习流程,觉得很有道理,所以,后面的blog我将开始具体的分享一些机器学习的学习笔记。目前已经更新的blog有:数据篇:1.关于中英文语料的获取途径总结基础总结篇:1.机器学习中的相似性度量2.机器学习中的损失函数总结3.pearson相关系数与spearman相关系数4.机器学习中error(误差),bias(偏差)与varienc............

2017-02-28 13:41:28 12583 1

原创 随着Batch size增加,最佳learning rate如何选择?

一开始learning rate随着batch size增大而增大,随后达到一个点后,会随着batch size增加而降低,同时,随着训练不断进行,BnoiseB_{noise}Bnoise​会不断后移。为了加速训练进程,可以设计自适应的learning rate和batch size。

2024-09-14 16:55:58 1123 3

原创 多模态大模型-MiniCPM-V

模型结构层面和llava类似,只不过connection layer一个是MLP,一个是perceiver resampler,但对模型效果影响不大;预训练阶段仅训练vit和compression layer;多语言能力仅靠LLM和sft阶段;为了降低幻觉使用了RLAIF-V;目前MiniCPM-V2.6已经发布了,有了更强的OCR,多语言,可靠性,因为目前technical report还没发布,技术细节还不清楚。

2024-09-13 20:58:40 1010

原创 Post-Training有多重要?一文带你了解全部细节

本文主要介绍了llama3.1,Nemotron4-340B及gemma2三个模型在post-training阶段的一些工作。主要涉及数据搜集,合成数据,SFT及DPO等。

2024-09-07 18:29:26 1125 3

原创 论文阅读-Transformer Layers as Painters

尽管大语言模型现在已经被广泛的应用于各种任务,但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响,本文设计了一系列的实验。通过实验表明,预训练语言模型中的lower和final layers与中间层分布不一致,并且中间层有着惊人的一致性。

2024-08-14 20:32:05 1270 3

原创 多模态大模型 - MM1

这部分主要探索三个(结构,数据和训练步骤)对多模态大模型效果的影响,模型基础配置:Image Encoder:ViT-L/14模型,训练loss为clip loss,训练数据DFN-5B和VeCap-300M,image size为336*336Vision-Language Connector:C-Abstractor,最大输出144 image token。

2024-07-15 17:13:02 1062 2

原创 多模态大模型 - LLaVA系列模型

本文主要介绍了LLaVA系列的多模态大模型,详细的介绍了每个版本的优化思路及方法。

2024-07-08 15:58:57 906 1

原创 强化学习之Q-learning算法

本文主要介绍强化学习之Q-learning算法,如果喜欢的话可以多读读。

2023-05-25 09:00:00 1063

原创 强化学习系列之Policy Gradient算法

自chatgpt出来之后,SFT+RM+RL就成为了对话模型的主流技术,本系列主要介绍强化学习相关的技术。

2023-05-23 19:59:46 845 1

原创 一文了解预训练相关加速技巧

大模型训练效率技巧总结, 包括数据并行, 模型并行, 流水线并行, ZeRO等技术, 以及megatron, deepspeed, oneflow等框架的介绍.

2021-12-01 16:46:39 14266 18

原创 位置编码 - 领略位置编码神奇的风景 - 系列(1)

位置编码 - 领略位置编码神奇的风景 - 系列(1)前文自从attention在nlp流行之后,不管是在bert还是在transformer,都缺少不了位置编码的身影(position embedding)。主要原因是attention在计算的时候,不管是QK之间的点乘运算,还是attention scores与V之间的点乘运算在训练时都是并行计算的,从逻辑上来说,跟RNN不一样,attention处理时并没有先后之分。当一个句子中出现多个相同的token时,从语义上来说,同一个t

2021-08-26 20:13:16 13075 72

原创 一文让你了解生成模型相关的解码Tricks

一文让你了解生成模型相关的解码Tricks本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的,如果对于屏幕前的隔着读者有些许帮助,真是欣慰之至。当然,各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞,评论,收藏。在生成模型中,解码是一个很重要的步骤,直接影响到生成回复质量的高低,所以除了一些解码策略可以使用之外,在解码策略之中,可以穿插使用一些tricks,通过这些tricks的使用,可以解决一些在解码策略中出现的问题,例如解码出现“UNK”字符,解码长度过短等问题。这些trick

2021-08-06 16:21:32 14843 64

原创 生成模型-解码策略小结

解码方法小结本文是笔者花费闲暇时间根据工作经历以及阅读文献总结的,如果对于屏幕前的隔着读者有些许帮助,真是欣慰之至。当然,各位读者的支持也是笔者写作的动力。麻烦一键三连。点赞,评论,收藏。1. 简介在对话生成任务中,解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy,beam search,top-k以及top p等方法。每种方法都有自己的优缺点。本文主要是针对上面的解码策略做个汇总,以便读者以及笔者后续查看。在自回归的解码方法,主要是在inference阶段,

2021-04-15 16:42:02 23025 6

原创 最详尽版本:一文带你了解beam search算法

目录文章目录目录Beam Search算法1. 简介2. 算法细节3. 具体实现4.算法优化Beam Search算法1. 简介在对话生成任务中,解码策略有自回归与非自回归两种方法。其中自回归的解码策略包括了greedy,beam search,top-k以及top p等方法。每种方法都有自己的优缺点。本文主要针对beam search方法做详细的介绍。其它相关的解码策略后面会有相应的文章进行介绍,这里就不多做说明。在自回归的解码方法,主要是在inference阶段,输入query,然后

2021-04-12 23:24:34 24264 4

原创 transformer具体介绍-威力加强版

目录文章目录目录Transformer模型介绍1. 简介1.1 模型结构图1.2 概括2. 具体模块2.1 Inputs2.2 Encoder2.3 Decoder3. 示例说明3.1 具体示例3.2 模型训练3.3 inference阶段Transformer模型介绍1. 简介1.1 模型结构图本文主要介绍了transformer模型,尽力做到对transformer的模型的结构与代码面面俱到,让读者能够通过阅读本文对transformer总体结果与实现细节方面都能够有清晰的认识。当然,做到上

2021-04-07 22:13:15 22831 7

原创 终端快捷键操作

Terminator操作快捷命令具体的命令操作如下:作用命令打开terminatorCtrl+Alt+T新建终端窗口Ctrl+Shift+T关闭终端窗口Ctrl+D清空屏幕Ctrl+L自动补全Tab光标移动到行首Ctrl+a光标移动到行末Ctrl+e向前移动光标Ctrl+f向后移动光标Ctrl+b删除当前字符Ctrl+d删除前一个字符Ctrl+h删除光标至行首所有字符Ctrl+u删除光标至

2020-11-10 19:54:49 28287 3

原创 nlp相关会议总结

相关nlp会议的总结A类:ACL(ACL) Meeting of the Association for Computational Linguistics 下载地址:https://link.zhihu.com/?target=http%3A//www.aclweb.org/anthology-new/IJCAI(AAAI) International Joint Conference on Artificial Intelligence 国际人工智能联合会议两年一次,奇数年份举办 IJ

2020-06-23 20:33:07 32493

原创 线性规划-概念与公式总结

linear algebra用空间的语言表达向量、矩阵和行列式向量与空间基底线性空间是一个只有原点的空间,没有坐标,没有刻度。所以在线性空间中只能做向量的加法与数乘(数字与向量相乘)运算。但是为了能够更好的描述有向线段,所以需要基底。所以作为基准的一组向量作为基底,这一组向量中的的每个向量称为基向量。基底的选取条件:当前空间中的任何向量v→\overrightarrow{v}v都可以表示为:v→=xie→1+...+xne→n\overrightarrow{v}=x_i\overrigh

2020-06-23 20:29:19 35697 7

原创 Docker使用教程之命令大全

Docker 使用教程主要命令搜索需要的imagedocker search XXX拉取镜像:docker image pull XXX运行docker:docker run --gpus all -itd --name xxq_tf2 -v /home/work/xx/data:/root/data -v /home/work/xx/algpt2:/root/algpt2 -v /home/work/xx/algpt2:/root/xx patientzero/tensorf

2020-05-22 19:43:00 31114 2

原创 chatbot-检索式模型介绍(四)

检索式模型介绍(四)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...

2020-04-19 15:46:53 34315

原创 Chatbot-检索式模型介绍(三)

检索式模型介绍(三)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...

2020-01-19 16:28:23 35451

原创 Chatbot-检索式模型介绍(二)

检索式模型介绍(二)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...

2020-01-15 20:46:29 36089

原创 Chatbot-检索式模型介绍(一)

检索式模型介绍(一)这个系列的文章主要是介绍一些可以作为文本匹配工作的一些模型,有些是比较基础的算法,例如bm25。有些模型是基于深度学习的架构,比如说deepMatch模型。个人认为文本匹配的任务有两种实现方式,一个是学习不同domain中text的represation,然后利用represation计算score,这个的score可以是相似度(cosine,欧式距离等)。...

2020-01-08 20:34:48 33738

原创 tensorflow serving服务器安装过程总结

1.安装环境centoscuda 9cudnn 72.非gpu版本tf_serving安装tf_serving的安装(非gpu版本)(cuda 9 cudnn 7)编译tf_serving的过程git clone -b r1.3 --recurse-submodules https://github.com/tensorflow/serving进入serving/tensor...

2019-05-06 14:54:13 23477 4

原创 bert模型代码介绍

关于bert模型的细节记录1. Input1.1. pretrain输入包含七个部分,分别为input_ids,input_mask,segment_ids,masked_lm_positions,mask_lm_ids,masked_lm_weights,next_sentence_labels.input_ids:表示tokens的idsinput_mask:表示哪些是inpu...

2019-05-06 14:46:28 36888 7

原创 tensorflow- tf.reduce_all

函数 tf.reduce_all示例

2019-04-09 20:01:34 2420

原创 tensoflow-unstack

函数unstack示例

2019-04-09 19:59:29 24123

原创 tensorflow-tile_batch

函数tensorflow.contrib.seq2seq.tile_batch作用主要是对tensor复制importtensorflow.contrib.seq2seq as seq2seq示例

2019-04-09 19:49:56 22517

原创 论文总结:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing

论文总结:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing简介具体结构Input ModuleQuestion ModuleEpisodic Memory ModuleAnswer Module简介本文主要是对《Ask Me Anything: Dynamic Memory Networks for...

2018-09-30 14:32:58 17619

原创 如何将pyspark的rdd数据类型转化为DataFrame

简述  在用pyspark进行开发的时候,经常会遇到如何将pyspark读取的数据使用xgboost的模型进行训练,当然,如果是使用scala,可以直接使用xgboost4j,这个库里面提供了可以读取rdd的数据文件的函数接口,通过scala可以很简单的进行训练,但是对于python用户来说,如何使用pyspark和xgboost进行训练,就比较难以处理了?   本人通过对libsvm的数据...

2018-09-17 11:03:33 7669

原创 关于中英文语料的获取途径总结

中文:https://github.com/candlewill/Dialog_Corpus 这个是一个集合,包括之前答主的答案! 包含的语料包括了 1)小黄鸡 xiaohuangji50w_nofenci.conv.zip 2)dgk_shooter_min.conv.zip 中文电影对白语料,噪音比较大,许多对白问答关系没有对应好 3)smsCorpus_zh_xml_201...

2018-09-01 11:51:26 9032 3

原创 关于RNN相关模型-tensorflow源码理解

本文主要是对tensorflow中lstm模型中的c,h进行解析。rnn_cell_impl.py1.关于RNN模型在rnn_cell_impl.py的tensorflow源码中,关于RNN部分实现的类主要是BasicRNNCell, 首先在build函数中,定义了两个变量_kernel和_bias。 其中_num_untis表示RNN cell 的unt...

2018-08-23 21:03:32 30000

原创 关于transformer模型总结(源码)

本文主要是对transfermer模型的源码进行解析: transfermer主要结构是由encoder和decoder构成。其中,encoder是由embedding + positional_encoding作为输入,然后加一个dropout层,然后输入放到6个multihead_attention构成的结构中,每个multihead_attention后面跟一个feedforwar...

2018-08-21 19:19:41 11262 3

原创 grid lstm模型简介

理论介绍主要通过论文《Grid Long short-Term Memory》。 grid LSTM沿着任何或所有维度(包括网络深度)部署cell。 一个Grid LSTM网络的block有N个hidden vector h1, …, hN和N 个memory vectorm1,m2..作为输入,另外block的各个输出各不相同。 标准的lstm模型的计算公式如下: 源码介绍...

2018-08-21 18:26:39 3776 2

原创 Normalization Technique总结

1.相关介绍:神经网络在多个领域取得了非凡的成就,例如,语音识别,图像识别等。所以,训练神经网络是个重要的任务,gradient descent常被用来寻来拿神经网络。但在网络比较深时,gradient descent容易出现梯度消失或梯度爆炸等现象。因此,在使用SGD算法对神经网络进行优化时,需要小心的对模型超参数进行微调,例如学习速率,模型参数的初始化等。神经网络的训练过程是很复杂的,每层.........

2018-08-06 20:33:20 32821 10

原创 SRU介绍

1.背景介绍    RNN模型在机器翻译,语言模型,问答系统中取得了非凡的成就,由于RNN的结构,当前的层输入为前一层的输出,所有RNN比较适合时间序列问题,但也正是由于这种串行结构,限制了RNN模型的训练速度,与CNN相比,RNN并不能进行并行化处理。而SRU网络结构的提出就是为了解决这个问题,SRU(simple recurrent units)将大...

2018-08-03 19:52:14 16954

neural-belief

深度学习网络,个人觉得不错,有需要的朋友可以收藏,自己研究.

2018-09-25

数据库系统概论第5版PPT.rar

数据库经典书籍,最新版。喜欢的可以下载看看。个人觉得还不错。

2017-10-13

推荐系统实践.pdf

推荐系统介绍

2017-08-17

李航.统计学习方法.pdf

统计学习,机器学习的一些算法介绍。

2017-08-17

word2vec_中的数学原理详解.pdf

word2vec原理及数学详解

2017-08-10

PatternRecognitionAndMachineLearning.pdf

机器学习与模式识别

2017-06-02

STL源码剖析简体中文完整版.pdf

STL源码解析

2017-06-02

Learning OpenCV ComputerVision in C++ with the OpenCV Library.pdf

opencv C++ 机器视觉

2017-06-02

Linux命令行大全.pdf

linux命令行大全

2017-06-02

VTK教程-东灵工作室.docx

VTK基本教程书籍

2017-06-02

Google-C++编码规范中文版.pdf

google C++ 编码规范

2017-06-02

shell编程基础.pdf

shell编程基础书籍

2017-06-02

Linux 运维入门到高级.pdf

linux基本教程

2017-06-02

微软等数据结构+算法面试100题全部答案集锦.pdf

微软算法题,值得一看。

2017-06-02

pywin32 for py2.7 - 32&64.zip

pywin32.32位和64位。

2017-06-02

十五个经典算法研究与总结、目录+索引

经典算法总结文档

2017-05-18

神经网络设计.pdf

神经网络书籍,值得一看。

2017-05-17

深入Linux内核架构.pdf

linux书籍深入解读。

2017-04-23

数值分析.pdf

数值分析

2017-04-23

20个软件开发常用设计文档大全下载.rar

软件开发设计文档模板

2017-04-23

计算机网络原理.pdf

计算机网络基础书籍,不错,值得一看。

2017-04-18

有限元方法编程(第三版).pdf

有限元的编程技术

2017-04-07

直方图均衡化.pdf

直方图均衡化

2017-04-07

Hadoop技术内幕 深入解析HADOOP.pdf

hadoop相关书籍。

2017-04-07

支持向量机导论(中文).pdf

支持向量机导论,不错。

2017-04-07

MySQL_5.5中文参考手册.pdf

mysql数据库的参考手册,中文版。

2017-04-07

multi-objective machine learning.pdf

多目标机器学习,非常值得一看。

2017-03-23

dcmtk-3.6.0.zip

dcmtk-3.6.0.zip

2017-02-26

redis-2.6.zip

redis-2.6.zip

2017-02-26

WinPcap4.1.3

包含Packet.dll WinPCap.dll 以及lib ,还有winpcap的413的安装程序。还有ws2_32.lib

2017-02-25

机器学习实战pdf

python实现了机器学习相关的算法,非常实用。

2017-02-23

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除