
NLP
文章平均质量分 74
学习总结
一夜了
研究对话,LLM,多模态算法。
展开
-
线性规划-概念与公式总结
linear algebra用空间的语言表达向量、矩阵和行列式向量与空间基底线性空间是一个只有原点的空间,没有坐标,没有刻度。所以在线性空间中只能做向量的加法与数乘(数字与向量相乘)运算。但是为了能够更好的描述有向线段,所以需要基底。所以作为基准的一组向量作为基底,这一组向量中的的每个向量称为基向量。基底的选取条件:当前空间中的任何向量v→\overrightarrow{v}v都可以表示为:v→=xie→1+...+xne→n\overrightarrow{v}=x_i\overrigh原创 2020-06-23 20:29:19 · 35957 阅读 · 7 评论 -
Docker使用教程之命令大全
Docker 使用教程主要命令搜索需要的imagedocker search XXX拉取镜像:docker image pull XXX运行docker:docker run --gpus all -itd --name xxq_tf2 -v /home/work/xx/data:/root/data -v /home/work/xx/algpt2:/root/algpt2 -v /home/work/xx/algpt2:/root/xx patientzero/tensorf原创 2020-05-22 19:43:00 · 31182 阅读 · 2 评论 -
对话机器人-检索与生成模型
综述从应用的角度来说,对话机器人可以分为三个类别,分别是闲聊机器人,qa机器人以及任务型机器人。本系列主要介绍闲聊机器人。由于本文的内容主要是对对话机器人做一个简单的介绍,所以都是一些简单的介绍,详细的内容后面后有介绍。一 QA机器人问答机器人主要功能是在知识库找到用户提问的问题的答案。主要用于智能客服等。一般来说问答机器人是不涉及多轮,主要是针对某一个领域的问答。构建一个问答...原创 2019-12-17 22:47:54 · 36688 阅读 · 49 评论 -
论文总结:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing
论文总结:Ask Me Anything: Dynamic Memory Networks for Natural Language Processing简介具体结构Input ModuleQuestion ModuleEpisodic Memory ModuleAnswer Module简介本文主要是对《Ask Me Anything: Dynamic Memory Networks for...原创 2018-09-30 14:32:58 · 17679 阅读 · 0 评论 -
如何将pyspark的rdd数据类型转化为DataFrame
简述 在用pyspark进行开发的时候,经常会遇到如何将pyspark读取的数据使用xgboost的模型进行训练,当然,如果是使用scala,可以直接使用xgboost4j,这个库里面提供了可以读取rdd的数据文件的函数接口,通过scala可以很简单的进行训练,但是对于python用户来说,如何使用pyspark和xgboost进行训练,就比较难以处理了? 本人通过对libsvm的数据...原创 2018-09-17 11:03:33 · 7709 阅读 · 0 评论 -
关于中英文语料的获取途径总结
中文:https://github.com/candlewill/Dialog_Corpus 这个是一个集合,包括之前答主的答案! 包含的语料包括了 1)小黄鸡 xiaohuangji50w_nofenci.conv.zip 2)dgk_shooter_min.conv.zip 中文电影对白语料,噪音比较大,许多对白问答关系没有对应好 3)smsCorpus_zh_xml_201...原创 2018-09-01 11:51:26 · 9371 阅读 · 3 评论 -
关于RNN相关模型-tensorflow源码理解
本文主要是对tensorflow中lstm模型中的c,h进行解析。rnn_cell_impl.py1.关于RNN模型在rnn_cell_impl.py的tensorflow源码中,关于RNN部分实现的类主要是BasicRNNCell, 首先在build函数中,定义了两个变量_kernel和_bias。 其中_num_untis表示RNN cell 的unt...原创 2018-08-23 21:03:32 · 30026 阅读 · 0 评论 -
grid lstm模型简介
理论介绍主要通过论文《Grid Long short-Term Memory》。 grid LSTM沿着任何或所有维度(包括网络深度)部署cell。 一个Grid LSTM网络的block有N个hidden vector h1, …, hN和N 个memory vectorm1,m2..作为输入,另外block的各个输出各不相同。 标准的lstm模型的计算公式如下: 源码介绍...原创 2018-08-21 18:26:39 · 3846 阅读 · 2 评论 -
关于transformer模型总结(源码)
本文主要是对transfermer模型的源码进行解析: transfermer主要结构是由encoder和decoder构成。其中,encoder是由embedding + positional_encoding作为输入,然后加一个dropout层,然后输入放到6个multihead_attention构成的结构中,每个multihead_attention后面跟一个feedforwar...原创 2018-08-21 19:19:41 · 11372 阅读 · 3 评论 -
Normalization Technique总结
1.相关介绍:神经网络在多个领域取得了非凡的成就,例如,语音识别,图像识别等。所以,训练神经网络是个重要的任务,gradient descent常被用来寻来拿神经网络。但在网络比较深时,gradient descent容易出现梯度消失或梯度爆炸等现象。因此,在使用SGD算法对神经网络进行优化时,需要小心的对模型超参数进行微调,例如学习速率,模型参数的初始化等。神经网络的训练过程是很复杂的,每层.........原创 2018-08-06 20:33:20 · 32919 阅读 · 10 评论 -
tensorflow中关于BahdanauAttention以及LuongAttention实现细节
背景介绍在 TensorFlow 中,Attention 的相关实现代码是在 tensorflow/contrib/seq2seq/python/ops/attention_wrapper.py 文件中,这里面实现了两种 Attention 机制,分别是 BahdanauAttention 和 LuongAttention,其实现论文分别如下: Neural Machine Translat......原创 2018-08-03 19:38:54 · 8241 阅读 · 8 评论 -
SRU介绍
1.背景介绍 RNN模型在机器翻译,语言模型,问答系统中取得了非凡的成就,由于RNN的结构,当前的层输入为前一层的输出,所有RNN比较适合时间序列问题,但也正是由于这种串行结构,限制了RNN模型的训练速度,与CNN相比,RNN并不能进行并行化处理。而SRU网络结构的提出就是为了解决这个问题,SRU(simple recurrent units)将大...原创 2018-08-03 19:52:14 · 17194 阅读 · 0 评论 -
LSTM模型的两种分解技巧
介绍LSTM模型在语言模型,机器翻译等领域取得了非凡的成就,然后LSTM网络有几百万的参数以及需要数周在多GPU系统中进行训练。因此,一下介绍两种方法来缩减网络参数以及训练时间。两种方法分别为factorized LSTM(FLSTM)以及group LSTM(GLSTM)。FLSTMFLSTM网络主要是将大的LSTM矩阵转化为两个小的矩阵。LSTM模型简单介绍在LST...原创 2018-07-21 11:13:22 · 28455 阅读 · 0 评论 -
高效的文本分类
相关介绍文本分类任务是自然语言处理中重要的任务之一,近来,神经网络的使用变得更为普遍,神经网络在文本分类任务中表现更好,但是在训练和测试时间比较慢,限制了在大型语料库中的使用。 与此同时,线性分类器在文本分类器中被认为是一种很好的baseline,尽管他们很简单,但当正确的特征被使用时,经常能够得到很好的表现[wang and Manning,2012]。线性模型也适用于非常大的语料库。因此...原创 2018-07-11 21:18:00 · 24687 阅读 · 0 评论 -
Encoder-Decoder 预训练
Encoder-Decoder模型预训练通过对Encoder-Decoder模型进行预训练能够有效的提高模型的训练效果。原创 2018-06-26 01:02:30 · 4029 阅读 · 0 评论 -
RNN-Encoder Decoder架构中引入的注意力机制
一.简介    注意力机制是在Encoder与Deconder架构中针对输出不同的序列(分词)在输入序列中所占权重一样,或者使用同一个C向量的不足中,引入了能够学习针对不同输出序列在不同输入序列所占的比重不同的一个机制,例如,“我喜欢足球”与“i like football”这个翻译中,‘i’这个词的翻译明显与“我”这个输入词对应,与后面“喜欢足球”的关系不大,因...原创 2018-06-15 22:57:22 · 5870 阅读 · 0 评论 -
基于LSTM的seq2seq模型介绍以及相应的改进
简介DNN模型在语言识别等任务上具有强大的能力,主要是因为DNN可以在适当步骤中进行并行计算,尽管DNN很灵活并很有用,但是DNN只能用于固定维度的输入以及输出的任务中,并且输入以及输出已知。因此,Ilya sutskever .et提出了基于LSTM模型的端到端的架构。其中用一个LSTM作为encoder,得到一个基于时间序列的向量表示,另外,用另一个LSTM网络作为decoder,从向量中...原创 2018-06-26 23:34:32 · 10093 阅读 · 0 评论 -
LSTM变种-GRU网络结构
简介GRU是LSTM的一种变体,其将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单,是非常流行的变体。 使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多,以至于Gradient归零或者成为无穷大,所以无法继续进行优化的问题。GRU的构造更简单:比LSTM少一个gate,...原创 2018-06-12 23:46:34 · 4571 阅读 · 11 评论 -
RNN与LSTM网络简述
**最近看到一个blog,对LSTM模型介绍的很全面,所以我在这里记录一下。后续会逐渐补充公式推导的部分。 **RNN关键点之一是连接先前的信息到当前的任务中,而LSTM模型是一种特别的RNN。不幸的是RNN对长期依赖信息的学习能力不足,会出现梯度消失等问题。而LSTM网络就是解决长短时的信息依赖问题。1.简介LSTM网络全称为 Long Short-Term Memory,长期短期记忆...原创 2018-06-10 20:42:56 · 5121 阅读 · 1 评论 -
简单的神经元模型
简单的神经元模型线性神经元其函数表达如下所示: y=b+∑ixiwiy=b+∑ixiwiy=b+\sum_ix_iw_i 其中,www表示权值,xxx表示输入。yyy表示输出。 线性神经元模型中,输入xi可以被看作是 来自其他神经元的动作电位,该动作电位引起突触的兴奋。权重 wi 可以认为是对突触的影响系数。wi 的值越大,输入xi对神经元输出的影响程度就越大。在一个真正的神经元中,...原创 2018-04-09 20:30:38 · 30750 阅读 · 0 评论 -
怎样生成一个好的词向量
一.简介本文主要是在我读过论文《How to Generate a Good Word Embedding?》后进行的总结,一下就是我总结的内容。二.综述文中指出几乎所有的词向量训练方法都基于分布式假说:在近似文本中出现的词语倾向于有着近似的意思。因此,目前存在的词向量训练方法在模型结构上分为两个方面,第一是目标词与输入文本之间的关系,第二是输入文本的表示。如下图所示: &nbs...原创 2018-06-16 13:42:39 · 4067 阅读 · 0 评论 -
分布式的句子和文件表示
本文翻译doc2vec模型的提出论文distributed representations of sentences and documents。 正式译文如下: 摘要:许多机器学习算法需要一个固定长度的特征向量作为输入,当运用到文本上时,词袋是最常见的固定长度特征之一,尽管很流行,词袋特征有两个主要的缺点:缺少了词语之间的顺序和忽略了单词的语义。例如,‘powerful’,‘strong’和‘原创 2017-12-11 22:35:04 · 2933 阅读 · 0 评论 -
隐含马尔科夫模型(数学之美)
背景在自然语言的处理或者语音识别方面,我们可以跟编码解码进行类比,比如说从汉语到英语的翻译,说话者讲的是汉语,从汉语到英语的翻译过程可以理解为编码。翻译成英文的效果根据上文中统计语言模型提到的概率来评价,概率越大,翻译的效果越好。所以只要找到条件概率最大即为翻译后的结果。公式表示如下: s1,s2,s3,...=Maxall s1,s2,s3...P(s1,s2,s3...|o1,o2,o3...原创 2017-10-09 19:39:45 · 3135 阅读 · 0 评论 -
语言模型简介
1.语言模型简介:统计语言模型是指单词序列的概率分布,假设有一个句子,长度为m,那么整个句子的概率为 p(w1,...,wn)p(w1,...,wn)p(w_1,...,w_n),利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。假设给定句子:s=w1,w2,..,wks=w1,w2,..,wks=w_1,w_2,..,w_k它的概率可...原创 2018-06-25 23:14:43 · 1055 阅读 · 0 评论 -
自然语言处理-统计语言模型(数学之美)
简述一个句子是否合理,就看他的可能性大小如何。 概括来说:假定S表示某一个有意义的句子,由一连串特定顺序排列的词w1,w2,...,wnw_1,w_2,...,w_n组成,这里的n表示句子的长度。则概率P(S)表示上面句子的合理性。 P(S)=P(w1,w2,...,wn)P(S)=P(w_1,w_2,...,w_n) 利用条件概率公式: P(w1,w2,...,wn)=P(w1)P(w2|原创 2017-09-28 11:08:41 · 2113 阅读 · 0 评论 -
tensorflow相关基础总结
1.class tf.Variable 一个变量通过调用run() 方法维持图的状态。你通过构造variable 类的实例来添加一个变量到图中。 Variable() 构造器需要一个初始值,可以是任意类型和shape 的Tensor。初始值定义了变量的type和shape。构造完成之后,变量的type和shape 是固定的。可以使用assign 方法来修改变量的值。 如果你想修转载 2017-08-18 16:47:02 · 4682 阅读 · 0 评论 -
【机器学习】回归
简介有别于分类问题,回归问题,主要是通过特征来构造一个函数,并用这个函数求得的值来近似的估计我们需要预测的值。回归的种类有很多,当然我一时之间不能够完全的总结出所有的回归分析方法,但是我们在以后的学习中慢慢的补充。作为一个初学者,以下的总结可能有一些个人的误区,所以如果出现什么错误的话,我希望各个读者能够指出,在此,我感激不尽。线性回归基本概念看过我关于对感知器算法的介绍的读者,可能知道,我在感知器原创 2017-05-18 15:50:16 · 22496 阅读 · 1 评论 -
【机器学习】感知器
介绍感知器算法由Rosenblatt于1957年提出,它是一种监督式学习算法。它是一种相当好的二分类在线算法。比如说Y有d个特征: X=x1,x2,x3,...,xdX = x_1,x_2,x_3,...,x_d 如果给这个d个特征每个加上一个权值,并进行线性组合。那么就可以得到下式: y=∑i=1d(wixi+bi)y=\sum_{i=1}^d(w_ix_i+b_i) 这里原创 2017-05-17 20:05:20 · 8414 阅读 · 1 评论 -
机器学习中的相似性度量
欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:(3)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的欧氏距离: 也可以用表示成向量运算的转载 2017-07-05 19:37:31 · 28228 阅读 · 0 评论 -
机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?
介绍首先 error = bias^2+variance 以下是来自知乎的回答,我觉得比较有用,就截取下来,供自己以后回顾。原创 2017-09-05 10:59:58 · 5598 阅读 · 0 评论 -
pearson相关系数与spearman秩相关系数
pearson相关系数 spearman相关系数原创 2017-09-03 23:04:25 · 7013 阅读 · 0 评论 -
机器学习中的损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子: 其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的ΦΦ是正转载 2017-08-19 13:37:40 · 4527 阅读 · 0 评论 -
爬虫程序的简单介绍(Python)
关于Python实现爬虫程序的一些总结。原创 2017-05-16 16:01:54 · 11654 阅读 · 1 评论