深度学习
丁叔叔
这个作者很懒,什么都没留下…
展开
-
Transformer
https://zhuanlan.zhihu.com/p/54356280transformer 在NLP领域,目前最流行的特征抽取器。transformer 的结构可以认为是下图所示。其中编码组件由多个编码器构成。解码器由和编码器同样数量的解码器构成。所有的编码器都是一样的,没有共享参数,并且每个编码器都可以分解成两个子层。两个子层分别为前馈神经网络和自注意力层。从编码器输入的句子首先会经过一个自注意力(self-attention)层,这层帮助编码器在对每个单词编码时关注输入句子的其他原创 2020-07-30 16:17:04 · 503 阅读 · 0 评论 -
NLP预训练模型
训练得到的词向量表征的词语之间的信息其实有限。词向量一个难以解决的问题就是多义词的问题,例如“bank”在英文中有“河岸”和“银行”两种完全不同意思,但是在词向量中确实相同的向量来表征,这显然不合理。2017年,为了解决这个问题,ELMO模型在“Deep contextualized word representation”被提出。ELMO的本质思想是:用事先训练好的语言模型学好一个单词的Word Embedding,此时多义词无法区分,不过这没关系。在实际使用Word Embedding的时候,单词特原创 2020-07-28 16:39:38 · 482 阅读 · 0 评论 -
吴恩达 NLP 2
词嵌入词嵌入,即为根据你想预测出的目标词,然后根据前面的o(one-hot 矩阵 乘以)E(学习词嵌入矩阵)=e (最终矩阵) 然后进行FC计算,其中包括W 和b ,然后在此基础上进行计算 加上softmax 处理,得到最终预测结果。根据几个词预测出结果。Word2Vec计算过程...原创 2019-07-12 18:39:36 · 104 阅读 · 0 评论 -
吴恩达NLP 1
GRU有更新门和相关门,LSTM 更新门,遗忘门,输出门原创 2019-07-26 10:11:19 · 241 阅读 · 0 评论 -
RNN GRU LSTM
RNN,LSTM,GRU简单图解:难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)lstm(一) 演化之路一步一步带你用TensorFlow玩转LSTMhttps://blog.csdn.net/dqcfkyqdxym3f8rb0/article/details/82922386https://www.cnblogs.com/lovychen/p/9374277.htmlh...原创 2019-07-26 10:38:15 · 190 阅读 · 0 评论 -
吴恩达NLP(3) S2S
集束搜索方法假设B=3,则第一个单词存在三种情况,在10000个词库中,选择前3个概率最高的,然后在这三种情况下分别取找第二个单词,则会有3*10000=30000种情况,然后再在这些情况中找前三个较好的概率,然后分别再进行下个单词概率的选择,直至最后选择结束 eos该改进集束搜索blue翻译出来的结果每个词去之前的参考中去找出现过几次,如果翻译出来有7句话,那么就是7分之几次...原创 2019-07-22 17:24:13 · 289 阅读 · 0 评论 -
self-attention和attention区别
在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Target是对应的翻译出的中文句子,Attention机制发生在Target的元素Query和Source中的所有元素之间。------------------------------------------------------------...原创 2019-08-05 09:42:13 · 10552 阅读 · 0 评论 -
ELMO BERT GPT
https://blog.csdn.net/Forlogen/article/details/92011185而NLP中的ELMO(Embeddings from Language Model )出自Matthew E. Peters, Mark Neumann等人发表在 NAACL 2018上的《Deep contextualized word representations》,它是一种基于R...原创 2019-08-05 15:52:45 · 299 阅读 · 0 评论 -
pytorch学习
squeeze的用法主要就是对数据的维度进行压缩或者解压。先看torch.squeeze() 这个函数主要对数据的维度进行压缩,去掉维数为1的的维度,比如是一行或者一列这种,一个一行三列(1,3)的数去掉第一个维数为一的维度之后就变成(3)行。squeeze(a)就是将a中所有为1的维度删掉。不为1的维度没有影响。a.squeeze(N) 就是去掉a中指定的维数为一的维度。还有一种形式就是b=t...原创 2019-09-10 16:03:38 · 100 阅读 · 0 评论 -
pytroch 基本网络搭建
网络快速搭建class Net(torch.nn.Module): def __init__(self, n_feature, n_hidden, n_output): super(Net, self).__init__() self.hidden = torch.nn.Linear(n_feature, n_hidden) self.p...原创 2019-09-11 14:07:45 · 226 阅读 · 0 评论 -
用于语音识别、分词的隐马尔科夫模型HMM
B M E S 分词 使用 HMM原创 2019-09-17 16:21:04 · 237 阅读 · 0 评论 -
自然语言处理之序列标注问题
序列标注 中文分词, NER 实体识别原创 2019-09-18 10:39:29 · 684 阅读 · 0 评论 -
CRF
原创 2019-09-18 11:13:46 · 102 阅读 · 0 评论 -
RNN
目前,RNN及其变种在NLP领域有着广泛的应用。语音识别、对话系统、机器翻译、情感分析等等领域,在产业界,RNN及其变种都是最主要的特征提取工具。...原创 2019-09-18 11:23:42 · 125 阅读 · 0 评论 -
LSTM
LSTM 是为了针对 梯度 问题 改进得到的。原创 2019-09-18 11:46:58 · 100 阅读 · 0 评论 -
人脸识别
使用siemese方法将脸部数据进行卷积、池化、全连接实现向量话化,在此基础上进行处理。把人脸识别当做是二分类问题,在此基础上进行处理原创 2019-06-30 23:55:24 · 119 阅读 · 0 评论 -
目标检测
目标检测 矩阵 如下所示人脸或者动作识别特征点某个部位都有确定的Lx 和Ly目标检测:1使用滑动的方法2使用卷积方法,如下卷积可以减小内容使用,也可以增加时间上的利用交并比非极大抑制比anchor boxYOLO根据需要检测的对象对整个图片进行遍历,观察整个图像,将你的结果输出即可。当需要对多个进行分析的时候,对每个类别分别进行非极大值抑制,处理不同的计算,多个类...原创 2019-06-30 18:31:17 · 126 阅读 · 0 评论 -
LSTM
LSTM 论文原文http://colah.github.io/posts/2015-08-Understanding-LSTMs/翻译 https://www.jianshu.com/p/9dc9f41f0b29/https://blog.csdn.net/Jerr__y/article/details/58598296lstm+tfhttps://yq.aliyun.com/arti...原创 2019-04-17 16:20:00 · 144 阅读 · 0 评论 -
RNN LSTM
https://www.jianshu.com/p/30b253561337原创 2019-03-10 17:27:43 · 244 阅读 · 0 评论 -
CNN
前言这篇博客主要讲解卷积神经网络(CNN)的历史、模块、特点和架构等等CNN历史CNN最早可以追溯到1968Hubel和Wiesel的论文,这篇论文讲述猫和猴的视觉皮层含有对视野的小区域单独反应的神经元,如果眼睛没有移动,则视觉刺激影响单个神经元的视觉空间区域被称为其感受野(Receptive Field)。相邻细胞具有相似和重叠的感受野。感受野大小和位置在皮层之间系统地变化,形成完整的...原创 2019-03-04 16:56:49 · 577 阅读 · 0 评论 -
GAN
入坑GAN,首先需要理由,GAN能做什么,为什么要学GAN。GAN的初衷就是生成不存在于真实世界的数据,类似于使得 AI具有创造力或者想象力。应用场景如下:AI作家,AI画家等需要创造力的AI体;将模糊图变清晰(去雨,去雾,去抖动,去马赛克等),这需要AI具有所谓的“想象力”,能脑补情节;进行数据增强,根据已有数据生成更多新数据供以feed,可以减缓模型过拟合现象。以上的场景都可以找到相...原创 2019-03-10 17:27:32 · 250 阅读 · 0 评论 -
前向传播算法(Forward propagation)与反向传播算法(Back propagation)
https://blog.csdn.net/bitcarmanlee/article/details/78819025这个例子讲的很好正向就是类似加权的带入反向传播就是根据计算值和实际y 做个差,然后求导反向推算,然后推算到最前面,然后得到误差处的导数,用原来的参数 减掉误差乘以 前一阶段的系数,以此类推,进行迭代,通过多次迭代得到最终的准确结果。需要不停地先 正向传播计算,然后反响传播计...原创 2019-06-02 16:33:57 · 386 阅读 · 0 评论 -
神经网络补充知识
原创 2019-06-01 23:02:10 · 89 阅读 · 0 评论 -
激活函数
神经网络 中神经元也叫 感知器正向传播过程中 各项加权作和后,还有一个运算即为 激活函数计算有sigmatanhrelu等等其中较多使用为relu不使用激活函数,所有的神经网络会变为线性函数每一层的激活函数也可以不一样https://blog.csdn.net/tyhj_sf/article/details/79932893https://blog.csdn.net/kang...原创 2019-06-07 16:35:19 · 139 阅读 · 0 评论 -
深层神经网络与浅层神经网络的区别
https://blog.csdn.net/ybdesire/article/details/78837688原创 2019-06-07 16:37:18 · 3970 阅读 · 0 评论 -
参数(parameters)和超参数(hyperparameters)
在机器学习或者深度学习领域,参数和超参数是一个常见的问题,个人根据经验给出了一个很狭隘的区分这两种参数的方法。参数:就是模型可以根据数据可以自动学习出的变量,应该就是参数。比如,深度学习的权重,偏差等超参数:就是用来确定模型的一些参数,超参数不同,模型是不同的(这个模型不同的意思就是有微小的区别,比如假设都是CNN模型,如果层数不同,模型不一样,虽然都是CNN模型哈。),超参数一般就是根据经验...原创 2019-06-07 16:37:57 · 4774 阅读 · 0 评论 -
drop out学习
https://blog.csdn.net/heyongluoyao8/article/details/49429629机器学习中防止过拟合的处理方法drop out 其实是神经网络在反向传播的过程中,并不是所有的神经元都会保留,而是存在一定的概率留下,比如0.8的概率留下,而且为了保证最终的结果的正确,最后的结果进行一个系数整理,即为除以系数 得到最终结果。...原创 2019-06-08 00:28:37 · 377 阅读 · 0 评论 -
正则化
https://blog.csdn.net/wsj998689aa/article/details/39547771https://blog.csdn.net/gshgsh1228/article/details/52199870原创 2019-06-08 22:38:38 · 98 阅读 · 0 评论 -
图像特征提取三大法宝:HOG特征,LBP特征,Haar特征
https://www.cnblogs.com/zhehan54/p/6723956.htmlHOG 特征 计算如上图所示,hog 特征分为四步,1 模块划分2梯度方向模板3 bin投影 4 每个模块hog1 模块中 蓝色为win 红色为block 绿色为cellimage≥win>block≥cell 他们的大小win可以image中滑动 block可以在win中滑动 都有步长 而 ...原创 2019-06-26 12:50:34 · 1126 阅读 · 0 评论 -
图像边缘检测算子
https://www.cnblogs.com/wlzy/p/7283579.htmlhttps://www.cnblogs.com/eilearn/category/1253666.html一些小的知识点原创 2019-06-26 22:21:09 · 148 阅读 · 0 评论 -
sift 和harris 算子
https://www.cnblogs.com/eilearn/p/9403871.htmlhttps://blog.csdn.net/u014485485/article/category/7247778原创 2019-06-26 22:19:00 · 332 阅读 · 0 评论 -
CNN
Sobel算子和Scharr算子卷积的主要优势在于参数共享和稀疏连接原创 2019-06-29 12:02:48 · 114 阅读 · 0 评论 -
CNN实例
inception原创 2019-06-30 15:31:51 · 1127 阅读 · 0 评论 -
关于深度学习中的batch_size
关于深度学习中的batch_sizebatch_size可以理解为批处理参数,它的极限值为训练集样本总数,当数据量比较少时,可以将batch_size值设置为全数据集(Full batch cearning)。实际上,在深度学习中所涉及到的数据都是比较多的,一般都采用小批量数据处理原则。小批量训练网络的优点:相对海量的的数据集和内存容量,小批量处理需要更少的内存就可以训练网络。通常小批量...原创 2019-03-31 17:47:43 · 1401 阅读 · 0 评论