![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 74
&永恒的星河&
踏实一些、不要着急,你想要的、岁月都会给你.
展开
-
Bert模型深度解析
Segment Embedding:表示区分两个子句标志。维度:[512,768]一个头的维度是:(768,64),多个头类似于CNN中的卷积核中多个通道。原创 2021-11-01 19:26:33 · 3205 阅读 · 0 评论 -
神经网络中矩阵基础
神经网络中矩阵基础原创 2022-11-15 19:29:31 · 873 阅读 · 0 评论 -
Transformer中self-attention实现
Transformer中self-attention实现原创 2023-01-14 21:54:47 · 329 阅读 · 0 评论 -
一种新的激活函数~Funnel Activation
论文题目:Funnel Activation for Visual Recognition代码地址:https://github.com/megvii-model/FunnelAct本篇论文收录于ECCV2020,是旷视科技和香港理工大学发表一篇关于新的激活函数的文章。主要的创新点是在激活函数阶段实现像素级的空间信息建模能力,能够用于目标检测、语义分割等目标识别任务,简单又高效,如下图!我会按照论文的结构对这篇论文进行阐述,对于某些没阐述明白的,读者可以自行下载原文进行研究。Intr.原创 2020-08-09 21:28:25 · 1638 阅读 · 0 评论 -
序列模型GRU介绍与python实现
LSTM实现:https://blog.csdn.net/weixin_44402973/article/details/100554874为了克服RNN 无法很好处理远距离依赖,研究者提出了 LSTM,而 GRU 是LSTM 的一个变体,GRU 保持了 LSTM 的效果同时又使结构更加简单。LSTM和GRU是序列型数据处理单元。在如火如荼的深度学习应用中发挥着不可或缺的作用。比如:机器人...原创 2020-05-01 18:10:19 · 9049 阅读 · 2 评论 -
深度学习之序列数据处理单元(一)
等待实习的第十天,闲着无趣。看看文章博文打发一下时间。最近CV Transformer的研究如火如荼,Transformer最初在NLP领域中被提出来的,被证明在NLP几大任务上取得了显著的优势,在NLP任务中用于对序列型数据进行建模,里面用了一大堆注意力机制。理解Transformer关键在于理解它里面处理单元的工作原理。本文主要介绍简单的序列处理单元RNN,LSTM及其变种,之后会写几篇文章对Transformer,bert,seq2seq等算命进行详细介绍。RNNRNN结构把上图中原创 2021-04-20 13:05:51 · 748 阅读 · 0 评论 -
NLP之seq2seq那些事
烟雨蒙蒙,到处充斥着雨水的味道。心情亦然沉重,如何忘记,依旧爱着,每当夜深人静的时候,总是想起你的脸,想起曾经我们在一块的时光。后悔当初不珍惜。在这痛苦之余,今天分享NLP中序列模型seq2seq模型。 本文将按照如下章节进行书写。第一部分:什么是seq2seq模型?第二部分:seq模型的类型第三部分:seq中的编码层Encoder第四部分:seq中解码层Decoder第五部分:seq优化技巧第一部分:什么是seq2seq模型? Seq2seq...原创 2021-08-19 14:45:48 · 741 阅读 · 1 评论 -
如何计算Bert模型的参数量
如何计算Bert模型的参数量原创 2022-08-18 18:37:22 · 7840 阅读 · 1 评论 -
Tensorflow C++部署实战-linux平台上C++编译环境建立(3)
Tensorflow C++部署实战-linux平台上C++编译环境建立原创 2022-08-05 00:23:54 · 656 阅读 · 0 评论 -
Tensorflow C++部署实战-linux平台上python环境建立(2)
Tensorflow C++部署实战-linux平台上python环境建立原创 2022-08-04 01:02:48 · 441 阅读 · 0 评论 -
Tensorflow C++部署实战-linux平台上cuda环境搭建(1)
Tensorflow C++部署实战-linux平台上cuda环境搭建(1)原创 2022-08-04 00:11:20 · 513 阅读 · 0 评论 -
NLP之文本预处理与特征工程——分词算法(3)
简述NLP中文分词原创 2022-06-04 22:50:53 · 382 阅读 · 0 评论 -
NLP之文本预处理与特征工程——停顿词与词的过滤(2)
在NLP应用中,通常需要对文本中的停用词、出现频率很低的词汇过滤掉,这类似于特征筛选。停顿词和低频词停顿词:对于理解文章或者句子没有太大意义的词。这些词实际上是任何语言中最常见的词(如冠词、介词、代词、连词等),不会给文本增加太多信息。英语中几个停用词的例子是“the”,“a”,“an”,“so”,“what”。低频词:语料中出现频率很低的词,这类词对分析作用不大,所以一般也会去掉。比如1万个单词的文章里它只出现了一两次。注意事项:在删除停用词之前,先研究一下你的任务和你要解决的问题,然后再原创 2022-04-14 17:31:43 · 1849 阅读 · 0 评论 -
NLP之文本预处理与特征工程——最大匹配分词技术(1)
1. 什么是分词根据语境,将句子以字词为单位划分的过程称之为分词。2. 为什么需要分词在英文中,单词之间有空格做天然的分割,分词变得非常简单。而汉语的基本单位是字词,字词是理解句子的基本单位。分词是自然语言处理的基础,分词不好,后面很难去做进一步分析。尽管现在NLP中有很多算法以字来切分,比如bert,中文分词仍然是NLP中很重要、很基础的一块工作。3. 分词工具目前,已经有许多开源的中文分词工具,比如jieba,hanlp,pkuseg。这些分词工具都能很好地处理好大部分中文语句的分词原创 2022-04-11 18:47:59 · 1367 阅读 · 0 评论 -
Bert系列解读及改进
1. BertBert是预训练的语言表征模型,其有巨大参数量要求海量监督数据进行训练,这需要大量的人力。因此,Google采用无监督的方式进行训练,具体任务是:MLM(Masked Language Model)和NSP(Next Sentence Prediction)。1.1 特点不采用传统单向语言模型或者两个单向语言模型浅层特征拼接的方式进行预训练; 采用MLM任务对双向的Transformers进行预训练,以生成深层的双向语言表征; 预训练后,只需要添加额外的输出层用于下游任务,并进原创 2022-03-20 22:15:43 · 6155 阅读 · 0 评论 -
Named Entity Recognition之MRC Framework(1)
论文名称:A Unified MRC Framework for Named Entity Recognition1. 解决问题解决Flat and Nested NER任务。传统解决方案:将NER看作是序列标注问题(sequence labeling problem),本文提出采用MRC框架(machine reading comprehension)来解决NER任务。2. 主要思想本文中提出了采用MRC来解决NER问题,将提取实体标签被形式化为基于问题从上下文中抽取答案块。这样做的..原创 2022-03-14 16:04:35 · 1480 阅读 · 0 评论 -
Bert系列(一)
Pre-Train Model上面模型最大的问题:是不会考虑每次token的context,因为对于这样的模型”单身狗“中的狗和”养只狗“的狗的对应的向量是一样的、如下图:因此诞生了contextualized word embedding,它们是看完整个句子之后给每个token一个embedding。不像word2vec,glove等模型吃一个词,输出一个embedding,没有考虑token的上下文。模型趋势越来越大轻量级模型tra...原创 2021-12-07 23:39:20 · 428 阅读 · 0 评论 -
命名体识别之IDCNN
解决问题 尽管BiLSTM+CRF被广泛的应用于NER任务中有很好的表现,但是BiLSTM不能很好的利用GPU的并行性,导致模型的性能很差,本文提出了一种替代方案-Iterated Dilated Convolutional Neural Networks(ID-CNNs),相比传统的CNN,ID-CNNs可以捕获更长的上下文信息,并且相比传统的LSTM,可以实现并行性。DilatedCNN 和 普通CNN 传统的CNN有明显的计算优势,但是传统的CNN在经过卷积之后,末...原创 2021-11-01 20:59:58 · 4782 阅读 · 0 评论 -
动态卷积之Dynamic Convolution
论文题目:Dynamic Convolution: Attention over Convolution Kernels论文地址:https://arxiv.org/abs/1912.03458前几天发布了关于动态卷积CondConv的文章.今天,我想介绍另一种类型动态卷积Dynamic Convolution,相关文章链接在本文的开头已经给出,感兴趣的可以自己去下载并阅读.最近发现这个卷积的研究比较热门,研究者们试图要打破常规卷积对数据"一视同仁"的思想,设计一种依赖于输入样本的卷积即每个样本.原创 2021-03-23 21:41:28 · 8828 阅读 · 5 评论 -
动态卷积之CondConv思想和代码实现
论文题目:CondConv: Conditionally Parameterized Convolutions for Efficient Inference论文地址: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/1904.04971代码地址:https://link.zhihu.com/?target=https%3A//github.com/tensorflow/tpu/tree/master/models/offici...原创 2021-03-21 22:08:58 · 6483 阅读 · 8 评论 -
T-C3D 实时行为识别时序卷积网络
论文名称:T-C3D:TemporalConvolutional3D NetworkforReal-TimeActionRecognition论文地址:https://aaai.org/ocs/index.php/AAAI/AAAI18/paper/view/17205代码地址:https://github.com/tc3d最近忙于写论文,也没有时间写博客,今天,我给大家带来一篇...原创 2019-12-11 22:43:40 · 3419 阅读 · 5 评论 -
Timeception行为识别网络
论文题目:Timeception for Complex Action Recognition论文地址:https://arxiv.org/pdf/1812.01289v1大家好,今天我来介绍关于视频行为识别领域一篇文章《Timeception for Complex Action Recognition》。该文章主要聚焦于如何构建一种时序层来进行行为识别,这个时序层在文章中被称作Ti...原创 2019-11-15 10:13:30 · 1056 阅读 · 0 评论 -
经典StNet行为识别网络
论文题目:StNet: Local and Global Spatial-Temporal Modeling for Action Recognition论文链接:https://arxiv.org/abs/1811.01549代码:https://github.com/PaddlePaddle/models/blob/develop/fluid/PaddleCV/video/model...原创 2019-10-31 21:48:54 · 5613 阅读 · 0 评论 -
初识卷积神经网络(3)-基本单元
在开始本篇内容之前,我想说一下什么是卷积神经网络?以卷积结构为主,搭建起来的深度网络,为卷积神经网络。该网络可以自动提取特征,通过提取特征进行网络学习。卷积运算对图像和滤波矩阵做内积(逐个元素相乘再求和)的操作为卷积运算。卷积中的重要参数卷积核(kernel) 步长(stride) 填充(Pad) 输出通道在深度学习中,我们最常用的卷积核是2D卷积核(k_w,k_h),...转载 2019-07-09 15:51:56 · 2593 阅读 · 0 评论 -
对于多帧单通道和多帧多通道的3D卷积计算
参数及俗语行如下描述:①. 输入中shape中每个维度含义,shape:[帧数, 图片高度, 图像宽度, 通道数]②.卷积核(h,w,d)h:卷积核高度,w:卷积核宽度,d:卷积核深度③clip:将视频切成很多小片段,每个小片段为一个clip(1)对于多帧单通道情况:设输入clib的shape:(clip_length, height,width,1),3d卷积核大小为(h,w,d),...原创 2019-06-24 15:39:52 · 1857 阅读 · 2 评论 -
初识卷积神经网络(2)-模型参数如何更新?
机器学习中的两大类参数:超参数:在模型训练之前需要设置的参数,而不是通过训练得到的参数数据。比如:学习率,深层神经网络隐藏层数。模型参数:模型要学习的参数,比如:权重W和偏置b,其是在网络训练过程中自动学习和更新。在深度学习中,在我们搭建好神经网络模型之后,最重要的是参数学习。在此之前, 我们先要弄懂,什么是前向算法和反向传播算法。前向算法:从网络输入到网络最终输出的过程称为前...转载 2019-07-08 12:02:47 · 7624 阅读 · 0 评论 -
初识卷积神经网络(1)-概念介绍
在探讨卷积神经网络之前,我想谈谈以下几个概念区别和联系。人工智能(Artificial Intelligence):简称AI,1956年,几个计算机科学家相聚在达特茅斯会议(Dartmouth Conferences),提出了“人工智能”的概念,其思想是为机器赋予人的智能。机器学习(Machine Learning):是人工智能的一个分支,是使用算法来解析数据、从中学习,然后对真实世界中的...转载 2019-07-08 10:52:16 · 209 阅读 · 0 评论 -
TFRecord简介,原理分析,代码实现?
TFRecord简介,原理分析,代码实现?在利用深度学习算法搭建完成网络之后,我们要对网络进行训练,要训练网络就要有训练数据,通常我们会直接对硬盘上存放数据进行操作,来fetch到网络中。这样直接从硬盘上读取 数据太慢了,为了加快数据读取,今天我们介绍一种比较好的数据格式 tfrecord,那么什么是tfrecord呢?什么TFRecord格式的数据? Tensorfl...原创 2019-07-07 18:26:12 · 7275 阅读 · 3 评论 -
I3D【Inflated 3D ConvNet】——膨胀卷积网络用于行为识别
I3D:Quo Vadis,Action Recognition? A New Model and the Kinetics Dataset 论文地址:https://arxiv.org/pdf/1705.07750.pdf 最近读了一篇行为识别的论文I3D,全名《Quo Vadis,Action Recognition? A New Model ...原创 2019-07-01 16:46:38 · 28484 阅读 · 14 评论 -
Contrust a text-cnn for sentence classification using tensorflow based on python3
最近几天对text-cnn进行了tensorflow实现,具体代码已经发布到GitHub,地址为:https://github.com/BluceXuu/TextCnn;文件描述具体如下:数据文件下载如下:https://pan.baidu.com/s/1FH-f7FTPcmOUvjwBJWjysA提取码:55pg具体论文如下:链接:https://pan.baidu.com/s/1...原创 2019-03-29 19:48:15 · 193 阅读 · 0 评论 -
机器学习简单模型-感知机模型
介绍感知机模型之前我想介绍一下什么是线性可分,以及训练机器学习模型的大体步骤,什么是感知机,感知机模型的形式。数据集的线性可分:给定一组数据集T,T={(x1,y1),(x2,y2),...,(xn,yn)},x属于Rn,y属于{-1,+1},i=1,2,3,4,..,n,如果存在一个超平面S且该超平面能够将数据集中的正负实例点完全正确的划分到超平面的两侧,则称该数据集线性可分。机器学习的模型...原创 2019-02-19 13:10:43 · 858 阅读 · 0 评论 -
Two Stream R-C3D用于时序区域行为检测
Two-Stream Region Convolutional 3D Network for Temporal Activity Detection论文地址:https://arxiv.org/pdf/1906.02182v1.pdf 最近读了一篇关于行为检测方面的论文,《Two-Stream Region Convolutional 3D Network for Temp...原创 2019-07-12 21:45:58 · 1394 阅读 · 0 评论 -
行为识别之——Two-Stream Convolutional Networks
Two-Stream Convolutional Networks for Action Recognition in Videos论文地址:http://de.arxiv.org/pdf/1406.2199 在目前的研究中行为识别的方法比较多,主要可以分为两类,基于传统的方法和基于深度学习的方法。这两周我读了一篇行为识别论文《Two-Stream Convolutiona...原创 2019-07-14 12:31:56 · 5892 阅读 · 2 评论 -
初识卷积神经网络(4)-经典卷积网络-1
众所周知,卷积网络在人工智能的各个研究领域发挥着巨大的作用。卷积网络的发展:卷积网络的发展经历了从简到繁再到简的过程。如下图(来自慕课官网):LeNet1998年由LeCun提出,用于解决手写数字识别(MNIST)。如下图来自https://www.cnblogs.com/skyfsm/p/8451834.htmlAlexNet由Hinton的学生AlexNet提出,获...转载 2019-07-11 15:57:21 · 641 阅读 · 0 评论 -
三大聚类算法
在人工智能领域,主要有有监督学习,非监督学习,半监督学习,强化学习四大学习算法,这些算法之间的区别,本博客不进行阐述,感兴趣的可以百度一下相关的概念。目前,业界主要趋向于研究监督学习和非监督学习算法的开发。今天,我想主要介绍一下非监督的三大机器学习算法KMeans,层次聚类,DBSCAN,并配上相应实现代码。聚类算法中最用的概念为簇,什么是簇。什么是簇?Clustering(簇):是将...原创 2019-09-18 21:02:49 · 6701 阅读 · 1 评论 -
计算机视觉之分割
众所周知,计算机视觉(CV)是人工智能研究领域的比较重要的一环。今天是中秋节的第二天,我写该文章的目的是来总结一下计算机视觉之图像分割相关内容,这些内容是对网络上所有内容的归纳,参考了两位博主的优秀博文,具体链接我会在后面给出。为什么要进行图像分割研究呢?图像分割是图像处理和计算机视觉的热点之一,它是图像分析和理解图像特征提取和识别的基础。什么是图像分割?把图像分成若干个特定的、具有...翻译 2019-09-14 12:02:03 · 3612 阅读 · 0 评论 -
序列模型RNN及LSTM实现
具体RNN和LSTM的介绍如下连接:https://www.jianshu.com/p/9dc9f41f0b29**建议读完上面文章,再看本文代码,谢谢! 图1. RNN结构图 ...原创 2019-09-05 13:30:11 · 1895 阅读 · 0 评论 -
经典卷积网络——DenseNet代码实现
题目:Densely Connected Convolutional Networks论文地址:https://arxiv.org/pdf/1608.06993.pdf常见的卷积网络结构对比: 图1. 经典卷积结构对比DenseNet...原创 2019-09-02 23:01:15 · 2849 阅读 · 2 评论 -
实战篇之——利用【Python+Tensorflow】搭建ResNet,实现对Cifar10数据集的分类
利用【Python+Tensorflow】搭建ResNet,实现对Cifar10数据集的分类具体数据集介绍及下载地址:https://blog.csdn.net/weixin_44402973/article/details/960283122015年微软亚洲研究院何凯明团队提出了ResNet,在网络结构上使用了跳连来防止梯度消失,一定程度上加深网络层数。引入跳连,可以一定程度也解决网...转载 2019-07-16 23:02:46 · 2255 阅读 · 0 评论 -
实战篇之——模拟InceptionNet实现对cifar10数据集的分类
利用【Python+Tensorflow】搭建InceptionNet,实现对Cifar10数据集的分类具体数据集介绍及下载地址:https://blog.csdn.net/weixin_44402973/article/details/96028312具体结构介绍详细参照博客:https://my.oschina.net/u/876354/blog/16378192014年,Go...转载 2019-07-18 20:09:38 · 3973 阅读 · 0 评论