深度学习算法
深蓝蓝蓝蓝蓝
CS博士在读,专注动态3D重建,欢迎交流www
展开
-
Perceptual Loss
出自2016年李飞飞团队的Perceptual Losses for Real-Time Style Transfer and Super-Resolution目标是加速图片转换的速度,因为当时的图片转换都是通过不断地迭代来让生成的图片不断往目标图片靠近,但这太慢了,所以这篇文章就提出了一个end to end的方法。System overview分为两个部分,一个是image t...原创 2021-12-25 10:00:03 · 476 阅读 · 0 评论 -
DCN(Deep & Cross network)
论文名字是:Deep & Cross network for Ad Click Predictions目的是提取高维特征用于处理广告点击率的预测问题The Deep & Cross network结构如上图所示分为四个部分:1.embedding也即将稀疏向量通过embedding转化为稠密表示,然后与稠密向量concat2.cross network通过以下...原创 2021-12-24 09:46:14 · 229 阅读 · 0 评论 -
YOLO v3~v5
V3v3主要就做了两个事情,一个是换了v2里的backbone,从darknet19换成了darknet53,加深了层数,并且加了残差通道。另外v3还借鉴FPN(Feature Pyramid Networks)对多尺度的特征做了融合。网络输入是416*416*3的图,输出有三个尺度,13*13*255, 26*26*255,52*52*255。然后每个尺度都融合了前一个尺度的上采样特征。从...原创 2021-12-24 09:11:19 · 242 阅读 · 0 评论 -
YOLO v2(yolo9000)
主要是提出了一系列方案来提升yolo v1的效果。就如他论文题目一样,yolo v2分别让yolo v1变得更好,更快和更强。更好, 更快使用了batch norm,来约束神经元的输出,从而使模型更容易收敛。2.使用了高分辨率的分类器:先在imagenet上训练低分辨率图的分类,再在高分辨率图上训练分类,再去训练检测3.使用了anchor boxes:v1中每个小方块只有对应的2个bb...原创 2021-12-23 14:54:35 · 361 阅读 · 0 评论 -
YOLO v1(you only look once)
预测:YOLO的整体结构就是CNN,输入是一个正方形的图片,输出是一个7730维的张量。YOLO在一开始就会将一张图平均划分为77=49个方块,因此对应到输出中就是每个小方块对应了1130维的张量。而这30维张量就由预测框1[5维],预测框2[5维],类别概率[20维]组成。其中预测框的五维分别是:左上角的二维坐标,预测框的长宽和预测框的confidence分数。之所以有两个预测框据说是...原创 2021-12-23 14:29:04 · 101 阅读 · 0 评论 -
Fast RCNN
基于RCNN的改进,使用了SPPNet中提到的子图特征索引,从而只需要对输入图片做一次卷积就可以得到所有框的卷积结果。另外使用ROI pooling将不同尺度的子图缩放到同一尺度,从而让全连接层可以处理。另外删掉了RCNN中的SVM而用cross entropy loss来代替,联合regression loss可以让模型后半部分可以端到端的训练。ROI(region of interest...原创 2021-12-22 11:35:52 · 77 阅读 · 0 评论 -
SPPNet
Spatial Pyramid Pooling,空间金字塔池化。目的是解决现有cnn网络需要固定尺寸图片输入的问题。作者发现cnn网络之所以需要固定尺寸输入是因为全连接层的限制,因此使用SPP对CNN最后一层的输出进行多尺度的池化操作,从而保证全连接层获得的数据维度永远是固定的。这样不仅省去了resize导致的信息丢失,同时也帮助模型学习到了多尺度的信息。参考链接:https://blog.c...原创 2021-12-22 11:07:37 · 193 阅读 · 0 评论 -
RCNN(Region-based Convolutional Neural Networks)
解决了多物体识别和定位的问题,问题在于不是end to end,而且太慢。流程:1.选取一个训练好的CNN分类器作为基础模型2.使用selective search(就是将图像中的像素按照纹理和颜色做聚类)预选出2000个预选框,然后将预选框中的内容裁剪下来,resize后作为模型的输入3.抽取模型第5个pooling的输出作为图像特征4.将图像特征输入SVM二分类器,用于分类5.对于...原创 2021-12-21 17:46:16 · 630 阅读 · 0 评论 -
FCN(Fully Convolutional Networks)
将CNN最后三层quanlianjiecen 转换为反卷积层,从而对每一个像素给出一个分类,用于处理图像语义分割的问题。反卷积层实际就是将原始图像先做padding或者unpooling,之后做卷积的结果。反卷积参考链接:https://www.youtube.com/watch?v=Tk5B4seA-AU&t=74s&ab_channel=Hung-yiLee论文地址:ht...原创 2021-12-21 15:40:55 · 139 阅读 · 0 评论 -
self-attention中的QKV机制
之前有写过attention和transformer的理解,但是对于self attention中的qkv一直理解的不够透彻,直到今天看了李宏毅的视频才理解,所以记录一下。所谓QKV也就是Q(Query),K(Key),V(Value)首先回顾一下self-attention做的是什么:所谓自注意力,也就是说我们有一个序列X,然后我们想要算出X对X自己的注意力,也即X中的每个时间点与其余时...原创 2021-10-31 12:15:57 · 13740 阅读 · 0 评论 -
[ICCV2021]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
动机现在在CV中使用transformer的最大问题是运算量太大,因为图片的信息量远远大过NLP中文本的信息量,然后再做self attention会导致N平方的复杂度,这是不可以接受的,因此如何减少运算量是很重要的。而这篇文章就是提出了一个线性计算量的transformer结构方法之前的ViT考虑的是直接将一个图片分割,然后每个小块做embedding取到局部特征(?),然后再对所有分割的...原创 2021-10-13 23:10:15 · 562 阅读 · 0 评论 -
[CVPR2021]Modeling Multi-Label Action Dependencies for Temporal Action Localization
任务给定一段视频和多个类别,要求输出每一帧对应类别的存在概率。简单来说就是给一段篮球赛的视频,要求判断出那一段视频是在跑步,哪一段是在拍球,哪一段是在投篮,那一段球在滚动。。。思路因为动作之间有互相依赖关系,因此在判断多个类别的时候其实动作互相之间是可以有帮助的。例如,当前一段视频检测出某人踩了西瓜皮,那么下一段视频很有可能就是他摔倒了,这就叫做时间依赖,也即他们在时间维度上是有关系的。又...原创 2021-10-12 20:52:21 · 276 阅读 · 0 评论 -
[IVA2020-best]Let’s Face It: Probabilistic Multi-modal Interlocutor-aware Generation of Facial
目标生成人与人之间的交流视频。具体来说,就是在一组交流中,给出其中一个人(演讲者)的视频,生成另一个人(聆听者)的视频。优点1.提出了一个表达多模态,多对象的序列信息的方式2.使用了MoGlow来建模3.提出了通过众包来完成模型评价的方式数据图像先将视频按照25fps的速度转换成图片,然后用openface来提取landmark。提取的landmark用来决定截图大小。之后将截好的...原创 2021-10-11 22:46:45 · 129 阅读 · 0 评论 -
[PRL2015]The MAHNOB Mimicry Database: A database of naturalistic human interactions
目标为了学习人的社会行为而创建了一个一对一交流数据库(MAHNOB Mimicry Database)数据库信息模态:视频+声音+身体追踪标签互动组数:54组(34组是关于政治话题的讨论,20组是关于租赁协议的讨论)总共时长:11小时参与人数:12个同盟者+48个对手标签:54组中的15组有完全的面部和身体追踪标签分类:模仿者和非模仿者重点模仿行为的存在与否可以作为自闭症的指...原创 2021-10-07 16:43:48 · 116 阅读 · 0 评论 -
Transformer
假设这里我们的任务还是从中文翻译成英文。positional encoder:在普通的seq2seq模型中我们会使用embedding来给每个输入字符在embedding space中找定位置,从而让相似的词拥有相似的向量。但是同一个词在句子的不同位置也往往有不同的意思,因此这里就引入了postitional coding,基本就是通过公式计算出来字符在sentence中位置的表达向量。然后结合...原创 2020-12-08 11:02:27 · 221 阅读 · 0 评论 -
attention mechanism 注意力机制
attention是什么?我们现在有一个翻译任务,输入中文,输出英文。很显然需要用RNN来做。普通的RNN中的many-to-many一般就是一个输入元素针对一个输出元素,也就是说,一个中文字符,对应一个英文字符。但是这会导致长期记忆的问题。而attention就是在预测这个英文字符时,使用加权过的所有中文字符来预测,这个加权值就是attention。如何计算attention weight?...原创 2020-12-08 06:22:19 · 118 阅读 · 0 评论