自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (3)
  • 收藏
  • 关注

原创 医学影像常见存储格式

医学影像常见存储格式DICOM、NIFTI、Analyze、PAR/REC、NRRD、TIFF、SVS

2024-03-21 19:54:20 449

原创 变分自编码(VAE,Variational Auto-Encoder)知识点速览

解码器的目的是将潜在向量解码成重建的输入数据,所以解码器的最后一层通常是全连接层(如果输入数据是结构化数据)或转置卷积层(如果输入数据是图像),输出重建的输入数据。:编码器部分的作用是学习输入数据(比如图片)到隐含空间的映射。:编码器的目的是将输入数据编码成潜在向量的分布(通常是高斯分布),所以编码器的最后一层通常是全连接层,输出潜在向量的均值和(对数)方差。:VAE的训练过程本质上是在学习一个压缩和解压的机制,将高维的输入数据压缩到低维的潜在空间,然后从潜在空间解压缩回原始的高维空间。

2023-06-25 18:42:02 2951

原创 关于大模型的一些问答(持续更新)

然后,在反向传播过程中,每个处理器会接收到其后续处理器计算出的梯度,并基于这些梯度以及其前向传播过程中保存的激活值,计算其负责的模型部分的梯度。同样,如果你使用的训练策略需要保存中间的激活值(例如,如果你使用了标准的反向传播或某些类型的规则化),那么还需要额外的空间。因此,对于100亿个参数,你需要大约40GB的空间来存储参数,再加上40GB的空间来存储梯度,总共需要80GB的空间。最后得到的就是一个完整的、已更新的模型,只不过这个模型的不同部分分散在不同的处理器上。当然,这些难点并不是不能克服的。

2023-06-04 17:45:25 2795

原创 多模态大模型系列论文(ALBEF、BLIP、BLIP-2)

1)当前 视觉-语言 预训练(VLP)推动了 视觉语言预训练任务的性能,然而大多数现有的预训练模型或者擅长基于理解的任务(分类)或者基于生成的任务之一。利用动量蒸馏的方式,模型将不在惩罚模型合理的输出,即使这个输出与网络标签不一致,提升从网络噪声数据中学习的能力。2)训练多模模型,利用到了互联网上爬取的数据,这些数据中往往存在大量噪声,传统的图文特征融合训练模式(如 MLM, masked language modeling) 可能过拟合到噪声文本上,从而影响模型的泛化性能。

2023-04-04 16:05:59 2444

原创 论文阅读:Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning

利用对偶学习提升代码摘要和代码检索性能

2022-10-22 20:58:42 258 1

原创 多模态机器学习综述

2017年初稿,2019 TPAMI 多模态机器学习综述,multimodal machine learning: a survey and taxonomy

2022-09-23 19:20:38 1149

原创 弱监督学习系列:Attention-Based Dropout Layer for Weakly Supervised Single Object Localization and Semantic

原文链接: CVPR2019 & TPAMI 2020https://arxiv.org/abs/1908.10028https://arxiv.org/abs/1908.10028代码连接:tensorflow 版本https://github.com/junsukchoe/ADLwsol evaluation 论文中实现的 pytorch 版本https://github.com/clovaai/wsolevaluation目录目录一、文章想要解决的问题二、基本思路.

2022-03-30 16:59:21 804

原创 弱监督学习系列:Inter-Image Communication for Weakly Supervised Localization

原文链接https://arxiv.org/pdf/2008.05096.pdf代码链接(ECCV2020) Inter-Image Communication for Weakly Supervised Localization - GitHub - xiaomengyc/I2C: (ECCV2020) Inter-Image Communication for Weakly Supervised Localizationhttps://github.com/xiaomengyc/I2C目录..

2022-01-04 16:24:09 2254

原创 自监督论文阅读系列:TMI20 基于样本相似度的半监督学习用于医学图像分类

论文题目:Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model。任务: 更好地利用半监督学习提升图像分类性能核心思想如下图 1 所示:传统的半监督学习只保证了单个样本扰动后分类网络输出标签一致性,本文考虑到样本之间的关系,让样本经过扰动后,分类网络输出的样本特征之间的关系仍然得到保留。图 1 传统的半监督学习只保证了单个样本扰动后分类网络输出标签一致性,本文考虑到样本之间的.

2021-09-28 15:44:10 1169

原创 自监督论文阅读系列:CVPR 2021:Every Annotation Counts

论文题目:Every Annotation Counts: Multi-label Deep Supervision for Medical Image Segmentation。任务:半监督学习辅助影像分割亮点:1. 关注网络低层的监督融合2. 多标签信息(bounding box,类别信息等)的利用...

2021-09-13 16:21:45 1218 4

原创 自监督、弱监督、半监督 kick-off

pretext task:1. encoder-decoder 流派2. rotation prediction 流派3. ji'g'sa

2021-09-10 11:18:28 1341

转载 深度学习炼丹涨点神器之 Coordinate Attention (坐标注意力机制)

飞桨实现yhttps://aistudio.baidu.com/aistudio/projectdetail/1884947

2021-06-15 16:44:32 3762

原创 如何理解 Transformer 中的 Query、Key 与 Value

Transformer 起源于 2017 年的一篇 google brain 的又一篇神文 《Attention is all you need》,至此由引领了在 NLP 和 CV 了又一研究热点。在 Transformer 中一个非常关键的贡献就是 self-attention。就是利用输入样本自身的关系构建注意力模型。self-attention 中又引入了三个非常重要的元素: Query 、Key 和 Value。假设是一个输入样本序列的特征, 其中 n 为输入样本个数(序列长度),d..

2021-04-27 20:52:50 32523 8

原创 Faster RCNN 中检测框位置回归是怎么做的

如上图所示,Faster-RCNN 中的 RPN 网络,有两个分支:1. 分类分支:这个很好理解,传统图像分类问题,判断目标框中是不是目标。2. 回归分支:由于根据 anchor 预设定的框可能不一定能以最佳的形态框住目标。因此需要对预设定的框进行微调,使得最终输出的检测框能已最佳的形态框住目标。因此回归分支的目的就是对预设框的位置 (x, y, w, h) 进行回归。在这两个分支中,回归分支可能不太好理解。(1)回归分支的输入是什么呢?预设框的位置怎么传入网络呢?(2)学习的参数是..

2021-03-17 18:05:54 2042

原创 目标检测中的多尺度问题解决方案之 SNIP 系列

论文题目:An Analysis of Scale Invariance in Object Detection – SNIP链接:https://arxiv.org/pdf/1711.08189.pdf一、作者试图解决什么问题?答:这个工作是一种模型训练 trick,主要在 augmentation 环节使用。解决检测问题中,待检测的目标尺寸差别太大(小目标与大目标同时存在)的问题。常用的方法与问题:对图像进行多尺度的缩放或者扩展,这种方式问题是每一张图会生成很多张图,计算量堪忧;而.

2020-06-30 17:24:24 808

原创 Focal loss 中两个加权参数的原理和产生的影响

首先需要明确一个在损失函数中的加权细节:想要在损失函数中对样本进行加权,那么加权的思路应该要是逆向的。因为损失函数的优化目标是越小越好,所以你越想保护的部分应该给予小权重,使得这部分可以大。而越想惩罚的部分,应该给予大权重,这样强制让他们只能是小的。Focal loss :。里面最核心的两个参数和。其中类似与class weight 给类别加权重。如果 y = 1 类样本个数大于 y = 0, 那么应该小于 0.5,保护样本少的类,而多惩罚样本多的类。结论是样本越不平衡...

2020-05-20 11:49:52 6237 4

原创 数据扩增中的逆向思维解决过拟合问题

常规在机器学习与深度学习模型训练过程中,经常会对较少的类别进行扩增。数据扩增一定程度上可以缓解类别的不平衡性,也可以扩展样本的多样性。在机器学习训练中,还有一个很难绕开的问题是 【过拟合】,过拟合的主要原因是学习到了一些 “假模式”(这也是因果律被诟病的主要原因之一);比如在进行分类的时候,狗狗类别的图像,狗狗总是叼着一个大球,而其他类别的图像中,并没有类似的大球。那么黑盒训练过程中,很可能把这个大球与狗狗这个类别绑定起来。这个球就是 “假模式”。这个可能造成的后果是,如果有一张图像只出现了大球,而没有

2020-05-13 17:09:15 460

原创 mmdetection 代码库中的 anchor 设置原则

本文主要介绍 CUHK 的 mmdetection 代码库 (https://github.com/open-mmlab/mmdetection)中关于 anchor 的设置的一些 tips。以下提到的所有 anchor 尺寸均为对应到输入图像上的bounding box 尺寸。mmdetection 代码库总体框架还比较清晰,对于大部分经典的检测算法都有实现。大部分的接口参数都可以通过修改...

2020-04-07 22:39:04 4794 7

原创 Faster-RCNN 之 anchor 生成的 bounding box 与最终 proposal 的关系

上一篇博客中介绍了Faster-RCNN是怎么通过 RPN (region proposal net) 设置 anchor 获得原图中的bounding box(bbx)的。对于 RPN 来说,或还没干完。还需要将获得的 bbxes 进行分类和回归,获得最终可以进行细粒度检测的 proposals。大部分人可能都知道,由 bbx 获得 proposals,无非包括两个 heads :1)cl...

2020-03-30 21:35:01 1556

原创 卷积神经网络中的感受野计算

感受野是卷积神经网络中一个很重要的概念,调参的时候,有些时候适当关注一下感受野,往往能起到意想不到的作用。随着网络层数的加深,逐层去推感受野往往不太现实。本文主要介绍感受野的计算公式和其推导过程。(我注意到有些博客中的计算方式是错误的,大家对问题还是要理解本质,自己多手动推导几次别把错误照单全收了。)【以下计算不考虑 padding 的问题,不考虑边界的感受野缺失】感受野就是神经网络 ...

2020-03-28 21:50:42 698 3

原创 Faster-RCNN 中的 anchor 与原图中 boundingbox 的对应关系

通常在 Flag 立下之后的第一篇博客,总想把很多东西都放在一篇文章里面说得透透的,这样就像是在一个迷宫,越走发现可以走的路越多,所以往往就偏离主线越来越远,因此原计划就成了烂尾楼。而解决拖延症的最好办法就是抛弃完美主义,无论写的多烂,先搞定一个版本,后面再改。因此本篇就是出于这个初衷,可能有理解不到位的地方,希望大家讨论指正。闲话少叙,下面进入主题------------------...

2020-03-23 13:42:26 4109 12

计算机图形学ppt-同济大学

图形学课件,适合自学或是老师使用,重点清晰,删繁就简。

2009-10-10

最新南开百题计算机三级上机

txt文件,包括答案和运行结果,同一个题目还有几种编发,挺详细的。

2009-10-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除