yafee123-CSDN博客

原创医学影像常见存储格式

医学影像常见存储格式DICOM、NIFTI、Analyze、PAR/REC、NRRD、TIFF、SVS

2024-03-21 19:54:20 449

原创变分自编码（VAE，Variational Auto-Encoder）知识点速览

解码器的目的是将潜在向量解码成重建的输入数据，所以解码器的最后一层通常是全连接层（如果输入数据是结构化数据）或转置卷积层（如果输入数据是图像），输出重建的输入数据。：编码器部分的作用是学习输入数据（比如图片）到隐含空间的映射。：编码器的目的是将输入数据编码成潜在向量的分布（通常是高斯分布），所以编码器的最后一层通常是全连接层，输出潜在向量的均值和（对数）方差。：VAE的训练过程本质上是在学习一个压缩和解压的机制，将高维的输入数据压缩到低维的潜在空间，然后从潜在空间解压缩回原始的高维空间。

2023-06-25 18:42:02 2951

原创关于大模型的一些问答（持续更新）

然后，在反向传播过程中，每个处理器会接收到其后续处理器计算出的梯度，并基于这些梯度以及其前向传播过程中保存的激活值，计算其负责的模型部分的梯度。同样，如果你使用的训练策略需要保存中间的激活值（例如，如果你使用了标准的反向传播或某些类型的规则化），那么还需要额外的空间。因此，对于100亿个参数，你需要大约40GB的空间来存储参数，再加上40GB的空间来存储梯度，总共需要80GB的空间。最后得到的就是一个完整的、已更新的模型，只不过这个模型的不同部分分散在不同的处理器上。当然，这些难点并不是不能克服的。

2023-06-04 17:45:25 2795

原创多模态大模型系列论文（ALBEF、BLIP、BLIP-2）

1）当前视觉-语言预训练（VLP）推动了视觉语言预训练任务的性能，然而大多数现有的预训练模型或者擅长基于理解的任务（分类）或者基于生成的任务之一。利用动量蒸馏的方式，模型将不在惩罚模型合理的输出，即使这个输出与网络标签不一致，提升从网络噪声数据中学习的能力。2）训练多模模型，利用到了互联网上爬取的数据，这些数据中往往存在大量噪声，传统的图文特征融合训练模式（如 MLM, masked language modeling）可能过拟合到噪声文本上，从而影响模型的泛化性能。

2023-04-04 16:05:59 2444

原创论文阅读：Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning

利用对偶学习提升代码摘要和代码检索性能

2022-10-22 20:58:42 258 1

原创多模态机器学习综述

2017年初稿，2019 TPAMI 多模态机器学习综述，multimodal machine learning: a survey and taxonomy

2022-09-23 19:20:38 1149

原创弱监督学习系列：Attention-Based Dropout Layer for Weakly Supervised Single Object Localization and Semantic

原文链接： CVPR2019 & TPAMI 2020https://arxiv.org/abs/1908.10028https://arxiv.org/abs/1908.10028代码连接：tensorflow 版本https://github.com/junsukchoe/ADLwsol evaluation 论文中实现的 pytorch 版本https://github.com/clovaai/wsolevaluation目录目录一、文章想要解决的问题二、基本思路.

2022-03-30 16:59:21 804

原创弱监督学习系列：Inter-Image Communication for Weakly Supervised Localization

原文链接https://arxiv.org/pdf/2008.05096.pdf代码链接(ECCV2020) Inter-Image Communication for Weakly Supervised Localization - GitHub - xiaomengyc/I2C: (ECCV2020) Inter-Image Communication for Weakly Supervised Localizationhttps://github.com/xiaomengyc/I2C目录..

2022-01-04 16:24:09 2254

原创自监督论文阅读系列：TMI20 基于样本相似度的半监督学习用于医学图像分类

论文题目：Semi-supervised Medical Image Classification with Relation-driven Self-ensembling Model。任务：更好地利用半监督学习提升图像分类性能核心思想如下图 1 所示：传统的半监督学习只保证了单个样本扰动后分类网络输出标签一致性，本文考虑到样本之间的关系，让样本经过扰动后，分类网络输出的样本特征之间的关系仍然得到保留。图 1 传统的半监督学习只保证了单个样本扰动后分类网络输出标签一致性，本文考虑到样本之间的.

2021-09-28 15:44:10 1169

原创自监督论文阅读系列：CVPR 2021：Every Annotation Counts

论文题目：Every Annotation Counts: Multi-label Deep Supervision for Medical Image Segmentation。任务：半监督学习辅助影像分割亮点：1. 关注网络低层的监督融合2. 多标签信息（bounding box，类别信息等）的利用...

2021-09-13 16:21:45 1218 4

原创自监督、弱监督、半监督 kick-off

pretext task：1. encoder-decoder 流派2. rotation prediction 流派3. ji'g'sa

2021-09-10 11:18:28 1341

转载深度学习炼丹涨点神器之 Coordinate Attention （坐标注意力机制）

飞桨实现yhttps://aistudio.baidu.com/aistudio/projectdetail/1884947

2021-06-15 16:44:32 3762

原创如何理解 Transformer 中的 Query、Key 与 Value

Transformer 起源于 2017 年的一篇 google brain 的又一篇神文《Attention is all you need》，至此由引领了在 NLP 和 CV 了又一研究热点。在 Transformer 中一个非常关键的贡献就是 self-attention。就是利用输入样本自身的关系构建注意力模型。self-attention 中又引入了三个非常重要的元素： Query 、Key 和 Value。假设是一个输入样本序列的特征, 其中 n 为输入样本个数(序列长度)，d..

2021-04-27 20:52:50 32523 8

原创 Faster RCNN 中检测框位置回归是怎么做的

如上图所示，Faster-RCNN 中的 RPN 网络，有两个分支：1. 分类分支：这个很好理解，传统图像分类问题，判断目标框中是不是目标。2. 回归分支：由于根据 anchor 预设定的框可能不一定能以最佳的形态框住目标。因此需要对预设定的框进行微调，使得最终输出的检测框能已最佳的形态框住目标。因此回归分支的目的就是对预设框的位置 (x, y, w, h) 进行回归。在这两个分支中，回归分支可能不太好理解。（1）回归分支的输入是什么呢？预设框的位置怎么传入网络呢？（2）学习的参数是..

2021-03-17 18:05:54 2042

原创目标检测中的多尺度问题解决方案之 SNIP 系列

论文题目：An Analysis of Scale Invariance in Object Detection – SNIP链接：https://arxiv.org/pdf/1711.08189.pdf一、作者试图解决什么问题？答：这个工作是一种模型训练 trick，主要在 augmentation 环节使用。解决检测问题中，待检测的目标尺寸差别太大（小目标与大目标同时存在）的问题。常用的方法与问题：对图像进行多尺度的缩放或者扩展，这种方式问题是每一张图会生成很多张图，计算量堪忧；而.

2020-06-30 17:24:24 808

原创 Focal loss 中两个加权参数的原理和产生的影响

首先需要明确一个在损失函数中的加权细节：想要在损失函数中对样本进行加权，那么加权的思路应该要是逆向的。因为损失函数的优化目标是越小越好，所以你越想保护的部分应该给予小权重，使得这部分可以大。而越想惩罚的部分，应该给予大权重，这样强制让他们只能是小的。Focal loss ：。里面最核心的两个参数和。其中类似与class weight 给类别加权重。如果 y = 1 类样本个数大于 y = 0，那么应该小于 0.5，保护样本少的类，而多惩罚样本多的类。结论是样本越不平衡...

2020-05-20 11:49:52 6237 4

原创数据扩增中的逆向思维解决过拟合问题

常规在机器学习与深度学习模型训练过程中，经常会对较少的类别进行扩增。数据扩增一定程度上可以缓解类别的不平衡性，也可以扩展样本的多样性。在机器学习训练中，还有一个很难绕开的问题是【过拟合】，过拟合的主要原因是学习到了一些 “假模式”（这也是因果律被诟病的主要原因之一）；比如在进行分类的时候，狗狗类别的图像，狗狗总是叼着一个大球，而其他类别的图像中，并没有类似的大球。那么黑盒训练过程中，很可能把这个大球与狗狗这个类别绑定起来。这个球就是 “假模式”。这个可能造成的后果是，如果有一张图像只出现了大球，而没有

2020-05-13 17:09:15 460

Yafee的专栏