算法详解
文章平均质量分 93
解读经典机器学习算法以及不同领域的新方法
yaoyao255
这个作者很懒,什么都没留下…
展开
-
【算法详解】StarGAN:单一生成对抗网络实现多域图像到图像(image-to-image)变换
然而这些方法都具有较差的扩展性和鲁棒性,因为在实现多个域之间的image-to-image变换时,需要对每一对域之间单独建立模型。例如存在k个图像域时,普通的方法需要训练k(k-1)个生成器,并且每个生成器只能利用到与之相关的两个域的数据,这导致了在涉及到多域变换时训练的效率和效果都有待提升。为了能够解决这种困难,这篇文章提出了StarGAN,一种可以学习多域图像变换的生成对抗网络。StarGAN同时使用所有域的训练数据,仅使用一个生成器完成上述任务。原创 2023-11-22 16:50:48 · 453 阅读 · 0 评论 -
【算法详解】Portal:基于对抗性域变换的单细胞数据集整合方法
单细胞测序技术的发展使能了新类型细胞的发现、基因调控网络的研究和细胞分化过程的理解。随着近年来单细胞技术的迅速发展,实验通量大大增加,使研究人员能够分析越来越复杂和多样化的样品。对于这些来自不同样本、平台、模态甚至不同物种的数据集的共同分析使得研究人员可以获得细胞行为的更全面、丰富的认识。因此,开发能够准确有效地整合不同数据集的方法成为加速生命科学发展的重要一环。原创 2023-11-21 00:09:40 · 254 阅读 · 0 评论 -
【算法详解】可以用于跨技术、跨模态的异质切片对齐的方法SLAT
目前大多数空间组学数据对齐方法,都是针对同质切片进行对齐,比如对同时期测量的同器官、同组学的多个相邻切片进行对齐,重建组织的3D结构。无法用于对齐异质切片,因为异质切片,通常会具有明显的非刚性形变、不同的空间分辨率以及复杂的批次效应。这篇文章提出一种可以用于异质切片对齐的方法SLAT(Spatially-Linked Alignment Tool),当然,这种方法也可以进行同质切片对齐。值得一提的是,这是首个发表的异质切片对齐方法。原创 2023-11-14 22:34:59 · 514 阅读 · 0 评论 -
【算法详解】cisTopic——使用主题模型(topic model)建模单细胞表观组数据
因此开发了 cisTopic,一个基于主题模型的无监督贝叶斯框架,用于从单细胞表观组数据(scATAC-seq数据)中同时发觉共可及增强子(coaccessible enhancers,指在细胞中表观基因组测序中同时显示出可及性(即染色质的开放状态)的增强子。现在认为每一个文档可以看成是主题的一种分布(矩阵L),每一个主题,又可以看成是单词的一种分布(矩阵F)。那么说回主题模型,以服从多项式分布的主题模型为例,X矩阵每一行代表一个文档,每一列代表一个单词,也就是总共n个文档,m个不重复的单词。原创 2023-11-06 19:48:07 · 462 阅读 · 1 评论 -
【算法详解】scBasset——使用卷积神经网络的scATAC-seq数据基于序列建模方法
那么瓶颈模块最终得到的表示为n_peaks*32矩阵,通过全连接层学习到的参数则是一个32*n_cells的权重矩阵(忽略截距),这个矩阵每一列对应一个细胞的低维表示,通过这个矩阵的列向量可以对细胞进行聚类、可视化等操作。模型的从每一个peak(很长,具有很多碱基对)的中心选取长度为1344-bp的DNA序列,并使用one-hot转换为一个1344*4的矩阵(因为DNA碱基只有A、T、C、G四种),即每一个peak对应一个1344*4的矩阵。后续卷积层计算这些特征的非线性组合,来得到序列的嵌入结果。原创 2023-11-05 15:56:21 · 387 阅读 · 0 评论 -
【算法详解】参考数据指导(reference-guided)的单细胞染色质开放性数据分析方法RA3
首先使用TF-IDF变换来对scCAS数据矩阵进行标准化,这种变换对测序深度(在一个给定样本或数据集中的测序读数数量,它可以代表每个基因或区域的覆盖程度)进行了归一化,并且增加了不经常出现的区域的权重,降低了常见区域的权重。由于认为一小部分分离的细胞的差异方向更可能代表生物学差异,因此spike-and-slab先验有助于RA3区分生物学差异和技术差异(技术不同造成的数据差异)。RA3不仅捕获了单细胞染色质可及性数据和参考数据之间共有的生物学差异,而且还捕获了参考数据中未体现的独特的生物学差异。原创 2023-11-04 18:16:45 · 169 阅读 · 1 评论 -
【算法详解】GPT-1模型架构与训练方法详解
今天给大家解读一下Improving Language Understanding byGenerative Pre-Training这篇文章,也就是俗称的GPT-1,是GPT语言模型公诸于世的最初版本。谈谈我的个人理解,如有疏漏,欢迎指正!GPT这个名字,是后人给这个模型起的,原论文中并没有将他们的模型成为GPT。对于这个名字,我看网上主要有两种说法,一说取自Generative Pre-Training,即生成式预训练的首字母缩写,代表这个模型的主要特点,一说取自Generative Pre-原创 2023-08-24 15:59:51 · 1501 阅读 · 2 评论 -
【算法详解】SlowFast——用于视频识别任务的双通道模型
最近在完成一个视频分类的任务,找到并学习了SlowFast模型。这个模型在我实现的任务中取得了较好的效果,所以今天和大家分享一下我对SlowFast这个模型的理解。当然这个模型并不止于实现视频分类,更多用途等待大家去探索。原创 2023-08-31 17:08:26 · 2192 阅读 · 1 评论 -
【算法详解】Swin Transformer&Video Swin Transformer图像领域和视频邻域的Transformer based模型结构解读
针对这个问题,文章中提出一种掩码机制,根据窗口内patch来自原数据位置的不同,将不应该计算注意力的位置的计算结果通过加上一个负的较大数来mask掉(如重新划分后左下角的窗口中,来自原图像底部的某个灰色表示的patch和移位过来的属于C部分的某个绿色表示的patch的计算结果),使其在计算Softmax时不起作用。Swin Transformer Block(以下简称block)每两个为一组,其中每个block都有与Transformer中的Transformer Block类似的结构。原创 2023-09-13 20:27:21 · 604 阅读 · 1 评论 -
【算法详解】多切片空间分辨转录组数据部分对齐算法PASTE2,PASTE算法升级版
在之前的博客中,我已经介绍过了PASTE算法。PASTE(probabilistic alignment of Spacial Transcriptomics experiments)是一种通过同时利用数据中提供的基因表达水平信息和位置信息,将相邻组织切片通过所获得的数据进行对齐或整合的算法。PASTE提供了两种模式,即数据对齐(alignment)和数据整合(integration)。原创 2023-09-20 17:19:44 · 484 阅读 · 2 评论 -
【算法详解】SPIRAL:空间转录组数据整合与切片对齐新算法
SPIRAL由SPIRAL-integration和SPIRAL-alignment两部分组成。SPIRAL-integration通过结合GraphSAGE网络和域适应网络(domain adaptation network),使用基因表达数据和空间位置关系数据作为输入,来纠正批次效应。SPIRAL-integration部分由四个神经网络构成,分别为1)作为编码器的GraphSAGE网络,2)噪声分类网络,3)生物鉴别网络,这两者用于将低维表示分解为噪声部分和生物部分,4)用于从低维表示重建基因原创 2023-10-25 18:47:38 · 756 阅读 · 4 评论 -
【算法详解】R包Seurat v3单细胞数据的综合整合(集成)算法解析
近年来,分子生物学、微流控技术和计算方法的快速发展已经使得单细胞测序领域不再局限于基于单细胞RNA测序(scRNA-seq)的常规的转录组学分析。一些新方法涵盖对单细胞多方面特征的不同表征,例如免疫表型、基因组序列、谱系起源、DNA甲基化谱、染色质可及性、空间定位等。每种技术都具有其独特的优势和局限性,并且只能测量细胞特性的特定方面。随着测量不同的细胞模态的新方法的出现,一个关键的问题是如何将这些数据集整合起来,以更好地理解细胞的特性和功能。原创 2023-09-19 21:54:21 · 596 阅读 · 0 评论 -
【算法详解】STitch3D:空间转录组数据和单细胞RNA测序数据共同建模的空转数据对齐和整合算法,实现更高分辨率的3D结构重建
STitch3D是一个基于图注意力深度学习网络、使用多个切片的空转数据重建3D组织结构的方法。模型结构如下图所示。模型的输入是多个空转切片和一个对应的单细胞RNA测序(scRNA-seq)参考。预处理步骤需要先将这些空间转录组切片进行对齐,获得对齐后的新的2D坐标,从而根据这些新坐标构建3D坐标,再使用3D坐标构建3D邻接图。原创 2023-11-01 20:38:33 · 837 阅读 · 12 评论 -
【算法详解】空间转录组数据对齐与整合算法PASTE原理详解
空间转录组学(Spatial Transcriptomics)是一种生物学和生物信息学领域的技术和方法,它用于研究组织、细胞和生物样本中基因表达的空间分布。这个领域的目标是理解基因在生物组织中的位置和表达模式,以帮助解释组织发育、疾病机制和其他生物学过程。传统的转录组学研究主要关注基因的表达水平(mRNA expression / gene expression),但没有提供关于基因表达在组织中的空间分布的信息。空间转录组学通过将组织中的基因表达数据与其空间位置相关联。原创 2023-09-10 19:42:55 · 883 阅读 · 1 评论 -
【算法详解】基于图注意力神经网络的空间转录组数据整合模型STAligner
随着空间转录组学(Spatial Transcriptomics, ST)技术的进步,对于组织切片的检测逐渐具有更高的空间分辨率,更大的视野域以及更多的点数(根据技术而定,每个用于防止切片的捕获区都由实际起到检测作用的点阵构成,例如10x Visium目前大多数对于转录组学数据的分析局限于对单细胞RNA序列分析或者在二维ST切片内的分析,这忽略的组织切片的空间结构信息对于探索实际细胞分布和生理活动机理的作用。原创 2023-09-26 14:26:47 · 885 阅读 · 0 评论 -
【算法详解】空间基因组数据深度高斯过程非线性对齐Gaussian Process Spatial Alignment (GPSA)
空间分辨基因组技术(Spatially-resolved genomic technologies)有望帮助我们理解细胞形态、基因表达、蛋白质表达等问题。随着技术的发展,人们提出了一些计算模型和分析方式来处理、分析单切片数据(single-slice data)。尽管这些技术和方法已经促进了科学发现,但由于不同切片、样本和个体之间不可避免的空间扭曲和生物变异,联合分析来自这些技术的多个表型读数仍然很困难。此外,不同的空间基因组平台在视野、空间分辨率和测量的表型读数数量上差异很大,这更增加了联合分析的难度。原创 2023-09-14 07:00:00 · 497 阅读 · 1 评论 -
【算法详解】单细胞染色质开放性数据降维方法SCALE,单细胞表观组数据处理方法(VAE+GMM)
SCALE结合VAE和GMM来处理scATAC-seq数据X,将数据X建模为一个联合分布。其中c是提前定义的K个聚类中的一个,对应于GMM的一个分量;是隐变量,和通过编码器网络使用X学习得到,从分布中选取。由于z是由c决定的,所以有,其中是K个预定义聚类的离散分布,服从混合高斯分布,每个分量对应于一个类别c,具有均值和方差是由解码器网络建模的多变量伯努利分布。如下图所示,SCALE方法将每个cell对应的数据,先通过编码器映射到低维隐空间对应的表示。原创 2023-11-03 16:43:53 · 219 阅读 · 0 评论