自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(334)
  • 资源 (3)
  • 收藏
  • 关注

原创 【单细胞】Scanpy 如何生成一个AnnData对象

【代码】【单细胞】Scanpy 如何生成一个AnnData对象。

2024-06-04 10:11:18 137

原创 TCGA数据集解读和数据下载

表达量矩阵的基因的id的注释信息->encode.v22.annotation.gene.probeMap。从参考文献【2】下载数据。

2024-04-28 16:07:29 306

原创 迁移学习入门

[1]迁移学习与领域自适应:如何让模型更好地适应新的任务[2]迁移学习与多模态数据处理的结合与应用[3]Domain Adaptation(领域自适应,MMD,DANN)[4]迁移学习与多模态学习:实现跨模态知识传递[5] (入门推荐)迁移学习及领域自适应 Transfer Learning & Domain Adaptation

2024-04-17 15:31:47 288

原创 Linux 服务器查看每个用户或者当前用户的磁盘占用量及文件同步

【代码】Linux 服务器查看每个用户或者当前用户的磁盘占用量及文件同步。

2023-12-15 09:46:41 1973

原创 Cmap数据以及L1000介绍

2]

2023-12-11 15:35:29 1706

原创 如何在服务器中使用Conda中安装R环境,并用jupyter使用R

如果需要debug需要安装vscDebugger,安装方式如下图所示(参考文献【4】),如果安装的时候报错见参考文献【2】。推荐使用anaconda或者miniconda,创建虚拟环R_env境然后安装R;第七条:的具体操作见参考文献【5】【8】

2023-12-07 15:49:01 3358

原创 什么是基因表达谱分析及其相关概念

L1000 技术是整合网络细胞印记库项目(Library of Integrated Network Based Cellular Signatures, LINCS)中使用的低成本基因表达谱测定技术。其考虑基因表达之间的相关性,将需要测量的基因目大幅减小,从而达到控制成本的目的.L1000 技术是挑选 978 个标志基因进行测量,进一步通过构建模型外推出其他基因的表达量。实验数据表明这些标志基因的表达可以代表全基因组 80%的信息。

2023-11-15 16:13:06 884

原创 理解Gumbel softmax trick

对离散的分布进行采样假设如下场景:模型训练过程中, 网络的输出为p0.10.70.2, 三个数值分别为"向左", “向上”, "向右"的概率。我们的决策可能是yargmaxp, 也即选择"向上"这条决策。argmaxp1000.710070argmax而gumbel_softmax的作用就是解决上述这两个子问题.。

2023-11-08 09:57:24 778

原创 【Vs code调试C++】

参考文献第一个很重要主要是配置task.json,其余的可以不用管。

2023-10-24 15:48:57 804

转载 【torch_geometric报错】AttributeError: Can‘t get attribute ‘DataEdgeAttr‘

问题原因:在使用torch_geometric.datasets和torch_geometric.data下载数据集时,如果是直接复制别人的数据集,可能一起上传上去的还有processed文件下的pt文件,由于pytorch/torch_geometric版本不一致导致解析失败。解决方案:删除processed目录。

2023-10-23 15:22:22 767

原创 【图神经网络】邻居采样算法

在大规模图上遇到节点爆炸问题,可以参考下面的文献。

2023-08-08 11:38:01 732

转载 【Python进阶】Python argparse 模块中用‘store_const‘,‘store_true‘,‘store_false‘的使用

[1]Python argparse 模块中用‘store_const‘,‘store_true‘,‘store_false‘创建的选项并未存储目标值

2023-07-25 11:22:09 350

原创 【Python进阶】Python多进程pool.map()方法的使用

非常好用的方法运行结果。

2023-07-15 10:49:38 1472

原创 【图神经网络-RGCN】关系图神经网络dgl版本实现

参考文献【1】是数学上的解读参考文献【2】是升级版本,有空来填坑。

2023-07-12 17:24:23 518

转载 查看GPU, cuda,显卡被哪个进程占用

https://blog.csdn.net/bagba/article/details/113124482

2023-06-30 09:27:39 216

原创 【泛函基础】变分推断详解(一)

在学习机器学习和深度学习的过程中,基础的数学知识粗略的可以分为两大类:矩阵论和概率论,基本都逃不过这两个框架(除了优化问题)。而在概率论中尤其以变分推断用的最为广泛,无论是最新的深度学习算法还是机器学习基础,各种知识方法总是存在着对变分推断这一部分知识的交叉。在这个过程中,我们的关键点转变了,从“求分布”的推断问题,变成了“缩小距离”的优化问题。不容易表达,不能直接求解时,可以尝试用变分推断的方法, 即,寻找容易表达和求解的分布。首先,我们的原始目标是,需要根据已有数据推断需要的分布。

2023-03-22 21:33:46 1987 1

原创 【多模态】多模态特征融合策略——门控多模态融合方法

是多模态分类任务——也就是融合视觉和文本特征,并进行分类。这篇文章主要的亮点在于使用了类似于LSTM中的gate机制,提出了一种基于门控神经网络的多模态学习新模型。门控多模态单元 (GMU) 模型旨在用作神经网络架构中的内部单元,其目的是根据来自不同模态的数据的组合找到中间表示。GMU 学习使用乘法门来决定模态如何影响单元的激活。我们提出的模块基于门的想法,用于选择输入的哪些部分更有可能有助于正确生成所需的输出。

2023-03-15 15:31:23 7237 3

原创 【Pytorch进阶】with torch.no_grad()用法详解

参考文献2写的比较详细,有图看起来很直观。

2023-03-14 16:20:26 3398 1

原创 Python计算两个矩阵的成对距离

【代码】Python计算两个矩阵的成对距离。

2023-03-01 15:23:07 612

原创 【Numpy进阶】np.argpartion()函数

[1]numpy.argpatition() 应用详解 + TopK值[2]NumPy的实用函数整理之argpartition[3]Numpy的argpartion函数

2023-03-01 11:44:01 208

原创 【对比学习】Pytorch对比损失的实现及应用

对比损失比较好理解,在输入的多模态数据中使得相同对应样本的相似度越大越大,不对应样本的相似度越小越好。

2023-03-01 11:35:44 1537

原创 【图机器学习】GCN源码中的邻接矩阵的构建

在上述代码中比较难理解的就是构建对称的邻接矩阵那一句,因为在一般的图神经网络模型中,输入的图是无向图所以邻接矩阵是对称矩阵。特别是如果自己构建KNN图的话,对称矩阵这个地方一定要注意。上述代码的具体解释可以看参考文献,这里不多赘述。需要注意的是构建邻接矩阵是否只有这一种方法?其实不然,最简单的操作是矩阵A加上矩阵AT但是这种方法有一定局限性,如果矩阵是一个加权的并不是0,1矩阵,或者矩阵本身就存在对称的元素,直接相加就会存在问题。所以使用上述的代码会避免存在的问题。

2023-03-01 11:24:40 1160

原创 【图机器学习-空域卷积】GNN/GraphSAGE/PGC模型的变化

1]图卷积神经网络3-空域卷积:GNN/GraphSAGE/PGC的引入和介绍。

2023-02-14 16:02:02 204

原创 【机器学习】skit-learn中LSI模型的实现

[1]sklearn_api.lsimodel – Scikit learn wrapper for Latent Semantic Indexing[2]Python models.LsiModel方法代码示例

2023-02-13 16:05:43 282

原创 【Tensorflow2.0】keras.models.Sequential() 和Model()模块

在读tensorflow代码时经常看到使用Model定义模型,这与在Pytorch中经常使用的使用继承模型有区别,所以这里就记录一下。在Keras中有两种深度学习的模型:序列模型(Sequential)和通用模型(Model)。差异在于不同的拓扑结构。如果我们像实现一些更为复杂的网络,比如多输入多输出的模型就需要使用到keras.models.Model()来构建网络。如下代码同时输出最后卷积层Flatten后提取的特征层,以及分类结构。

2023-02-10 16:01:13 3237 2

原创 【Tensorflow2.0】tf.keras.initializers.GlorotUniform初始化

其实很简单,GlorotUniform初始化等同于Pytorch中的Xavier均匀初始化器!

2023-02-09 21:37:08 304

原创 【Tensorflow2.0】tensorflow中的Input()函数

shape:一个表示张量的维度的元组。不包含batch size信息。例如,shape=(32,)表示输入的将是一批32维的向量。注意,即使在初始化中只使用不含batch size信息的shape参数,函数最终的输出也会默认加上值为None的batch size信息,例如,初始化Input(shape=(None, None, 3)),则最终返回的tensor为(None, None, None, 3),第一个None就是batch size信息。作用:初始化深度学习网络输入层的tensor。

2023-02-09 18:00:35 870

原创 【Tensorflow2.0】tensorflow中的Dense函数解析

Dense层就是全连接层,对于层方式的初始化的时候,layers.Dense(units,activation)函数一般只需要指定输出节点数Units和激活函数类型即可。输入节点数将根据第一次运算时输入的shape确定,同时输入、输出节点自动创建并初始化权值w和偏置向量b。由于本人是Pytorch用户,对Tensorflow不是很熟悉,在读到用tf写的代码时就很是麻烦。W 是权重函数, Dense() 会随机给 W 一个初始值。use_bias=True, 是否使用b 直线 y=ax+b 中的 b。

2023-02-09 14:59:49 7390 2

原创 【Pytorch进阶】Pytorch冻结部分层的参数

在读代码时遇到了上述的情景,记录一下作用。上述代码的作用主要是用来在训练中冻结神经网络中的一些层。其中,self.parameters是存储神经网络中间产数矩阵的变量,lambda是函数,filter是过滤函数。filter()函数接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判断,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。

2023-02-08 09:27:20 414

原创 【机器学习】sklearn包中K近邻图的构造

【代码】【机器学习】sklearn包中K近邻图的构造。

2023-02-03 16:50:25 934

原创 【单细胞】Scanpy进行数据归一化

将数据归一化到mean=0,var=1。如果某个基因没有任何方差,也会被保留,如果设置了zero_center=True,那么会设置为0 ,未来会设置为NaN。否则会丢掉这个基因。

2023-02-03 16:04:01 329

转载 【单细胞】Scanpy进行高可变基因的筛选

取出高可变基因,默认使用log的数据,当使用flavor=seurat_v3的时候,采用count data。flavor参数可以选择是使用Seurat,Cell ranger还是seurat v3的算法。Seurat and Cellranger中,使用的是dispersion-based方法,获得归一化的方差。先对基因按照表达量平均值进行分bin,然后计算落在每个bin的基因的离散度(dispersion)的均值和SD,最终获得归一化的dispersion。

2023-02-03 15:48:59 896

原创 【单细胞】sc.pp.normalize_per_cell和sc.pp.normalize_total()函数

sc.pp.normalize_per_cell()和sc.pp.normalize_total()功能是一致的。在最新的Scanpy中sc.pp.normalize_total()替代了sc.pp.normalize_per_cell(),具体的情况见参考文献【2】。

2023-02-03 15:16:53 820

原创 【单细胞】Python单细胞分析数据结构AnnData

[1][2]Python单细胞分析数据结构——AnnData[3]scanpy 单细胞分析包图文详解 01 | 深入理解 AnnData 数据结构[4]Scanpy(一)AnnData数据结构与一些API用法介绍

2023-02-03 10:29:34 230

原创 【单细胞】使用Scanpy进行单细胞数据预处理

【代码】【单细胞数据预处理】使用Scanpy进行单细胞数据预处理。

2023-02-03 09:59:27 546

转载 【机器学习】单细胞-ZINB loss(零膨胀负二项分布)

单细胞RNA测序(single-cell RNA-seq,scRNA-seq)数据是非常有特点的数据,具有很高的稀疏性(high sparsity),具体表现为0非常多(zero inflation)。对于数据的分布给出合理的假设是非常关键的工作,是下游分析的基础。显然对于scRNA-seq的reads count数据,最常用的正态分布是不合理的。首先正态分布描述的是连续型数据,而reads count数据是离散的;其次reads count数据的取值只能为非负整数。

2023-01-07 20:07:23 3365

原创 【机器学习】minHash最小哈希原理及其应用

在数据结构中学过哈希概念以及哈希在内存中的应用,在实际的应用问题中哈希技术也应用十分广泛如在推荐系统以及图神经网络技术中,所以在此总结一下哈希的相关概念以及minHash以及其实际应用,其中多有参考别的文献内容,相关参考一并列在参考文献中。Hash(哈希),又称“散列”。散列(hash)英文原意是“混杂”、“拼凑”、“重新表述”的意思。

2023-01-03 21:14:05 5819 1

原创 【Python进阶】Python计算consine相似性矩阵

python计算相似矩阵

2022-12-16 18:09:11 781

原创 【Latex】Latex公式压缩

在公式的实际应用中总会出现公式超过边距的情况, 如果在公式中采用放大或者缩小的方法,会导致公式所在上下文字体或者公式的编号大小也会出现同样的变换。因此公式的间距压缩是一个非常有用的方法。

2022-12-12 10:43:57 3947

原创 【机器学习】子空间聚类

[1]子空间聚类(转)[2]子空间聚类[3]聚类系数 Clustering coefficient[4]学习CVPR 2019 论文《自监督卷积子空间聚类网络》

2022-12-06 10:12:09 592

cora.tgz深度学习图神经网络数据集

cora.tgz深度学习图神经网络数据集

2021-03-25

麻省理工线性代数36讲讲义.rar

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

2020-03-19

web开发与实战

快速入门web的好方法,通过本pdf文档能够快速了解web开发的整个流程,并且接近实战。

2018-04-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除