Scanpy（5）单细胞轨迹推断-PAGA

逍遥_yjz

于 2024-06-05 11:42:38 发布

阅读量1k

点赞数 8

分类专栏：生信分析工具文章标签：生信分析

本文链接：https://blog.csdn.net/xiaoyaozizai017/article/details/139468130

版权

python单细胞流程-scanpy

Trajectory inference for hematopoiesis in mouse，内容是以小鼠数据为例，进行单细胞轨迹推断。

首先依旧是加载包以及基础设置

import numpy as np
import pandas as pd
import matplotlib.pyplot as pl
from matplotlib import rcParams
import scanpy as sc

sc.settings.verbosity = 3  # verbosity: errors (0), warnings (1), info (2), hints (3)
# sc.logging.print_versions()
results_file = './write/paul15.h5ad'
sc.settings.set_figure_params(dpi=80, frameon=False, figsize=(3, 3), facecolor='white')  # low dpi (dots per inch) yields small inline figures

sc.datasets.paul15() 是 Scanpy 中用于加载 Paul15 数据集的函数调用。Scanpy 是一个专门用于单细胞RNA测序（scRNA-seq）数据分析的Python库。paul15 数据集是其中一个示例数据集，包含了来自 Paul 等人的单细胞RNA测序数据。然后我们加载并命名为adata。

1. 数据加载

然后我们简单查看adata

adata = sc.datasets.paul15()
print(adata)
adata.X = adata.X.astype('float64')
print(adata.X)

AnnData object with n_obs × n_vars = 2730 × 3451
    obs: 'paul15_clusters'
    uns: 'iroot'
        
[[0. 0. 0. ... 0. 2. 0.]
 [0. 0. 1. ... 0. 1. 0.]
 [1. 0. 3. ... 2. 3. 0.]
 ...
 [0. 0. 1. ... 0. 0. 0.]
 [3. 0. 3. ... 0. 1. 0.]
 [0. 0. 4. ... 1. 1. 1.]]

print(adata.X.shape)
print(adata.var)
print(adata.obs)

# 这里是知道要处理的矩阵，每一行表示样本细胞信息，列表表明基因
(2730, 3451)

Empty DataFrame
Columns: []
Index: [0610007L01Rik, 0610009O20Rik, 0610010K14Rik, 0910001L09Rik, 1100001G20Rik, 1110002B05Rik, 1110004E09Rik, 1110007A13Rik, 1110007C09Rik, 1110013L07Rik, 1110020G09Rik, 1110034G24Rik, 1110038B12Rik, 1110049F12Rik, 1110059E24Rik, 1190002H23Rik, 1190007F08Rik, 1200002N14Rik, 1300001I01Rik, 1300017J02Rik, 1500001M20Rik, 1500012F01Rik, 1500032L24Rik, 1600014C10Rik, 1700001L05Rik, 1700012B09Rik, 1700017B05Rik, 1700020L24Rik, 1810009A15Rik, 1810011H11Rik, 1810027O10Rik, 1810030N24Rik, 1810031K17Rik, 1810033B17Rik, 1810037I17Rik, 2010002N04Rik, 2010011I20Rik, 2010106G01Rik, 2210016F16Rik, 2210020M01Rik, 2210023G05Rik, 2210404O07Rik, 2210411K11Rik, 2310003C23Rik, 2310003F16Rik, 2310005E10Rik, 2310014H01Rik, 2310022B05Rik, 2310028O11Rik, 2410006H16Rik, 2510002D24Rik, 2510003E04Rik, 2610018G03Rik, 2610024G14Rik, 2610029G23Rik, 2610029I01Rik, 2610035D17Rik, 2610101N10Rik, 2700094K13Rik, 2810004N23Rik, 2810417H13Rik, 2810474O19Rik, 2900010J23Rik, 2900010M23Rik, 2900026A02Rik, 2900073G15Rik, 3110003A17Rik, 3110056O03Rik, 4632415L05Rik, 4632428N05Rik, 4930473A06Rik, 4930486L24Rik, 4930503E24Rik, 4930534B04Rik, 4931406C07Rik, 5033406O09Rik, 5430435G22Rik, 5730469M10Rik, 5730508B09Rik, 5730528L13Rik, 5830405N20Rik, 5830432E09Rik, 6030458C11Rik, 6330416G13Rik, 6330503K22Rik, 6720456B07Rik, 8430419L09Rik, 8430427H17Rik, 9030617O03Rik, 9130206I24Rik, 9130208E07Rik, 9230105E10Rik, 9530068E07Rik, 9530077C05Rik, 9630033F20Rik, 9830001H06Rik, A030009H04Rik, A930001N09Rik, AA987161, AB124611, ...]

[3451 rows x 0 columns]

     paul15_clusters
0               7MEP
1               15Mo
2               3Ery
3               15Mo
4               3Ery
...              ...
2725            2Ery
2726          13Baso
2727            7MEP
2728            15Mo
2729            3Ery

[2730 rows x 1 columns]

2. 数据预处理

开始进行数据预处理，使用sc.pp.recipe_zheng17函数进行一键化数据预处理（参考我的另一篇文章，转录组数据预处理方法）。另外可以用help函数查看函数的帮助文档，如下：

help(sc.pp.recipe_zheng17)

recipe_zheng17 函数复现了 Zheng17 论文中提到的 Cell Ranger R Kit of 10x Genomics 的预处理步骤。这个预处理包括基因过滤和细胞级别的标准化，以及可选的对数变换和数据缩放。

Help on function recipe_zheng17 in module scanpy.preprocessing._recipes:

recipe_zheng17(adata: anndata._core.anndata.AnnData, n_top_genes: int = 1000, log: bool = True, plot: bool = False, copy: bool = False) -> Union[anndata._core.anndata.AnnData, NoneType]
    Normalization and filtering as of [Zheng17]_.
    
    Reproduces the preprocessing of [Zheng17]_ – the Cell Ranger R Kit of 10x
    Genomics.
    
    Expects non-logarithmized data