一、scanpy中常用的组件
1.pp:数据预处理
2.tl:额外添加信息
3.pl:可视化
二、常用函数简介
1、sc.pp.filter_cells
sc.pp.filter_cells(data, min_genes=None, max_genes=None)
常常用于预处理中,做一些细胞筛选的工作,该函数保留至少有 min_genes 个基因的细胞,或者保留至多有 max_genes 个基因的细胞;另外注意,参数 min_genes 和参数 max_genes 不能同时传递。
2、sc.pp.filter_genes
sc.pp.filter_genes(data, min_cells=None, max_cells=None)
该函数用于保留在至少 min_cells 个细胞中出现的基因,或者保留在至多 max_cells 个细胞中出现的基因;参数 min_cells 和参数 max_cells 不能同时传递。
sc.pp.filter_genes
用于选择基因(筛选列),sc.pp.filter_cells
用于选择细胞(筛选行)。
3、sc.pp.highly_variable_genes
sc.pp.highly_variable_genes(data,
n_top_genes=None,
min_disp=0.5,
max_disp=inf,
min_mean=0.0125,
max_mean=3)
该函数用于确定高变基因;高变异基因就是highly variable features(HVGs),就是在细胞与细胞间进行比较,选择表达量差别最大的基因。
常用参数说明:
data:AnnData Matrix,行对应细胞,列对应基因
n_top_genes:要保留的高变基因的数量
4、sc.pl.highest_expr_genes
sc.pl.highest_expr_genes(adata, n_top=20)
该函数用于可视化所有细胞中计数最多的20个基因,同时计算了百分比含量,一般会得到一张类似下面的图:
5、sc.pp.normalize_total
sc.pp.normalize_total(adata, target_sum=None, inplace=True)
归一化扩展,函数可以对每个细胞进行标准化,以便每个细胞在标准化后沿着基因方向求和具有相同的总数target_sum。