细胞群体基因表达测序结果可视化
背景
最近帮小陈处理了一下相关实验数据,Python结果展示效果还不错,记录一下。
需求示意
不同细胞群体的基因表达量测序结果可视化分析。
- 预处理 ,汇总实验数据中各群体中基因数量,并获取基因对应的表达量;
- 基因 ,通过横轴区分,按出现次数排序后,整数表征示意;
- 细胞群体 ,通过纵轴区分,用整数表征群体;
- 表达量 ,利用气泡颜色深浅标准表达量差异;
- 细胞群体频度 ,通过气泡大小代表细胞群体中的出现次数;
数据示意(已脱敏)
MOVEMENT | SIZE | GFP-FKM | KG-FKM | CELL-A | CELL-B | CELL-C | CELL-D | CELL-E | CELL-F | CELL-G |
---|---|---|---|---|---|---|---|---|---|---|
LRP | 7 | 2.69 | 1.01 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
MER | 7 | 3.68 | 2.41 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
ADO | 6 | 3.17 | 1.18 | 1 | 2 | 3 | 0 | 5 | 6 | 7 |
APO | 6 | 2.75 | 1.46 | 1 | 2 | 3 | 0 | 5 | 6 | 7 |
… | … | … | … | … | … | … | … | … | … | … |
结果示意
绘图示意
- plt.scatter散点图的常见属性 :
x:指定散点图的x轴数据;[^1]
y:指定散点图的y轴数据;
s:指定散点图点的大小,默认为20,通过传入新的变量,实现气泡图的绘制;
c:可用于不同类别的颜色,指定散点图点的颜色,默认为蓝色;
marker:指定散点图点的形状,默认为圆形;
cmap:指定色图提供了一些默认色带,详见[^2]
alpha:设置散点的透明度; - plt.xticks坐标轴的常见属性 :
plt.yticks(scale_y, index_y):替换坐标轴的含义;
fontsize:坐标轴文本大小;
rotation:坐标轴文本旋转角度;
代码示意
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
def main_(folder_path, png_path):
# 读取实验数据
all_data_raw = pd.read_csv(folder_path)
# 过滤数据>2的样本
select_data = all_data_raw[all_data_raw["SIZE"] > 2]
# 获取基因名称
name_data = select_data["MOVEMENT"].tolist()
# 获取基因出现的细胞群体数量
size_data = select_data["SIZE"].tolist()
# 获取表达量,区分GFP及KG
gfp_data = select