免疫组库数据分析(三):免疫组库数据可视化
前言
在系列文章第二篇《免疫组库数据分析(二):Excel 分析免疫组库数据》中,分析了免疫组库中V基因、J基因、V-J组合的使用频率。在氨基酸水平,分析了CDR3 的氨基酸的长度分布以及20种氨基酸的使用频率;在免疫组库多样性方面,分析了4种不同的多样性指数。
本篇将利用作图软件Graphpad prism 8以及Excel 将上述分析的数据进行可视化,此外利用在线工具分析CDR3 氨基酸保守性,或者两组样本CDR3长度的氨基酸差异。
数据可视化
1. 免疫组库V基因与J基因使用频率:柱状图
打开作图软件Graphpad prism 8中,选择Grouped (组)表格,然后TRBV基因的使用频率百分比数据复制到表格中,A组输入Clonecounts数据,B组输入clonetype数据(为了对比两者计算差异,而在真实实验中,通常是样品之间的对比,可以选择Clonecounts水平,也可以选择clonetype水平)
如下图所示,柱状图表示免疫组库V基因使用频率,两种计算方式得到的V基因使用频率差异不大。
按照相同方法可绘制 J基因使用频率使用频率的柱状图,过程不表。
2. 免疫组库VJ 组合的使用频率:热图以及三维柱状图
免疫组库克隆子V-J组合情况,通过构建矩阵,分析任意V基因与J基因组合的使用频率分布。在Excel表格中,SUMIFS、COUNTIFS函数计算得到Clonecounts、Clonetype水平V-J组合使用频率。在可视化过程中,利用Graphpad prism8 里面 grouped 构建表格。
如下图可是,行名为V基因名,列名为J基因名,本次作图将两种计算方式得到的V-J组合频率数据放在同一张表格里面用于对比,中间空一列,并且第二组数据只输入列名。在实际过程中,可以是两个不同样本数据的对比。
作图选择Grouped 中Heatmap热图 选项。
热图选项中,双击图片,在【Color mapping】 选项中,Double gradient 选择三色,蓝-黄-红色,调整取值范围;off the map 取消X标记;在【Lables]选项中,Row Labels ,Columm Labels 选择Row titles/Columm titles,调整字体大小。最终热图效果如下:
而在Excel 中也可以实现矩阵热图的绘制,将两组数据复制在同一表格中,第一列为行名,第一行为列名,组与组之间至少空一列。在电子表格点击【插入】-【柱状图】-【三维圆柱图】即可实现三维矩阵图。
引申思考:
三维柱图来表示免疫组库V-J组合的使用频率分布,是否可以联想到两片森林,如果这是实验组与对照组的比较,是否联想到多样性的比较呢?
3、CDR3 的氨基酸的长度分布:柱状图或者散点图。
无论是Excel 还是Graphpad prism 都能绘制柱状图与散点图。本文在Graphpad prism 上作图为例。
分别选择Grouped、XY模式,选择10-20aa范围的相对使用频率数据,作图如下:
4、20种氨基酸的使用频率
通常CDR3氨基酸的疏水性与免疫反应相关,根据IMGT网站上氨基酸的性质,按照氨基酸的疏水性排列(如下图),然后通过SUMIF函数,按照新的氨基酸排序方式计算每一种氨基酸的使用频率。如氨基酸I的使用频率利用公式=SUMIF($AY$1:$BR$1,AY5,$AY$3:$BR$3)
最终CDR3氨基酸使用频率柱状图如下:
5.免疫组库CDR3多样性指数
免疫组库CDR3多样性采用Shannon‘s index、Margalef‘s index、Berger-Parker‘s index、Simpson’s Reciprocal Index,并模拟真实实验,设置对照与实验组,如下图
6、CDR3 氨基酸保守性
根据CDR3 氨基酸长度使用频率,给出每种TCR最高使用频率的氨基酸长度,提取氨基酸序列,使用在线工具Weblogo3(http://weblogo.threeplusone.com/create.cgi)分别分析不同TCR的CDR3的氨基酸保守序列。本文使用TCRB免疫组库数据中CDR3氨基酸序列进行分析。
登录Weblogo3网站,筛选使用频率最高的CDR3氨基酸长度(14aa),将其序列直接复制粘贴到输入框。直接点击Create WEblogo按钮,或者调整对应参数后,生成相应格式(如JPEG、TIFF、PDF)的图片。
14个氨基酸长度的CDR3氨基酸保守性分析结果如下:
同理也可以得到13,15个氨基酸长度CDR3氨基酸保守Motif。
7、CDR3 氨基酸多样性分析:
使用在线工具 Two Sample Logo,计算两组相同CDR3长度的氨基酸差异,根据t检验(p<0.05)计算显著性差异氨基酸位点。网站图示如下:
本文模拟了对照组与实验组数据,选取了14个氨基酸长度的CDR3序列,结果如下:
总结
本文介绍了绘制不同免疫组库数据图的方法,如免疫组库中V基因、J基因使用频率的柱状图、V-J组合的使用频率r热图、三维圆柱图;CDR3 的氨基酸的长度分布散点曲线图、20种氨基酸的使用频率柱状图;免疫组库多样性指数散点图。此外利用在线工具分析CDR3 氨基酸保守性MOTIF图,两组样本CDR3长度的氨基酸差异MOTIF图。利用Graphpad 软件Layout功能将所做图片进行整合,外来图片通过点击右键-【import picture】实现。最终样图如下。
拓展资料
在线网站
Weblogo3(http://weblogo.threeplusone.com/create.cgi)
IMGT-氨基酸性质(http://www.imgt.org/IMGTeducation/Aide-memoire/_UK/aminoacids/IMGTclasses.html)
Two Sample Logo(http://www.twosamplelogo.org)
后记
终于把将博士期间一点小工作收获进行了总结,
了却一件小心愿。
在家完成系列文章,
此后将在新城市开始新的生活,工作。
而在撰写过程中,女儿诞生了,
因此此系列文章完成以庆祝女儿洛洛的诞生。
2020年6月
```