RNA-seq图表分析

质量测序

基于 fastqc 快速地对测序数据进行质量评估,得到两个文件,一个是html的网页文件,一个是zip压缩文件。html文件就是我们质量评估的报表。


序列测序质量统计

在这里插入图片描述

此图中的横轴是测序序列第1 个碱基到第151个碱基,纵轴是质量得分,即20表示0.01的错误率,30表示0.001的错误率。图中红线表示中值,图中蓝色的细线是各个位置的平均值的连线

1.为什么一个样本会有两张图?
----答:测序的时候,所有上机片段都是约300bp的文库。测序采用2*150的测序模式,即从左端测150,再从右端测150。所以每个片段都会有两个序列,这两个序列就是我们常说的read。所以,碱基质量分布图会有两个,分别与read1和read2对应。

2.最上面的竖线,黄框,蓝线是什么意思?
----答:对于一个样本,在RNA测序完成后就会获得几千万条read1。对于read1的第一个碱基,也就会有几千万个碱基质量值。那么我们就需要统计这几千万个碱基质量值得中位数,均值等等,用以展示read1的第一个碱基的质量。此处:红色表示中位数,黄色表示25-75%区间,触须是10-90%区间,蓝线是平均数。


每条序列的测序质量统计

在这里插入图片描述

序列长度为151bp,那么这151个位置每个位置Q值的平均值就是这条reads的质量值。图中的横轴0-40表示Q值,纵轴是灭个值对应的reads数目。这个样本数据,测序结果主要集中在30-40中,证明测序的质量很好!


碱基分布图

在这里插入图片描述

·横轴是1-151bp,纵轴是百分比。图中的四条线代表ATCG在每个位置平均含量。理论上来说,A和T应该相等,G和C应该相等,但是一般测序的时候,刚开始测序仪不稳定,很可能出现上图开头的情况。·


碱基平均含量分布图

在这里插入图片描述

·横轴是0-100%, 纵轴是每条序列GC含量对应的数量。蓝色的线是程序根据经验分布给出的理论值,红色是真实值,两个应该比较接近才比较好。·


N统计含量

在这里插入图片描述

·当测序仪不能辨别某条reads的某个位置都是ATCG哪个碱基时,就会产生“N”,对所有reads的每个位置统计N的比率。·


序列测序长度统计

在这里插入图片描述

·每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差。比如在这张图上,151bp是主要的,但是还是有少量的150和152bp的长度。当测序的长度不同时,如果很严重,则表明测序仪在此次测序不成功。


重复序列

在这里插入图片描述

·统计序列完全一样的reads的频率。横坐标是duplication的次数,纵坐标是duplication的数目。

尚不完善,待分析完全


基础分析

主成分分析图(PCA图) ----用RNA测序结果体现样本聚类

主成分分析是生信分析中最朴实无华的,因为谁都能看的懂。我们不需要操心X,Y轴的主成分到底是什么,只要明白每个样本都被一个二维坐标(X,Y)定位到了这张图上。对于转录组的PCA图中,如果两个样本距离越远,则说明两个样本转录组差异越大。我们最想看到的情况就是,相同表型的个体(比如疾病组)会在图中聚类在一起。

在这里插入图片描述


差异基因表达散点图----体现重复样本的重复性好不好

我们可以简单的把这张图理解为2个样本的RNAseq结果关联度散点图。X,Y轴分别是两个样本,每个点代表一个基因在两个样品中FPKM的对数值(FPKM是RNA-seq中衡量基因表达高低的常用数值),从这张图中可以观察,偏离对角线的点越多,说明样品表达量的相关性越低,重复性越差;偏离对角线的点越少,则说明样品间表达量的相关性越高,重复样品的重复性越好。

在这里插入图片描述


差异基因表达火山图----直观展示上调表达和下调表达基因数量

对于常规的2组样本RNA-seq研究,我们关心的是组1和组2到底哪些基因有显著性的差异表达(T检验获得P值,p值反映显著性),差异表达基因在组1和组2之间到底查了多少倍。----这些信息都是通过火山图展示的,火山图是以log2(差异倍数)为横坐标,以T检-log10(P值)为纵坐标。所以,我们最关心的基因就是图中左上角和右上角的点,分别表示表达水平差异非常显著的下调基因和上调基因。
在这里插入图片描述


差异基因聚类热图----体现样本聚类和基因聚类

聚类热图体现了2个层次的聚类,一般会在横轴和纵轴的位置展示。如下图横轴顶部的线图,展示了样本的聚类;而下图左侧线图,可以将不同样本中表达模式相同或相似的基因聚为一类,这样的聚类有助于推测位置基因功能或已知基因是否具有新功能。

在这里插入图片描述


差异基因韦恩图----用于寻找交集“元素”

韦恩图用于显示元素集合重叠区域的图示。对于RNA-seq来说,至少有三个组别的样本才能绘制韦恩图。比如对于下图来说,A和B对比,差异表达基因有353+492个,B和C对比,差异表达基因有353+51个,那么同时在这2种比较里面都是差异表达的基因数目即为353个。

在这里插入图片描述


时间/浓度序列基因表达变化趋势图----按趋势类聚

对于探究不同时间点,或者不同浓度处理下的样本的表达量变化,通常需要如下的趋势图。该图展示了依据不同时间点的表达量,这些基因可以被聚成多少cluster,同一cluster的基因可能具有相似或者相关的基因功能。
在这里插入图片描述

未完待续


  • 3
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值