RNA-seq图表分析

最新推荐文章于 2025-04-14 14:09:28 发布

绶卿

最新推荐文章于 2025-04-14 14:09:28 发布

阅读量1w

点赞数 4

文章标签： python

本文链接：https://blog.csdn.net/weixin_45044758/article/details/107769006

版权

质量测序

基于 fastqc 快速地对测序数据进行质量评估,得到两个文件，一个是html的网页文件，一个是zip压缩文件。html文件就是我们质量评估的报表。

序列测序质量统计

在这里插入图片描述

此图中的横轴是测序序列第1 个碱基到第151个碱基，纵轴是质量得分，即20表示0.01的错误率，30表示0.001的错误率。图中红线表示中值，图中蓝色的细线是各个位置的平均值的连线

1.为什么一个样本会有两张图?
----答：测序的时候，所有上机片段都是约300bp的文库。测序采用2*150的测序模式，即从左端测150，再从右端测150。所以每个片段都会有两个序列，这两个序列就是我们常说的read。所以，碱基质量分布图会有两个，分别与read1和read2对应。

2.最上面的竖线，黄框，蓝线是什么意思?
----答：对于一个样本，在RNA测序完成后就会获得几千万条read1。对于read1的第一个碱基，也就会有几千万个碱基质量值。那么我们就需要统计这几千万个碱基质量值得中位数，均值等等，用以展示read1的第一个碱基的质量。此处：红色表示中位数，黄色表示25-75%区间，触须是10-90%区间，蓝线是平均数。

每条序列的测序质量统计

在这里插入图片描述

序列长度为151bp，那么这151个位置每个位置Q值的平均值就是这条reads的质量值。图中的横轴0-40表示Q值，纵轴是灭个值对应的reads数目。这个样本数据，测序结果主要集中在30-40中，证明测序的质量很好！

碱基分布图

在这里插入图片描述

·横轴是1-151bp，纵轴是百分比。图中的四条线代表ATCG在每个位置平均含量。理论上来说，A和T应该相等，G和C应该相等，但是一般测序的时候，刚开始测序仪不稳定，很可能出现上图开头的情况。·

碱基平均含量分布图

在这里插入图片描述

·横轴是0-100%，纵轴是每条序列GC含量对应的数量。蓝色的线是程序根据经验分布给出的理论值，红色是真实值，两个应该比较接近才比较好。·

N统计含量

在这里插入图片描述

·当测序仪不能辨别某条reads的某个位置都是ATCG哪个碱基时，就会产生“N”，对所有reads的每个位置统计N的比率。·

序列测序长度统计

在这里插入图片描述

·每次测序仪测出来的长度在理论上应该是完全相等的，但是总会有一些偏差。比如在这张图上，151bp是主要的，但是还是有少量的150和152bp的长度。当测序的长度不同时，如果很严重，则表明测序仪在此次测序不成功。

重复序列

在这里插入图片描述

·统计序列完全一样的reads的频率。横坐标是duplication的次数，纵坐标是duplication的数目。

尚不完善，待分析完全

基础分析

主成分分析图（PCA图） ----用RNA测序结果体现样本聚类

主成分分析是生信分析中最朴实无华的，因为谁都能看的懂。我们不需要操心X,Y轴的主成分到底是什么，只要明白每个样本都被一个二维坐标（X,Y）定位到了这张图上。对于转录组的PCA图中，如果两个样本距离越远，则说明两个样本转录组差异越大。我们最想看到的情况就是，相同表型的个体（比如疾病组）会在图中聚类在一起。

在这里插入图片描述

差异基因表达散点图----体现重复样本的重复性好不好

我们可以简单的把这张图理解为2个样本的RNAseq结果关联度散点图。X,Y轴分别是两个样本，每个点代表一个基因在两个样品中FPKM的对数值（FPKM是RNA-seq中衡量基因表达高低的常用数值），从这张图中可以观察，偏离对角线的点越多，说明样品表达量的相关性越低，重复性越差；偏离对角线的点越少，则说明样品间表达量的相关性越高，重复样品的重复性越好。

在这里插入图片描述

差异基因表达火山图----直观展示上调表达和下调表达基因数量

对于常规的2组样本RNA-seq研究，我们关心的是组1和组2到底哪些基因有显著性的差异表达（T检验获得P值，p值反映显著性），差异表达基因在组1和组2之间到底查了多少倍。----这些信息都是通过火山图展示的，火山图是以log2（差异倍数）为横坐标，以T检-log10（P值）为纵坐标。所以，我们最关心的基因就是图中左上角和右上角的点，分别表示表达水平差异非常显著的下调基因和上调基因。
在这里插入图片描述