转录组测序不同重复之间的相关性多少合适?测序的深度如何把握?
p > 0.05 ;相关系数r>0.95
测序深度,是测序量除以基因组的长度,例如测序深度10,就相当于测了10次全基因组,50就是测了50次。
测序reads数和测序碱基数之间如何换算?
“单端测序” :数据量=reads 长度 * reads个数
(reads长度很容易得知,reads数目可以用¥wc -| file.fastq统计出来的结果除以4,因为1个reads在fastq文件里通常
是用4行信息描述。)“双端测序”:数据量=单端reads长度单端reads个数2
单位换算:1个碱基=1bp,1kb=1024bp,1M=1024kb,1G=1024M
测序深度的计算方法:测序深度=数据量大小/参考基因组大小
转录组测序的过程,从样本准备到获取测序数据?
a.样品的获得:培养细胞,或者从组织上进行显微解剖,必要时可以利用流式细胞仪获取细胞,注意对照组和重复样品的制备。
b.氮液研磨:加入裂解液对细胞进行裂解,通过低温高速离心获取大量核酸的上清。加入含有oligo dT引物和RNA >inhibitors以及转录酶系,在合适的温度下进行逆转录,获得cDNA文库,进行第二链的合成。
c.利用covaris或者fragment酶进行打断,末端修复,A-tailing ,Adaptors,index引物进行文库扩增。磁珠纯化进行片段大小的筛选。
d.选择合适的平台进行测序,主流测序仪有hiseq2500,4000,xten等。
e.下机数据BCI格式,进行index分选并转为fastq格式,进行质检和后续的分析。
转录组分析的流程,列举出每步可用的工具、每步分析的意义?
测序质量评估:查看公司报告,可去除接头序列、低质量碱基Trimmomatic软件
构建基因组索引:Ensembl提供的参考基因组基因注释文件STAR工具
reads比对:看RNA来源(STAR)
评估比对质量:IGV使用samtools和UCSC系列工具
合并表达文件
转录本拼接:StringTie转录本拼接
分析GO富集分析和GSEA富集分析