数据获取:
提本案例数据来自GSE80565,本实验选取两组数据,SRR3418005,SRR3418006,SRR3418019,SRR3418020.
数据预处理
提取fastq文件:点击get data,得到原始数据
- 下载完成后点击showdata查看详细信息,可以看文件大小(压缩),运行时间。
质量评估
使用FastQC检测原始测序的数据质量,点击FastQC
Read Quality reports,下面以SRR3418005为例。- 点击Raw read data from your current history (前提使用该平台下载的数据)。
- 运行完成后右侧由黄变绿,查看FastQC的Webpage数据,可以看整体的报告。
- 关键的Per base sequence quality评估为正常但Per base sequence content不正常,细看发现前12个核苷酸比例失常
- 针对性对问题进行质量控制。
质量控制:
- 针对Per base sequence quality(每个碱基的质量)对低质量的reads进行修剪。
- 修改后大部分评估通过,Sequence Duplication Levels未通过表明某些序列重复较多,结合后面看是adapter引起,不会影响下游分析。