继师兄详细地讲述这个思路之后,我进行一个归纳总结(师兄说,首先要建立一个思想上的流程,再来纠结软件、命令这些细节!!!!!!)
首先你得了解 raw_data / 参考基因组 .fa / 注释文件 .gtf / 索引文件 indexes (通过hisat2-build
,根据基因组文件新建索引文件)
raw_data 原始数据
参考基因组 .fa 1——— ————— —————— ——————— ———————— ————— —————
2————— —————— ——————— —————— ————————
3———— ————— ———— —————— ——————— ————— ——— —
注释文件 .gtf 1chr
基因 转录本1/2/3…… 内含子……
索引文件
从公司拿到的raw_data开始:
一、 **质控数据** (fastqc)——根据质控数据的好坏,进行筛选,数据不行的用trim去掉(具体什么软件也没听清楚)
二、 **再次质控** ,最后的数据叫clean_data,此时的数据里都是短 reads
三、hisat2 把这些reads **比对到基因组上** (这个过程要包括输出文件的格式转换和排序)
四、进行 **序列的初组装** (把上面比对上的零散的reads 组装起来)
五、把所有的 **转录本合并**
————————————— ———————— —————————————— ————— 这就是合并的转录本
——