总结实验室对转录组及lncRNA数据分析的思路

wx1871428

于 2021-06-25 13:29:02 发布

阅读量1.1k

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/wx1871428/article/details/118218832

版权

本文总结了实验室对转录组和lncRNA数据分析的思路，从理解raw_data到构建参考基因组索引，再到转录本定量和lncRNA识别。通过比对、筛选和非编码性验证，确定lincRNA，并探讨了为何某些实验室能深入研究而其他实验室仅停留在定量阶段的问题。

摘要由CSDN通过智能技术生成

继师兄详细地讲述这个思路之后，我进行一个归纳总结（师兄说，首先要建立一个思想上的流程，再来纠结软件、命令这些细节！！！！！！）

首先你得了解 raw_data / 参考基因组 .fa / 注释文件 .gtf / 索引文件 indexes （通过hisat2-build
,根据基因组文件新建索引文件）

raw_data 原始数据

参考基因组 .fa 1——— ————— —————— ——————— ———————— ————— —————

2————— —————— ——————— —————— ————————

3———— ————— ———— —————— ——————— ————— ——— —

注释文件 .gtf 1chr

基因转录本1/2/3…… 内含子……

索引文件


从公司拿到的raw_data开始：

一、 **质控数据** （fastqc）——根据质控数据的好坏，进行筛选，数据不行的用trim去掉（具体什么软件也没听清楚）

二、 **再次质控** ，最后的数据叫clean_data，此时的数据里都是短 reads

三、hisat2 把这些reads **比对到基因组上** （这个过程要包括输出文件的格式转换和排序）

四、进行 **序列的初组装** （把上面比对上的零散的reads 组装起来）

五、把所有的 **转录本合并**

————————————— ———————— —————————————— ————— 这就是合并的转录本

——