rmats的运行代码虽然简单,但是方方面面需要注意的细节可不少!
1. 如果手上没有bam文件,鸭鸭这边建议先单独使用star跑一份bam文件出来,而不是直接从fastq开始,这样速度特别慢。而且如果不是原生ubuntu20.04而是使用wsl的话,star和rmats可能会有冲突,需要在不同环境跑。
2. 得到bam文件后,如果每个组的重复大于1,建议建立txt文件来储存bam文件的路径,这样更清晰明了一些。
3. 关于这个txt文件,切记,各个bam文件仅仅以,分隔,千万不要是有多余的空格,不然无法成功读取bam文件。在路径中也不要使用~,否则也无法读取bam文件。无法读取bam文件,就会导致没有rmats结果,空空如也。下面是一个txt文件的小例子。
/path_to_txt/exp1.bam,/path_to_txt/exp2.bam,/path_to_txt/exp3.txt
4. 弄好txt文件之后,就可以运行rmats的代码啦,下面是一个小例子。
python /path_to_rmats/rmats-turbo-master/rmats.py --b1 /path_to_txt/exp.txt --b2 /path_to_txt/ctrl.txt --gtf /path_to_gtf/annotation.gtf --tmp /path_to_tmp/tmp_dir -t paired --nthread 8 --tstat 10 --cstat 0.0001 --readLength 150 --novelSS --od /path_to_save/rmats_output
对以上用到的参数进行一些简短的说明,以下涉及到的路径都推荐使用绝对路径~
--b1:实验组bam文件的txt文件的路径。
--b2:对照组bam文件的txt文件的路径。
--gtf:储存gtf的文件路径,注意和建立star index使用的gtf要相同。
--tmp:储存生成的临时文件的路径,不需要提前建好。
-t:指定测序数据是paired还是single。
--nthread:运行的线程,注意不要超过自己电脑硬件的线程,并至少留一个。
--tstat:差异分析时运行的线程,注意事项同上。
--cstat:可变剪切的cutoff,一般建议设小一点,比如0.0001(默认值),毕竟后期可以再过滤掉差异小的。0.0001就是说两组之间的差异至少有0.01%。
--readLength:测序片段长度,现在一般都是150,可咨询测序公司double check。
--novelSS:是否检测新的剪切形式,不检测可以不加这个参数。
--od: 储存rmats结果的路径,注意这个文件夹需要提前建好。
其他一些参数的调整事项,请参考github的说明,都非常详细的:https://github.com/Xinglab/rmats-turbo
希望以上的使用攻略,对正在看博客的你有所帮助,可以顺利跑出想要的数据~如果还是失败,可以回帖提问或者私聊鸭鸭,鸭鸭每天都会查看帖子,是鸭鸭踩过的坑的话,鸭鸭一定会热心解答的~
可以关注鸭鸭或收藏文章,会持续发布关于可变剪切分析的内容的!喜欢并有余力的话,可以打赏点奶茶钱~