RNA-seq流程学习笔记(16)-Linux系统下完整流程代码

1.完整流程所用软件

  • 质控:FastQC软件
  • 比对:HISAT2软件
  • 格式转换、排序:SAMtools软件
  • 转录本拼接和定量:StringTie
  • 差异基因分析:DESeq2

2. 关于准备工作

  1. 针对每个人的数据,建立如下几个目录:
  • raw目录:存放测序公司反馈回来的原始数据,如fq.gz文件;
  • fastqc_report目录:存放FastQC软件分析的报告结果;
  • aligned目录:包含sam目录、bam目录、bam.sort目录、bam.index目录、count目录、ballgown目录 ,分别存放处理后不同步骤的文件;
  • scripts_log目录:存放该组数据分析过程中的各个脚本信息及运行日志;
  1. 本流程中均采用zhaoxiujuan为默认用户,如果新建用户,将所有流程中zhaoxiujuan替换为新用户即可;
  2. 样品编号为A、B、C、D,实际操作时需要将其替换;
  3. 在本地电脑G盘新建zhaoxiujuan目录,包含count目录和Rtreatment目录,将处理后的count文件下载至该目录中,继续后续R中的处理工作;

3. md5sum检查数据完整性流程代码

#查看公司提供的md5.txt文件
cat md5.txt
13e2fb196b170866035c93a8534bf701  raw/m3108_1.fq.gz
3f516ba98070b038e4e44324e0d7894d  raw/m3108_2.fq.gz
d53cc1cf701cf72d958bb190deb0a094  raw/m3110_1.fq.gz
eb00833c8aa528ce592202990a296b2f  raw/m3110_2.fq.gz

#将相关数据的指纹验证数据重新写入check_md5sum.txt文件
echo "13e2fb196b170866035c93a8534bf701  raw/m3108_1.fq.gz
3f516ba98070b038e4e44324e0d7894d  raw/m3108_2.fq.gz
d53cc1cf701cf72d958bb190deb0a094  raw/m3110_1.fq.gz
eb00833c8aa528ce592202990a296b2f  raw/m3110_2.fq.gz"
> check_md5sum.txt

#检测数据是否一致
md5sum -c check_md5sum.txt

4.FastQC流程代码

#! /bin/bash
#上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program:
#       This program is used for analysis of RNA-seq data by FastQC. 
#History:
# 2020/06/19         zexing              First release
#fastqc命令为质控命令
#Usage: fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
#简写代码:fastqc -t 8 -o <out-dir> seqfile1
#调用程序fastqc,参数-t设置线程数为8,参数-o设置结果输出的目录,参数-c可以加入污染物选项(
  • 4
    点赞
  • 37
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值