操作记录-2020-11-08:精简代码处理RNA_seq数据

今天准备尝试编写一组精简代码用于处理RNA_seq数据,希望能成功吧。

1.建立相应目录

对新数据建立对应实验人员(lizexing)、测序类型(RNA_seq)和日期(2020_10_20)的目录。

# 建立后如下:
(base) zexing@DNA:~/projects/lizexing/RNA_seq/2020_11_08$

# 新建对应的目录
mkdir raw_data clean_data ballgown bam bam_sort sam fastqc_report GSEA MD5_txt  scripts_log

2.检查数据完整性

cat md5.txt > check_md5sum.txt && md5sum -c check_md5sum.txt

3.在Linux服务器中对RNA_seq数据进行处理

vim新建RNA_seq_script将数据质控、比对、格式转换、排序、拼接和定量综合在一起。

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
#     This program is used for RNA-seq data analysis.
# History
#     2020/11/08       zexing            First release
# 设置变量${dir}为常用目录
dir=/f/xudonglab/zexing/projects/daizhongye/RNA_seq/2020_10_29

# 对数据进行质控
fastqc -t 16 -o ${dir}/fastqc_report/ ${dir}/raw_data/*.fq.gz

# 利用for循环进行后续操作
for i in E14_Scr_SL E14_shT1_1 E14_shT1_2 E14_shT2_1 E14_shT2_2
do
# 对数据进行比对
hisat2 -t -p 16 -x /f/xudonglab/zexing/reference/UCSC_mm10/hisat2_index/hisat2_index_mm10 \
-1 ${dir}/raw_data/${i}_1.fq.gz \
-2 ${dir}/raw_data/${i}_2.fq.gz \
-S ${dir}/sam/${i}.sam

# 对数据进行格式转换
samtools view -@ 16 -S ${dir}/sam/${i}.sam -1b -o ${dir}/bam/${i}.bam

# 对数据进行排序
samtools sort -@ 16 -l 5 -o ${dir}/bam_sort/${i}.bam.sort ${dir}/bam/${i}.bam

# 对数据进行拼接、定量
mkdir ${dir}/ballgown/"$i"
stringtie ${dir}/bam_sort/"$i".bam.sort -o ${dir}/ballgown/"$i"/"$i".gtf \
-p 16 -G /f/xudonglab/zexing/reference/UCSC_mm10/mm10_genes.gtf -e -B \
-A ${dir}/ballgown/"$i"/"$i".gene.tab
done

后台运行RNA_seq_script:

nohup bash RNA_seq_script > RNA_seq_script_log &

4.使用prepDE.py脚本提取read_counts数值

  • 进入ballgown文件夹,将prepDE.py脚本拷贝至当前文件夹
cp /f/xudonglab/zexing/software/prepDE.py ./
  • 退出当前conda环境
  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值