将RNA_seq原始数据存放在raw_data文件夹,经过去除接头的数据存放在clean_data中。
1、 使用Trim Galore软件对两次数据进行质控,去掉20bp以下的reads
vim新建RNA_seq_script_1对2022_08_23测序数据进行质控分析
#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法,当程序被执行时,能够载入bash的相关环境配置文件。
# Program
# This program is used for RNA-seq data analysis.
# History
# 2022/08/23 zexing First release
# 设置变量${dir}为常用目录
dir=/home/customer/lizexing/projects/xindi/TreatData/2022_08_23
# 使用fastqc软件对数据进行质控分析
# fastqc -t 8 -o ${dir}/fastqc_report/ ${dir}/raw_data/*.fq.gz
# 利用for循环进行后续操作
for i in T1 T2 T3 V1 V2 V3
do
# 对数据利用Trim_galore去掉20bp以下的接头
trim_galore -q 20 --phred33 --stringency 3 --length 20 -e 0.1 -j 4 --paired \
${dir}/raw_data/"$i"_Clean_Data1.fq.gz \
${dir}/raw_data/"$i"_Clean_Data2.fq.gz \
-o ${dir}/clean_data/
done
后台运行RNA_seq_script_1:
nohup bash RNA_seq_script_1 > RNA_seq_script_1_log &
2. 使用STAR软件对45S rRNA构建索引、对GRCh38.dna.primary_assembly、GRCh38.ncRNA、GRCh38.cds.all构建索引
# 参数说明
--runThreadN是指你要用几个cpu来运行;
--genomeDir构建索引输出文件的目录;
--genomeFastaFiles你的基因组fasta文件所在的目录
--limitGenomeGenerateRAM 43749387189 STAR消耗内存太大,输入限制内存数目防止出错,感谢孙小雨帮忙
STAR --runMode genomeGenerate --runThreadN 16 --limitGenomeGenerateRAM 43749387189 --genomeDir /home/customer/lizexing/references/Human_45S/star_index --genomeFastaFiles /home/customer/lizexing/references/Human_45S/U13369.1.fasta
STAR --runMode genomeGenerate --runThreadN 16 --genomeDir /home/customer/lizexing/references/Ensembl/Human \
--genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.dna.primary_assembly.fa
STAR --runMode genomeGenerate --runThreadN 16 --limitGenomeGenerateRAM 43749387189 \
--genomeDir /home/customer/lizexing/references/Ensembl/Human/star_ncrna_index/ \
--genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.ncrna.fa
STAR --runMode genomeGenerate --runThreadN 8 --limitGenomeGenerateRAM 82424365322 \
--genomeDir /home/customer/lizexing/references/Ensembl/Human/star_cds_index/ \
--genomeFastaFiles /home/customer/lizexing/references/Ensembl/Human/Homo_sapiens.GRCh38.cds.all.fa
3. 使用STAR软件对测序数据与45S rRNA进行比对
vim新建RNA_seq_script_2对2022_08_23测序数据进行处理