2020转录组RNA-SEQ上游分析

最新推荐文章于 2024-09-01 19:54:08 发布

super_qun

最新推荐文章于 2024-09-01 19:54:08 发布

阅读量4k

点赞数 5

分类专栏：生信笔记文章标签：生物信息转录组数据分析 RNA bioinforma

本文链接：https://blog.csdn.net/weixin_44452187/article/details/108422252

版权

本文详细介绍了RNA-SEQ转录组分析的全过程，包括conda环境配置、质量评估（FastQC与multiQC）、reads过滤（trim_galore）、比对（hisat2）、SAM转BAM和计数（featureCounts）。内容涵盖各步骤的关键参数和工具的使用，旨在帮助生物信息学初学者理解和执行RNA-seq数据分析。

摘要由CSDN通过智能技术生成

文章目录

安装配置conda

使用清华源下载sh脚本并安装

# 使用清华源下载sh脚本
wget -c  https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh

# 从官网下载最新版Miniconda3安装包，但速度较慢
wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

下载完成后直接运行脚本文件bash Miniconda3-latest-Linux-x86_64.sh。需要输入yes然后等待安装完毕
最后安装好后，还不能马上使用conda，需要source一下bashrc

# 激活bashrc
source ~/.bashrc

注意⚠️：

conda会在bashrc中写入脚本，连接ssh自动进入conda环境的命令。如果不需要可以运行命令及性能配置conda config --set auto_activate_base false
另外如果使用zsh等工具如果没有自动写入zshrc，可以在文件中手动写入。
如果conda命令不被读取，可以手动定义环境变量export PATH="/home/super/miniconda3/bin:$PATH"

设置镜像源

# 下面这四行配置清华大学的bioconda的channel地址，国内用户推荐
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/

## 官网默认
conda config --add channels r 
conda config --add channels conda-forge 
conda config --add channels bioconda

在设置后镜像或者设置不自动进入base后，会在.condarc文件中自动生成config信息。如下：

$ cat .condarc 

auto_activate_base: false
channels:
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/bioconda/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
  - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
  - defaults

conda环境创建

创建一个python2的环境管理：

conda create -y -n rna_seq python=3

# -y        自动确认
# -n        新环境名字
# python=3  新环境中python=3

激活和退出环境

conda activate <conda_name>     #激活某环境
conda decativate <conda>        #取消激活某环境

conda安装软件

在软件环境中使用命令安装软件

conda install -y sra-tools      #安装sra-tool软件，可以通过空格安装多个软件
conda install -y sra-tools fastqc trim-galore hisat2 subread multiqc samtools salmon fastp

conda软件安装位置和普通软件安装位置不一样，通过which <softname>来查看conda安装的软件位置

质量评估 @ fastQC

fastq格式

FastQ格式描述：https://mp.weixin.qq.com/s/8g-oUjiEhV4cGMJNuhmISQ
FastQ格式wiki：https://en.wikipedia.org/wiki/FASTQ_format
FastQ格式文献：https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/

概念
FastQ格式是序列格式中常见的一种，它存储了生物序列以及相应的质量评价，其序列以及质量信息都是使用一个ASCII字符标示，最初由Sanger开发，目的是将FASTA序列与质量数据放到一起，目前已经成为高通量测序结果的事实标准。

格式说明
FASTQ文件中每个序列通常有四行：

1.第一行：必须以“@”开头，后面跟着唯一的序列ID标识符，然后跟着可选的序列描述内容，标识符与描述内容用空格分开；

2.第二行：序列字符（核酸为[AGCTN]+，蛋白为氨基酸字符）；
3.第三行：必须以“+”开头，后面跟着可选的ID标识符和可选的描述内容，如果“+”后面有内容，该内容必须与第一行“@”后的内容相同；
4.第四行：碱基质量字符，每个字符对应第二行相应位置碱基或氨基酸的质量，该字符可以按一定规则转换为碱基质量得分，碱基质量得分可以反映该碱基的错误率。这一行的字符数与第二行中的字符数必须相同。

FsatQC软件

FastQC质量评估软件官网：http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
注意⚠️

fastqc可以对 *.bam *.sam *.fq *.fq.gz进行质量评估。
fastqc可以通过-t指定多线程操作，多线程是同时处理多个输入文件，几个线程可以同时处理几个文件，单个文件使用多线程似乎没有意义
对bam质量评估和对过滤后、指控后的文件使用fastqc似乎没有区别
在bash中批处理比较简单，但是zsh中，不太一样，需要在命令替换出使用 echo $list

常用参数：

# 常用参数
fastqc -o <out.dir> -t <thred_num> -f <input_format>  <input_file_1> <input_file_2> ...

# -o    设置输出目录
# -t    设置线程数
# -f    设置输入文件格式

批处理

# bash中
a=`ls *.fq`
fastqc -o ./fastqc_raw -t 10 $a

# zsh中
b=`ls -C *.fq`
fastqc -o ./fastqc_raw -t 10 `echo $b`

multiqc综合所有qc

使用multiqc来把所有的质量评估放在一起观察

multqc -o <out.path> *.fastqc.zip

结果解读

单一碱基占比

unique reads 的占比，

单碱基测序质量在150bp上的分布情况

也有这样的

当前RNA-seq测序技术，测序错误率分布存在以下两个特征。

测序错误率随着测序序列(Sequenced Reads)长度的增加而升高。这是由测序过程中化学试剂的消耗导致的，为Illumina高通量测序平台所具有的特征。
前6个碱基具有较高的测序错误率，此长度恰好为RNA-seq建库过程中反转录所需的随机引物长度。前6个碱基测序错误率较高是因为随机引物和RNA模版的不完全结合(Jiang et al.)。