联合分析操作记录-2021-05-10: zhaoyingying_project_macs2 callpeak h3k4me1 h3k4me3-CSDN博客

本文链接：https://blog.csdn.net/xiaomotong123/article/details/116605582

启动相关环境条件Last login: Thu May 6 21:03:39 2021 from 218.68.219.32zexing@DNA:~$ source .bashrc(base) zexing@DNA:~$ cd projects/zhaoyingying/ChIP_seq(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq$ lltotal 12Kdrwxrwxr-x 3 zexing zexing 4.0K 5月 1 10

摘要由CSDN通过智能技术生成

这篇Blog有可能是我做的数据分析的最后一个了，因此，破例把分析结果图放一下吧，也算检测一下自己的学习结果吧。
加油，垚垚爸~

启动相关环境条件

Last login: Thu May  6 21:03:39 2021 from 218.68.219.32
zexing@DNA:~$ source .bashrc
(base) zexing@DNA:~$ cd projects/zhaoyingying/ChIP_seq
(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq$ ll
total 12K
drwxrwxr-x  3 zexing zexing 4.0K 5月   1 10:12 .
drwxrwxr-x  5 zexing zexing 4.0K 5月   4 16:57 ..
drwxrwxr-x 17 zexing zexing 4.0K 5月   6 20:48 2021_05_01

一、ChIP_seq 数据加工处理

1.建立相应目录

对新数据建立对应实验人员（zhaoyingying）、测序类型（ChIP_seq）和日期（2021_05_01）的目录。

# 建立后如下：
(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq/2021_05_01$

# 新建对应的目录
mkdir raw_data bam bam_bw bam_sort sam macs2_bdgdiff macs2_callpeak matrix_reference_point matrix_scale_regions fastqc_report MD5_txt scripts_log

2.检查数据完整性

(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq/2021_05_01$ cat md5sum.txt > check_md5sum.txt && md5sum -c check_md5sum.txt
CleanFq/AJV93_input_clean_1.fq.gz: OK
CleanFq/AJV93_input_clean_2.fq.gz: OK
CleanFq/AJV5_H3K27ac_clean_1.fq.gz: OK
CleanFq/AJV5_H3K27ac_clean_2.fq.gz: OK
CleanFq/AJV5_H3K4me1_clean_1.fq.gz: OK
CleanFq/AJV5_H3K4me1_clean_2.fq.gz: OK
CleanFq/JV84_H3K27ac_clean_1.fq.gz: OK
CleanFq/JV84_H3K27ac_clean_2.fq.gz: OK
CleanFq/JV84_H3K4me1_clean_1.fq.gz: OK
CleanFq/JV84_H3K4me1_clean_2.fq.gz: OK
CleanFq/JV84_input_clean_1.fq.gz: OK
CleanFq/JV84_input_clean_2.fq.gz: OK
CleanFq/JV85_H3K27ac_clean_1.fq.gz: OK
CleanFq/JV85_H3K27ac_clean_2.fq.gz: OK
CleanFq/JV85_H3K4me1_clean_1.fq.gz: OK
CleanFq/JV85_H3K4me1_clean_2.fq.gz: OK
CleanFq/AJV93_H3K27ac_clean_1.fq.gz: OK
CleanFq/AJV93_H3K27ac_clean_2.fq.gz: OK
CleanFq/AJV93_H3K4me1_clean_1.fq.gz: OK
CleanFq/AJV93_H3K4me1_clean_2.fq.gz: OK
CleanFq/AJV25_H3K27me3_clean_1.fq.gz: OK
CleanFq/AJV25_H3K27me3_clean_2.fq.gz: OK
CleanFq/AJV32_H2AK119ub_clean_1.fq.gz: OK
CleanFq/AJV32_H2AK119ub_clean_2.fq.gz: OK
CleanFq/AJV32_H3K27me3_clean_1.fq.gz: OK
CleanFq/AJV32_H3K27me3_clean_2.fq.gz: OK
CleanFq/JV21_H2AK119ub_clean_1.fq.gz: OK
CleanFq/JV21_H2AK119ub_clean_2.fq.gz: OK
CleanFq/JV21_H3K27me3_clean_1.fq.gz: OK
CleanFq/JV21_H3K27me3_clean_2.fq.gz: OK
CleanFq/JV22_H3K27me3_clean_1.fq.gz: OK
CleanFq/JV22_H3K27me3_clean_2.fq.gz: OK
CleanFq/AJV34_H2AK119ub_clean_1.fq.gz: OK
CleanFq/AJV34_H2AK119ub_clean_2.fq.gz: OK
CleanFq/JV52_H2AK119ub_clean_1.fq.gz: OK
CleanFq/JV52_H2AK119ub_clean_2.fq.gz: OK
CleanFq/AJV25_H3K27me3_clean_1.fq.gz: OK
CleanFq/AJV25_H3K27me3_clean_2.fq.gz: OK
CleanFq/AJV32_H2AK119ub_clean_1.fq.gz: OK
CleanFq/AJV32_H2AK119ub_clean_2.fq.gz: OK
CleanFq/AJV32_H3K27me3_clean_1.fq.gz: OK
CleanFq/AJV32_H3K27me3_clean_2.fq.gz: OK
CleanFq/JV21_H2AK119ub_clean_1.fq.gz: OK
CleanFq/JV21_H2AK119ub_clean_2.fq.gz: OK
CleanFq/JV21_H3K27me3_clean_1.fq.gz: OK
CleanFq/JV21_H3K27me3_clean_2.fq.gz: OK
CleanFq/JV22_H3K27me3_clean_1.fq.gz: OK
CleanFq/JV22_H3K27me3_clean_2.fq.gz: OK

3. 在Linux服务器中对ChIP_seq数据进行处理。

(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq/2021_05_01$ cd scripts_log
(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq/2021_05_01/scripts_log$ vim ChIP_seq_script_1

vim新建ChIP_seq_script_1将数据质控、比对、格式转换、排序、生成目录、bamCoverage命令转换文件格式和macs2 callpeak综合在一起。

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
# Program
#     This program is used for ChIP-seq data analysis.
# History
#     2021/05/11       zexing            First release
# 设置变量${dir}为常用目录
# 用户名称和日期需要更改
dir=/f/xudonglab/zexing/projects/zhaoyingying/ChIP_seq/2021_05_01

# 对数据进行质控
fastqc -t 16 -o ${dir}/fastqc_report/ ${dir}/CleanFq/*.fq.gz

# 利用for循环进行后续操作
# 样品名称需要修改
for i in AJV25_H3K27me3 AJV32_H2AK119ub AJV32_H3K27me3 AJV34_H2AK119ub AJV5_H3K27ac AJV5_H3K4me1 AJV93_H3K27ac AJV93_H3K4me1 JV21_H2AK119ub JV21_H3K27me3 JV22_H3K27me3 JV52_H2AK119ub JV84_H3K27ac JV84_H3K4me1 JV85_H3K27ac JV85_H3K4me1
do
# 对数据进行比对
bowtie2 -t -p 16 -x /f/xudonglab/zexing/reference/UCSC_mm10/bowtie2_index/mm10 -1 ${dir}/CleanFq/${i}_clean_1.fq.gz -2 ${dir}/CleanFq/${i}_clean_2.fq.gz -S ${dir}/sam/${i}.sam

# 对数据进行格式转换
samtools view -@ 16 -S ${dir}/sam/${i}.sam -1b -o ${dir}/bam/${i}.bam

# 对数据进行排序
samtools sort -@ 16 -l 5 -o ${dir}/bam_sort/${i}.bam.sort ${dir}/bam/${i}.bam

# 对数据生成目录
samtools index -@ 16 ${dir}/bam_sort/${i}.bam.sort 

# bamCoverage命令转换文件格式
bamCoverage -p 16 -v -b ${dir}/bam_sort/${i}.bam.sort -o ${dir}/bam_bw/${i}.bam.sort.bw

done

在后台运行ChIP_seq_script_1：

nohup bash ChIP_seq_script_1 > ChIP_seq_script_1_log &

4. 在Linux服务器中利用macs2软件进行call peak处理。

vim新建ChIP_seq_script_2将H3K4me1、H3K27me3和H2A119ub的数据进行broad peak calling，将H3K27ac数据进行regular peak calling。

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
# Program
#     This program is used for ChIP-seq data analysis.
# History
#     2021/05/11      zexing            First release
# 设置变量${dir}为常用目录
# 用户名称和日期需要更改
dir=/f/xudonglab/zexing/projects/zhaoyingying/ChIP_seq/2021_05_01

# 利用for循环进行后续操作
# 样品名称需要修改
for i in JV84_H3K4me1 JV85_H3K4me1 AJV5_H3K4me1 AJV93_H3K4me1 JV21_H3K27me3 JV22_H3K27me3 AJV25_H3K27me3 AJV32_H3K27me3 JV21_H2AK119ub JV52_H2AK119ub AJV34_H2AK119ub AJV32_H2AK119ub 
do
# 使用macs2进行broad peak calling
# broad peak calling需要在几千至一万个左右的结果
macs2 callpeak -t ${dir}/bam_sort/${i}.bam.sort -f BAM -g mm -B --broad --broad-cutoff 0.8 --outdir ${dir}/macs2_callpeak/${i}/ -n ${i}
done

# 利用for循环进行后续操作
# 样品名称需要修改
for i in JV84_H3K27ac JV85_H3K27ac AJV5_H3K27ac AJV93_H3K27ac 
do
# 使用macs2进行regular peak calling
# regular peak calling需要在一万个左右的结果
macs2 callpeak -t ${dir}/bam_sort/${i}.bam.sort -f BAM -g mm -B -q 0.1 --outdir ${dir}/macs2_callpeak/${i}/ -n ${i}
done

在后台运行ChIP_seq_script_2：

nohup bash ChIP_seq_script_2 > ChIP_seq_script_2_log &

二、ATAC_seq 数据加工处理

今天第一次尝试处理ATAC_seq数据，希望能尽快做完吧。
先放个找好的参考文章：ATAC-seq/ChIP-seq分析方法

1.建立相应目录

对新数据建立对应实验人员（zhaoyingying）、测序类型（ATAC_seq）和日期（2021_05_03）的目录。

# 建立后如下：
(base) zexing@DNA:~/projects/zhaoyingying/ATAC_seq/2021_05_03$

# 新建对应的目录
mkdir raw_data clean_data bam bam_bw bam_sort sam macs2_bdgdiff macs2_callpeak matrix_reference_point matrix_scale_regions fastqc_report MD5_txt scripts_log

2.检查数据完整性

(base) zexing@DNA:~/projects/zhaoyingying/ATAC_seq/AJV5-ATAC_FKDL210049869-1a$ cat MD5_AJV5_FKDL210049869-1a.txt > check_md5sum_AJV5_FKDL210049869-1a.txt && md5sum -c check_md5sum_AJV5_FKDL210049869-1a.txt
AJV5_FKDL210049869-1a_1.clean.fq.gz: OK
AJV5_FKDL210049869-1a_2.clean.fq.gz: OK
(base) zexing@DNA:~/projects/zhaoyingying/ATAC_seq/AJV93-ATAC_FKDL210049870-1a$ cat MD5_AJV93_FKDL210049870-1a.txt > check_MD5_AJV93_FKDL210049870-1a.txt && md5sum -c check_MD5_AJV93_FKDL210049870-1a.txt
AJV93_FKDL210049870-1a_1.clean.fq.gz: OK
AJV93_FKDL210049870-1a_2.clean.fq.gz: OK
(base) zexing@DNA:~/projects/zhaoyingying/ATAC_seq/JV84-ATAC_FKDL210049867-1a$ cat MD5_JV84_FKDL210049867-1a.txt > check_MD5_JV84_FKDL210049867-1a.txt && md5sum -c check_MD5_JV84_FKDL210049867-1a.txt
JV84_FKDL210049867-1a_1.clean.fq.gz: OK
JV84_FKDL210049867-1a_2.clean.fq.gz: OK
(base) zexing@DNA:~/projects/zhaoyingying/ATAC_seq/JV85-ATAC_FKDL210049868-1a$ cat MD5_JV85_FKDL210049868-1a.txt > check_MD5_JV85_FKDL210049868-1a.txt && md5sum -c check_MD5_JV85_FKDL210049868-1a.txt
JV85_FKDL210049868-1a_1.clean.fq.gz: OK
JV85_FKDL210049868-1a_2.clean.fq.gz: OK

3. 在Linux服务器中对ATAC_seq数据进行处理并使用macs2对ATAC_seq数据进行callpeak。

(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq/2021_05_01$ cd scripts_log
(base) zexing@DNA:~/projects/zhaoyingying/ChIP_seq/2021_05_01/scripts_log$ vim ATAC_seq_script_1

vim新建ATAC_seq_script_1将数据质控、比对、格式转换、排序、生成目录、bamCoverage命令转换文件格式和macs2 callpeak综合在一起。

#!/bin/bash
# 上面一行宣告这个script的语法使用bash语法，当程序被执行时，能够载入bash的相关环境配置文件。
# Program
#     This program is used for ChIP-seq data analysis.
# History
#     2021/05/09       zexing            First release
# 设置变量${dir}为常用目录
# 用户名称和日期需要更改
dir=/f/xudonglab/zexing/projects/zhaoyingying/ATAC_seq/2021_05_03

# 对数据进行质控
fastqc -t 16 -o ${dir}/fastqc_report/ ${dir}/clean_data/*.fq.gz

# 利用for循环进行后续操作
# 样品名称需要修改
for i in AJV5_FKDL210049869-1a AJV93_FKDL210049870-1a JV84_FKDL210049867-1a JV85_FKDL210049868-1a
do
# 对数据进行比对
bowtie2 -t -p 16 -x /f/xudonglab/zexing/reference/UCSC_mm10/bowtie2_index/mm10 -1 ${dir}/clean_data/${i}_1.clean.fq.gz -2 ${dir}/clean_data/${i}_2.clean.fq.gz -S ${dir}/sam/${i}.sam

# 对数据进行格式转换
samtools view -@ 16 -S ${dir}/sam/${i}.sam -1b -o ${dir}/bam/${i}.bam

# 对数据进行排序
samtools sort -@ 16 -l 5 -o ${dir}/bam_sort/${i}.bam.sort ${dir}/bam/${i}.bam

# 对数据生成目录
samtools index -@ 16 ${dir}/bam_sort/${i}.bam.sort 

# bamCoverage命令转换文件格式
bamCoverage -p 16 -v -b ${dir}/bam_sort/${i}.bam.sort -o ${dir}/bam_bw/${i}.bam.sort.bw

# 使用macs2对ATAC_seq数据进行callpeak，需要使用Shift 模型参数
macs2 callpeak -t ${dir}/bam_sort/${i}.bam.sort -f BAM -g mm -B --nomodel --shift -100 --extsize 252 -q 0.8 --outdir ${dir}/macs2_callpeak/ -n ${i}

done

在后台运行ATAC_seq_script_1：

nohup bash ATAC_seq_script_1 > ATAC_seq_script_1_log &

三、RNA_seq 数据加工处理

RNA_seq的数据由同事提供，我需要将其中上调、下调的基因提取出来，针对这些基因找到其TSS信息，取**"-50k ~ -3k"和"3k~50k"**区间作为Enhancer位置，利用这些Enhancer位置信息再去分析上面的ChIP_seq和ATAC_seq数据。

#This script is used for analysis of zhaoyingying RNA-seq data
#History
# Lizexing           2021-05-10             First release

#清空环境变量
rm(list=ls())
#设置工作目录
setwd("G:/zhaoyingying/RNA-seq/2021_05_01/Rtreatment/all_different_genes/")
#读入基因表达值，设定行名为gene_id
all_different_genes <- read.csv("RNA_seq_all.txt",header = T, sep="\t")

#利用table函数统计显著差异基因的数目
#显著差异的定义为padj<0.05
table(all_different_genes$padj<0.05)

#对具有显著性差异的结果进行过滤、提取
#获取padj小于0.05，表达倍数取以2为对数后大于1或者小于-1的差异表达基因（即表达倍数相差2倍及以上）
#使用subset()函数过滤需要的结果至新的变量significant_different_genes_group中
#Usage:subset(x, ...)，其中x为objects，...为筛选参数或条件
#对数据进行过滤、提取
significant_padj_different_genes <- subset(all_different_genes, padj < 0.05 & abs(log2FoldChange) > 1)

#提取显著上升的相关数据
significant_up_genes <- subset(significant_padj_different_genes, log2FoldChange > 1 )

#提取显著下降的相关数据
significant_dn_genes <- subset(significant_padj_different_genes, log2FoldChange < 1 )

#对相关结果进行输出保存
write.csv(significant_padj_different_genes, file = "G:/zhaoyingying/RNA-seq/2021_05_01/Rtreatment/significant_different_genes/significant_padj_different_genes.csv")
write.csv(significant_up_genes, file = "G:/zhaoyingying/RNA-seq/2021_05_01/Rtreatment/significant_different_genes/significant_up_genes.csv")
write.csv(significant_dn_genes, file = "G:/zhaoyingying/RNA-seq/2021_05_01/Rtreatment/significant_different_genes/significant_dn_genes.csv")

# 自定义相对应的BED文件
BED_up_genes <- significant_up_genes[,c(14,15,16,17)]
BED_dn_genes <- significant_dn_genes[,c(14,15,16,17)]

# 对第一列加入chr几个字符
# 利用for循环，对BED_up_genes数据框中的第1列中的进行编辑
for (i in 1:nrow(BED_up_genes)){
   
    BED_up_genes$chr[i] <- paste("chr", BED_up_genes$gene_chr[i], sep="" )
}

for (i in 1:nrow(BED_dn_genes)){
   
    BED_dn_genes$chr[i] <- paste("chr", BED_dn_genes$gene_chr[i], sep="" )
}


# 将BED文件输出保存
write.table(BED_up_genes[, c(5,2,3,4)], file = "G:/zhaoyingying/RNA-seq/2021_05_01/Rtreatment/significant_different_genes/BED_up_genes.bed", quote = F, sep = "\t",