chip-seq测序分析流程

Flower_dance~

已于 2024-01-13 12:23:11 修改

阅读量1.4k

点赞数 20

文章标签： python linux 数据分析

于 2024-01-04 20:46:05 首次发布

本文链接：https://blog.csdn.net/zengwanqin/article/details/135395122

版权

步骤1：质量控制

fastqc质控，假如有两个样本，实验组为sample1，对照组为control1

#	双端测序
fastqc sample1_1.fq.gz sample1_2.fq.gz
fastqc control1_1.fq.gz control1_2.fq.gz

去除接头序列
在进行比对之前，需要对测序数据进行质量控制。这包括剔除低质量的读段，去除接头序列等。

#安装trimmomatic
conda install trimmomatic
#control1同理
#示例代码：
trimmomatic PE sample1_1.fq.gz sample1_2.fq.gz \
sample1_1_paired.fq.gz sample1_1_unpaired.fq.gz \
sample1_2_paired.fq.gz sample1_2_unpaired.fq.gz \
ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 \
SLIDINGWINDOW:4:20 MINLEN:36
#ILLUMINACLIP:TruSeq3-PE.fa:2:30:10：去除Illumina测序接头。TruSeq3-PE.fa 是接头序列的文件，2:30:10 是接头修剪的参数。
#SLIDINGWINDOW:4:20：使用大小为4的窗口扫描读段，当窗口内的平均质量分数低于20时，去除窗口起始点之后的部分。
#MINLEN:36：去除长度小于36的读段。
#TruSeq3-PE.fa 是一个包含接头序列的文件，这个文件需要与 Trimmomatic 一起安装。确保这个文件在您的 Trimmomatic 安装目录中，或者提供正确的路径。

步骤2：序列比对

1、比对
使用比对软件（如BWA、Bowtie2等）将读段比对到参考基因组上。这个过程中，读段会根据其序列相似性被映射到基因组的特定位置。

使用BWA进行序列比对

#安装bwa
conda install bwa
#使用比对工具如BWA将读数比对到参考基因组。这需要一个参考基因组文件（如reference.fasta）
bwa mem -t 8 -R '@RG\tID:group1\tSM:sample1\tPL:illumina\tLB:lib1\tPU:unit1' \
reference.fasta sample1_1_paired.fq.gz sample1_2_paired.fq.gz | \
samtools sort -o sample1.sorted.bam
#BWA（Burrows-Wheeler Aligner）和 Bowtie2 是两种流行的生物信息学工具，用于将高通量测序（HTS）数据（如DNA序列）比对（或“对齐”）到参考基因组。虽然它们都用于序列比对，但在算法实现、性能特点以及适用场景上有所不同。

使用Bowtie2进行序列比对

#安装bowtie2
conda install -y bowtie2
#构建参考基因组的索引或者已经有现成的索引。
#如果没有，需要先使用 Bowtie2 构建索引。假设参考基因组文件名为 reference.fasta，可以使用以下命令来构建索引：
bowtie2-build reference.fasta reference_index
# 对 sample1 进行比对
bowtie2 -x reference_index -1 sample1_1.fq.gz -2 sample1_2.fq.gz | samtools sort -o sample1.sorted.bam

# 对 control1 进行比对
bowtie2 -x reference_index -1 control1_1.fq.gz -2 control1_2.fq.gz | samtools sort -o control1.sorted.bam

以下是BWA和Bowtie2区别

BWA
算法：BWA 主要包括三个算法：BWA-backtrack、BWA-SW 和 BWA-MEM。BWA-backtrack 适用于较短的序列（35-100bp），BWA-SW 用于较长的序列（70bp-1Mbp），而 BWA-MEM 是最新的算法，适用于70bp到数百Kbp的序列。
应用：BWA 通常用于 Illumina 序列数据的比对，特别是 BWA-MEM 算法适合处理较长的读段和具有间隙的比对。
性能：BWA 在处理较长读段时表现更好，尤其是在比对速度和处理间隙（indels）方面。
Bowtie2
算法：Bowtie2 基于 Burrows-Wheeler Transform（BWT），但与 BWA 的实现有所不同。它优化了对间隙性比对（gapped alignment）和较长读段的处理。
应用：Bowtie2 适合于较短或较长的读段，包括 Illumina 和较长的454序列。它对于某些类型的比对（例如，那些需要精细调整间隙惩罚的比对）更灵活。
性能：Bowtie2 在处理间隙比对和较长读段方面表现良好，但可能在处理超长读段时不如 BWA-MEM 高效。
总结
选择哪一个？：BWA（特别是BWA-MEM算法）通常在处理较长读段和间隙比对方面更快、更高效，而 Bowtie2 则在需要对间隙惩罚进行精细调整的应用中更有优势。
读段长度：对于短读段（如Illumina产生的100bp或更短的读段），BWA和Bowtie2都是不错的选择。对于长读段（如Illumina的MiSeq或HiSeq产生的250bp以上的读段），BWA-MEM通常是更好的选择。
间隙比对：如果你的应用依赖于精确的间隙比对，Bowtie2可能提供更多的灵活性。
在实际应用中，选择哪个工具取决于具体的研究需求、序列的类型和长度，以及计算资源。在许多情况下，研究人员可能会根据具体任务的需要选择并使用这两种工具中的一种或两者。

2、SAMtools（统计信息）

#检查比对后的数据质量，可以使用samtools flagstat查看比对统计信息。
#示例代码：
samtools flagstat sample1.sorted.bam

samtools flagstat输出结果解释

8639799 + 0 in total (QC-passed reads + QC-failed reads)
0 + 0 secondary
143143 + 0 supplementary
0 + 0 duplicates
7457583 + 0 mapped (86.32% : N/A)
8496656 + 0 paired in sequencing
4248328 + 0 read1
4248328 + 0 read2
6709028 + 0 properly paired (78.96% : N/A)
7237188 + 0 with itself and mate mapped
77252 + 0 singletons (0.91% : N/A)
0 + 0 with mate mapped to a different chr
0 + 0 with mate mapped to a different chr (mapQ>=5)
总读数：有8,639,799条读数通过了质量控制（QC），没有QC失败的读数。
二级和补充读数：没有报告二级（secondary）或补充（supplementary）的读数。这通常是好事，意味着数据中没有重复或部分比对的读数。
重复读数：没有检测到重复的读数，这可能是因为您已经在之前的步骤中去除了重复。
映射率：大约86.32%的读数成功映射到参考基因组。这是一个相当不错的比例，表明大多数读数都有高质量的比对。
配对信息：
共有8,496,656对配对读数。
4,248,328是第一读段（read1），4,248,328是第二读段（read2），这表明读数是均匀分配的。
6,709,028对配对（占总配对的78.96%）被认为是正确配对的，意味着它们在基因组中的相对位置和方向符合预期。
自身和配对读数映射：7,237,188个配对，其中自身和配对读数都成功映射到了基因组上。
单一读数：77,252读数（占0.91%）是单一的，这意味着它们的配对读数未成功映射。
不同染色体上的配对读数：没有报告配对读数映射到不同染色体上。
分析：
映射率和配对信息显示了一个相对高质量的ChIP-Seq数据集。
单一读数比例较低，这通常是好事，表明大部分读数都能找到它们的配对。
没有显著的异常或问题，表明该样品的数据质量是适合进行下一步分析的。

步骤3：去除重复读段

去除PCR重复。可以使用picard MarkDuplicates或samtools rmdup。

#安装picard
conda install -c bioconda picard 
picard MarkDuplicates I=sample1.sorted.bam O=sample1.dedup.bam M=sample1.metrics.txt REMOVE_DUPLICATES=true

在使用 Picard Tools 的 MarkDuplicates 功能去除重复读段时，输出的 metrics.txt 文件包含了关于重复序列的详细统计信息。这个文件对于了解样品中的重复情况非常有用，尤其是在高通量测序数据中，重复读段可能会影响后续分析的结果和解释。

metrics.txt 文件通常包含以下内容：
Header：文件的头部分包含了一些描述性信息，比如程序版本、命令行参数等。
Metrics Table：这是文件的主要部分，它包含了各种统计指标，如：
LIBRARY：如果提供了的话，显示样本或文库的名称。
UNPAIRED_READS_EXAMINED：检查的未配对读数数量。
READ_PAIRS_EXAMINED：检查的读对数量。
UNMAPPED_READS：未映射的读数数量。
UNPAIRED_READ_DUPLICATES：未配对的重复读数数量。
READ_PAIR_DUPLICATES：读对的重复数量。
READ_PAIR_OPTICAL_DUPLICATES：光学重复的读对数量，这是由于测序过程中样品制备的问题导致的。
PERCENT_DUPLICATION：总重复百分比。
ESTIMATED_LIBRARY_SIZE：估计的文库大小。
Histogram：文件的最后部分通常包含一个直方图，显示了不同重复级别下的读数或读对数量。这有助于可视化重复读数在样品中的分布情况。

这个文件为评估样本的重复水平和可能的PCR偏差提供了重要信息。在进行后续的生物信息学分析时，了解这些信息是非常重要的，因为高水平的重复可能会影响分析结果的解释。

步骤4：峰值调用

在ChIP-Seq分析中，峰值调用可以以两种主要方式进行：对每个样本单独进行峰值调用，或者在结合对照组数据的情况下进行峰值调用。这两种方法的选择取决于实验设计和分析的目标。
使用如MACS2等工具识别ChIP-Seq信号的显著峰值。

#安装macs2
conda install -c bioconda macs2
#单独对每个样本进行峰值调用示例代码：
macs2 callpeak -t sample1.dedup.bam -f BAM -g hs -n sample1 --outdir peaks

#结合对照组数据进行峰值调用示例代码：
macs2 callpeak -t sample1.dedup.bam -c control1.dedup.bam -f BAM -g hs -n sample1_vs_control1 --outdir peaks

MACS2 CallPeak：

用于识别 ChIP-Seq 实验中的富集区域（峰）。
-t 和 -c 参数分别指定了处理组和对照组的BAM文件。
-f BAM 指定输入文件格式为BAM。
-g hs 指定了基因组大小，hs 代表人类基因组，如果您研究的是其他物种，请相应更改。
–outdir 指定了输出目录。

使用 MACS2 (macs2 callpeak) 进行峰值调用后，会得到三个主要的输出文件：sample1_vs_control1_peaks.narrowPeak，sample1_vs_control1_peaks.xls，和 sample1_vs_control1_summits.bed。这些文件在基因组学和表观遗传学研究中非常有用，每个文件都有特定的分析用途：

sample1_vs_control1_peaks.narrowPeak 文件:这个文件包含了峰值区域的坐标和相关统计数据，如峰值的强度、峰值的起始和结束位置等。可用于：
- 功能注释：使用工具如 ChIPseeker 或 HOMER 对峰值进行基因组功能注释，确定这些峰值位于基因组的什么位置（如启动子区域、内含子、外显子等）。
- 富集分析：进行基因本体（GO）分析和通路分析，了解这些峰值相关的生物学过程和通路。
- 与其他数据集对比：如果有的话，可以与其他组学数据（如转录组数据）进行整合分析，以深入理解调控网络。
sample1_vs_control1_peaks.xls 文件:这是一个更加详细的峰值报告，包括每个峰值的统计信息和注释。可用于：
- 详细峰值分析：可以用于更深入地分析特定峰值的特性，例如峰值质量、覆盖度和局部基因组环境。
- 峰值筛选：基于特定标准（如q值、峰值高度）筛选出最重要的峰值进行进一步分析。
sample1_vs_control1_summits.bed 文件:包含每个峰值顶点的位置，这通常是蛋白质结合位点的最可能位置。可用于：
- 顶点分析：用于确定潜在的结合位点，特别是在进行序列特异性结合蛋白（如转录因子）的研究时。
- Motif富集分析：使用如 MEME 或 HOMER 工具进行Motif分析，以识别在这些顶点附近富集的DNA序列模式，可能指示特定转录因子的结合模式。

4.1Motif分析

使用HOMER 工具进行Motif分析

#安装HOMER
conda install -c bioconda homer

findMotifsGenome.pl sample1_vs_control1_summits.bed reference.fasta homer_output/ -size 200

HOMER的Motif分析产生多个输出文件，每个文件都有特定的用途。
- homerMotifs.all.motifs:这个文件包含了所有由HOMER识别出的motifs的信息。它是一个综合文件，其中包含了所有发现的motifs。
- homerMotifs.motifs10、homerMotifs.motifs12、homerMotifs.motifs8:这些文件是分别对应于不同长度的motifs的结果。例如，homerMotifs.motifs10 包含长度为10个核苷酸的motifs。HOMER通常会为不同长度的motifs生成单独的文件。
- homerResults/:这是一个目录，包含了HOMER分析的主要结果。通常，这个目录会包含一些子文件和目录，包括motifs的图像文件、每个motif的详细统计数据等。
- homerResults.html:这是HOMER分析结果的HTML格式报告。它以易于浏览和理解的格式展示了分析结果，包括识别的motifs及其特性。
- knownResults/:这个目录包含了与已知motifs数据库比较的结果。这对于确定样本中的motifs是否与已知的转录因子结合位点相匹配非常有用。
- knownResults.html:类似于homerResults.html，这是一个HTML报告，专门展示了与已知motifs的匹配结果。
- knownResults.txt:这是一个文本文件，包含了与已知motifs比较的详细结果，通常以表格格式呈现。
- motifFindingParameters.txt:这个文件记录了HOMER分析时使用的参数。它对于理解分析的具体设置和重复实验非常重要。
- seq.autonorm.tsv:这个文件通常包含用于分析的序列数据，可能是经过标准化或其他预处理步骤的。
使用MEME 工具进行Motif分析

conda install -c bioconda meme
conda install -c bioconda bedtools
#bed转fasta
bedtools slop -i sample1_vs_control1_summits.bed -g genome.size -b 100 -s | bedtools getfasta -fi genome.fasta -bed - -fo sample1_vs_control1_peaks_sequences.fasta
#bedtools slop 用于在每个峰顶的位置上下游各扩展100bp（可以根据需要调整这个值）。
#genome.size 文件包含了每条染色体或基因组片段的长度信息，格式为染色体名跟随长度（染色体名tab长度）。
#查看参考fasta基因组染色体长度信息
grep -v ">" BL21DE3_NZ_CP081489_1.fasta | tr -d "\n" | wc -c
#genome.fasta 是参考基因组序列文件。
#-b 100 指定了在峰顶周围扩展100bp。
#-s 选项告诉 bedtools slop 在扩展区域时考虑染色体边界，避免超出边界。

meme sample1_vs_control1_peaks_sequences.fasta -o meme_output -dna -nmotifs 15 -maxw 50

步骤5：差异结合区域分析

对识别出的峰值进行注释、可视化和差异分析。

使用DiffBind或其他工具比较实验组和对照组之间的峰值差异。

请注意，这些示例代码是基于您已经有了MACS2等工具产生的峰值文件（通常是.bed或.narrowPeak格式）。

# 安装和载入DiffBind包
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("DiffBind")
library(DiffBind)

# 设置样本信息
samples <- data.frame(
  SampleID = c("sample1", "input1"),
  Tissue = c("experiment", "control"),
  Condition = c("sample", "input"),
  Replicate = c(1, 2),
  bamReads = c("path/to/sample1.bam",  "path/to/input1.bam"),
  Peaks = c("path/to/sample1_peaks.narrowPeak", "path/to/input1_peaks.narrowPeak"),
  PeakCaller = rep("macs", 2)
)

# 读取数据
dbObj <- dba(sampleSheet = samples)

# 差异分析
dbaObj <- dba.analyze(dbObj)

# 获取差异峰值结果
diffPeaks <- dba.report(dbaObj, method=DBA_DESEQ2)

步骤6：功能注释和富集分析

对差异显著的结合区域进行GO和KEGG通路分析。

# 安装和载入clusterProfiler包
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("clusterProfiler")
library(clusterProfiler)

# 假设您已经有了一个基因列表（这里以geneList为例）
geneList <- c("gene1", "gene2", "gene3", ...)  # 用您的基因列表替换这里的内容

# GO富集分析
goResult <- enrichGO(gene = geneList, 
                     OrgDb = org.Hs.eg.db, 
                     keyType = "SYMBOL", 
                     ont = "BP", 
                     pAdjustMethod = "BH", 
                     qvalueCutoff = 0.05)

# KEGG通路分析
keggResult <- enrichKEGG(gene = geneList,
                         organism = 'hsa', 
                         keyType = 'kegg', 
                         pAdjustMethod = "BH", 
                         qvalueCutoff = 0.05)

# 查看和保存结果
head(goResult)
head(keggResult)

# 可以将结果保存为文件
write.csv(goResult, file = "GO_analysis_results.csv")
write.csv(keggResult, file = "KEGG_analysis_results.csv")
#在运行这些代码之前，请确保您已经安装了所需的包，并根据您的数据路径和基因列表进行了适当的修改。这些分析可以为您提供关于基因功能和相关生物学通路的深入洞察。

步骤7：结果整合和可视化

使用IGV或UCSC Genome Browser
在ChIP-Seq分析的最后阶段，结果的整合和可视化是非常重要的步骤。它可以帮助您更好地理解实验数据，并向他人展示您的发现。两个常用的工具是Integrative Genomics Viewer (IGV)和UCSC Genome Browser。以下是使用这两个工具的详细过程：

使用Integrative Genomics Viewer (IGV)

安装和启动IGV：
下载IGV：访问IGV官网下载适合您操作系统的IGV版本。
安装并启动IGV。
加载参考基因组：打开IGV后，首先加载您的参考基因组。点击顶部菜单的“Genomes” -> “Load Genome from Server”，然后选择或搜索您的参考基因组。
加载数据文件：加载BAM文件：点击“File” -> “Load from File”，然后选择您的.bam文件（如sample3.sorted.bam）。
加载峰值文件：以类似方式加载.bed或.narrowPeak文件，这些是峰值调用的结果。
浏览和分析数据：使用搜索栏可快速跳转到特定的基因或区域。
查看不同样本的覆盖情况，观察峰值是否如预期出现在特定基因区域。
调整视图和设置：可以调整轨道的高度、比例尺等，以更好地展示数据。
标记感兴趣的区域，进行截图保存。
导出视图：可以通过“File” -> “Save Image”来保存当前视图的截图。
使用UCSC Genome Browser

访问UCSC Genome Browser。

在顶部的“Genomes”菜单中，选择相应的物种和基因组版本。
加载自定义数据：点击页面上方的“track”或“add custom tracks”按钮。
提供您的BAM文件或峰值文件的URL（需要文件托管在互联网上，或使用UCSC支持的数据格式）。
浏览基因组和分析数据：输入基因名称或基因组坐标以导航到特定区域。
观察并比较不同样本和峰值的覆盖情况。
自定义视图和轨道：
调整轨道显示，比如颜色、高度等，以最佳展示您的数据。
使用“configure”选项可以更细致地调整各个轨道。
保存和分享结果：通过“view” -> “PDF/PS”保存当前视图的PDF版本。
使用“share”功能创建可分享的会话链接。

在进行数据可视化时，选择适合您数据和研究目标的工具非常重要。IGV更适合于个体样本的深入查看和分析，而UCSC Genome Browser则更适合于呈现和分享数据。通过这些工具，您可以有效地展示您的ChIP-Seq数据，并对其进行深入的分析。