使用DiffBind进行peak 差异分析

DiffBind是一款在R中进行peak差异分析的工具,它借鉴RNA_seq的思路处理peak数据。需依赖预存在的peak calling结果,进行定量和差异分析,支持DESeq、DESeq2、edgeR等R包。该文介绍了DiffBind的使用流程,包括count、contrast、analyze和report四个步骤,并强调了生物学重复的重要性。此外,DiffBind还提供了丰富的可视化功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

欢迎关注”生信修炼手册”!

DiffBind是一个用于peak差异分析的R包,源代码保存在Bioconductor上,链接如下

http://www.bioconductor.org/packages/release/bioc/html/DiffBind.html

该R包采用了RNA_seq中差异基因表达的思路来进行peak的差异分析,和macs2的差异功能不同,DiffBind需要依赖已有的peak calling结果,将peak区域当做RNA_seq中的基因区域,然后对这些区域进行定量和差异分析,其核心的差异分析通过调用RNA_seq中常用的R包来实现,支持以下3种差异分析的R包

  1. DESeq

  2. DESeq2

  3. edgeR

RNA_seq中进行定量,需要比对的bam文件和基因注释gtf文件, 类似地,DiffBind需要提供样本比对的bam文件以及peak calling得到的peak区域结果文件。为了方便导入,DiffBind提供了一个接口,将导入文件的相关信息保存在一个文件中,该文件内容示意如下

格式为csv, 这个表格的设计是为了考虑兼容性,最大可能的保留实验相关的所有信息。在实际分析中,可能有很多列没有对应信息,直接空值即可。值得注意的是,在ATAC中,样本没有对应的control, 这里control相关的信息为空就好,实际上这里的control也只是列在表格中,定量和差异分析时并不会用到control样本的数据。

Diffbind进行了高度封装,所有的函数都围绕一个自定义的DBA对象为中心,根据自己的数据整理好上述表格,然后通过以下几步代码就可以直接完成差异peak分析了

library(DiffBind)
tamoxifen <- dba(sampleSheet="tamoxifen.csv")
tamoxifen <- dba.count(tamoxifen, summits=250)
tamoxifen <- dba.contrast(tamoxifen, categories=DBA_CONDITION)
tamoxifen <- dba.analyze(tamoxifen)
tamoxifen.DB <- dba.report(tamoxifen)


从函数名称也可以看出,从DBA对象开始,整个过程分为以下4步

  1. count,计算peak区域的表达量, 由于不同的peak数据集会存在overlap, 所以首先合并peak区域,当导入的peak数据集越多,理论上合并后的peak平均宽度就会越宽,overlap的peak越多,合并后的peak机会越宽。正事由于merge机制的存在,你会发现最终定量结果中的peak无论是个数还是宽度都和你输入的不太一致

  2. contrast, 构建比较的分组,指定哪些分组进

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值