建立基因组索引
调用bowtie2,因为bowtie2支持插入缺失。
bismark_genome_preparation
--path_to_bowtie /usr/local/bowtie/
<path_to_genome_folder> 参考基因路径
--verbose 输出log信息
比对
bismark --bowtie2
-N 0 允许错配数
-L 20 seed大小
--quiet
--un 过滤多处匹配reads
--ambiguous 多处匹配reads信息独立记录
--sam 输出格式为sam
-o 输出目录
<genome_folder>
-1 read_1.fq
-2 read_2.fq
去重复
duplicate_bismark -p <input.sam>
提取甲基化位点
bismark_methylation_extractor
-P pair-end
--comprehensive 输出CHG CHH CpG的甲基化信息
--no-overlap
--bedGraph 输出bedGraph文件
--counts 每个C上甲基化reads和非甲基化reads的数目
--buffer_size 20G
--report 一个甲基化summay
--cytosine_report 报道全基因组所有CpG
--genome_folder <path_to_reference_genome>
input.sam
-o output_dir
解读甲基化信息
bismark2report --dir <output_dir> --alignment_repot <report_path>
针对所有样本进行汇总.
bismark2summary sample_bismark_bt2.bam
结果解读
CpG:甲基化C下游是个G碱基。
CHH:甲基化C下游的2个碱基都是H(A、C、T)。
CHG:甲基化的C下游的2个碱基是H和G。
col1 : 比对上的序列ID
col2 : 基因组正负链:+ -
col3 : 染色体编号
col4 : 染色体位置
col4 : 甲基化C的状态(XxHhZzUu)
X 代表CHG中甲基化的C
x 代笔CHG中非甲基化的C
H 代表CHH中甲基化的C
h 代表CHH中非甲基化的C
Z 代表CpG中甲基化的C
z 代表CpG中非甲基化的C
U 代表其他情况的甲基化C(CN或者CHN)
u 代表其他情况的非甲基化C (CN或者CHN)
记录样本甲基化的汇总信息。
col1 : position
col2 : 甲基化count
col3 : 非甲基化count
col4 : 甲基化率(beta)
col5 : coverage
col1 : 染色体编号
col2 : 染色体起始位置
col3 : 染色体终止位置
col4 : 甲基化率 (5/5+6)
col5 : 甲基化数目
col6 : 非甲基化数目
col1 : 染色体编号
col2 : 染色体起始位置
col3 : 正负链信息
col4 : 甲基化碱基数目
col5 : 非甲基化碱基数目
col6 : CG
col7 : CG背景(CG+一个碱基)