融合基因介绍
概念
在RNA水平上,由多个转录本构成的转录本。
在DNA水平上,由两个或多个基因共同组成的新基因。
NGS如何鉴定融合基因
- spanning reads
R1和R2没有覆盖到连接点,只是比对的位置位于两个不同的基因上。潜在的融合基因,解释性较弱。
- split reads
R1或R2的一条read位于连接点的两侧,有一条read直接覆盖到连接点上。解释性较强。
本质
染色体重排。
研究意义
异常基因融合可能引用恶性血液疾病以及肿瘤。探讨发病机制、biomaker的筛选。
STAR-Fusion
原理
- 将reads通过STAR比对reference genome,筛选出split和dicordant reads作为候选融合基因。
- 候选融合基因与reference genome比对,根据overlap预测出融合基因。
- 过滤预测结果,去除假阳性结果。
运行步骤
STAR-Fusion可以这件用原始Fastq数据分析。
4. 下载genome resouce lib:https://data.broadinstitute.org/Trinity/CTATRESOURCELIB/
5. 预处理genome resource lib:
FusionFilter/prep_genome_lib.pl
--genome_fa ref_genome.fa
--gtf ref_annot.gtf
--fusion_annot_lib fusion_lib.dat.gz 融合基因注释信息
--blast_pairs blast_pairs.outfmt6.gz
--pfam_db PFAM.domtblout.dat.gz
- 运行
STAR-Fusion
--genome_lib_dir CTAT_resource_lib(建立的reference lib所在的目录)
--left_fq read-1.fq
--right_fq(单端时省略该参数) read_2.fq
--output_dir star_fusion_outdir
输出结果
star-fusion.fusion_predictions.abridged.tsv,比较关心的是转录本融合的左右两个转录本的ID和融合为电动的坐标。JunctionRead
和SpanningFrag
个数越多,为一个真实的融合基因的可能性越大。spliceType
表示断裂点breakpoint是否位于exon边界。
#FusionName JunctionReadCount SpanningFragCount SpliceType LeftGene LeftBreakpoint RightGene RightBreakpoint LargeAnchorSupport FFPM LeftBreakDinuc LeftBreakEntropy RightBreakDinuc RightBreakEntropy annots
THRA--AC090627.1 27 93 ONLY_REF_SPLICE THRA^ENSG00000126351.8 chr17:38243106:+ AC090627.1^ENSG00000235300.3 chr17:46371709:+ YES_LDAS 23875.8456 GT 1.8892 AG 1.9656 ["CCLE","FA_CancerSupp","INTRACHROMOSOMAL[chr17:8.12Mb]"]