转录因子(Transcription Factors,TFs),是指能够以特定序列与基因专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。转录因子通过识别特定的DNA序列来控制染色质和转录,以形成指导基因组表达的复杂系统。许多转录因子充当着主调节因子和选择基因的角色,控制着细胞类型的决定、发育模式和特定途径控制(如免疫反应)的过程。
单细胞技术把视角拉到了单个细胞的研究精度,在研究单个细胞基因表达、轨迹发生、相互作用等的同时,细胞转录状态的变化也进入了研究者的目光。在复杂多变的细胞微环境中,受到外界刺激的细胞是如何通过转录因子调节基因表达,从而调整细胞的转录状态以适应新的环境,尤其在肿瘤微环境中转录状态的转变,成为了单细胞数据分析不可或缺的一环。对于单细胞数据转录因子分析,SCENIC[1]无疑是研究者的首选。当然,限于运行速度的关系,python版本的pyscenic也越来越多的投入到实际的运用中,本篇将从SCENIC软件着手,讲解单细胞研究中转录因子带来的生物学意义。
转录因子介绍
基因转录有正调控和负调控之分。如细菌基因的负调控机制是当一种阻遏蛋白(repressor protein)结合在受调控的基因上时,基因不表达;而从靶基因上去除阻遏蛋白后,RNA聚合酶识别受调控基因的启动子,使基因得以表达,这是正调控。这种阻遏蛋白是反式作用因子。而顺式作用因子则指的是基因上与反式作用因子结合的对基因表达起调控作用的基因序列。
图1 TF调控基因表达原理示意图
定义
转录因子(transcription factor)是一群能与基因5`端上有特定序列专一性结合,从而保证目的基因以特定的强度在特定的时间与空间表达的蛋白质分子。
结合位点
转录因子的结合位点(transcription factor binding site,TFBS)是转录因子调节基因表达时,与mRNA结合的区域。按照常识,转录因子(transcription factor,TF)的结合位点一般应该分布在基因的前端,但是,新的研究发现,人21和22号染色体上,只有22%的转录因子结合位点分布在蛋白编码基因的5'端。
图2 转录因子结合位点
分类
真核生物在转录时往往需要多种蛋白质因子的协助。一种蛋白质是不是转录结构的一部分往往是通过体外系统看它是否是转录起始所必须的。一般可将这些转录所需的蛋白质分为三大类:
(1)RNA聚合酶的亚基
RNA聚合酶的亚基,它们是转录必须的,但并不对某一启动子有特异性。
(2)与RNA聚合酶结合形成起始复合物的
某些转录因子能与RNA聚合酶结合形成起始复合物,但不组成游离聚合酶的成分。这些因子可能是所有启动子起始转录所必须的,但亦可能仅是譬如说转录终止所必须的。但是,在这一类因子中,要严格区分开哪些是RNA聚合酶的亚基,哪些仅是辅助因子,是很困难的。
(3)仅与其靶启动子中的特异顺序结合
某些转录因子仅与其靶启动子中的特异序列结合。如果这些序列存在于启动子中,则这些顺式因子是一般转录结构的一部分。如果这些序列仅存在于某些种类的启动子中,则识别这序列的因子是在这些特异启动子上起始转录所必须的。
图3 转录因子结合位点motif
黑腹果蝇的RNA聚合酶需要至少两个转录因子方能起始转录。其中一个是B因子,它与含TATA盒的部位结合。人的因子TFⅡD亦和类似的部位结合。同样,CTF(CAAT结合因子)则与