转录组代谢组联合分析基础名词

1.基因共表达网络分析(Weighted Gene Co-Expression Network Analysis, WGCNA):基因共表达网络是基于基因间表达数据的相似性而构建的网络图,图中的节点代表基因,具有相似表达谱的基因被连接起来形成网络。通过构建基因共表达网络,可以深入探讨基因间的相互作用关系并挖掘核心基因(hub gene)

2.高通量测序:高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)

3.转录组测序:转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本及基因序列,已广泛应用于基础研究、临床诊断和药物研发等领域。

4.功能基因组学(functional genomics):功能基因组学(functional genomics)(Functuionalgenomics)又往往被称为后基因组学(Postgenomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质得研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。研究内容包括基因功能发现、基因表达分析及突变检测。基因的功能包括:生物学功能,如作为蛋白质激酶对特异蛋白质进行磷酸化修饰;细胞学功能,如参与细胞间和细胞内信号传递途径;发育功能,如参与形态建成等。采用的手段包括经典的减法杂交,差示筛选,cDNA代表差异分析以及mRNA差异显示等,但这些技术不能对基因进行全面系统的分析,新的技术应运而生,包括基因表达的系统分析(serial analysis of gene expression,SAGE),cDNA微阵列(cDNA microarray),DNA 芯片(DNA chip)和序列标志片段显示(sequence tagged fragmentsdisplay)。

5.代谢组学:代谢组学利用高通量、高灵敏度与高精确度的现代分析技术,对细胞、有机体分泌出来的体液中的代谢物的整体组成进行动态跟踪分析,借助多变量统计分析方法,来辩识和解析被研究对象的生理、病理状态及其与环境因子、基因组成等的关系。“代谢组学”是一种整体性的研究策略,其研究策略有点类似于通过分析发动机的尾气成分,来研究发动机的运行规律和故障诊断等的“反向工程学”的技术思路。由于代谢组学着眼于把研究对象作为一个整体来观察和分析,也被称为“整体的系统生物学”

6.BLAST:BLAST 实际上是综合在一起的一组工具的统称,它不仅可用于直接对蛋白质序列数据库和核酸序列数据库进行搜索,而且可以将待搜索的核酸序列翻译成蛋白质序列后再进行搜索,或者反之,以提高搜索效率。因此 BLAST 可以分为 BLASTp,BLASTn,BLASTx,tBLASTn和 tBLASTx。

7.测序深度和覆盖度:测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。测序深度与基因组覆盖度之间是一个正相关的关系,测序带来的错误率或假阳性结果会随着测序深度的提升而下降。重测序的个体,如果采用的是双末端或Mate-Pair方案,当测序深度在10~15X以上时,基因组覆盖度和测序错误率控制均得以保证。

8.碱基质量值 :(Quality Score 或 Q-score )是碱基识别( Base Calling )出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。Q30 :碱基质量值为 Q30 代表碱基的精确度在 99.9% 。

9.FPKM(Fragments Per Kilobase of transcript per Million fragments mapped ): 每 1 百万个 map 上的 reads 中 map 到外显子的每 1K 个碱基上的 fragment 个数。

10.FC(Fold Change ):即差异表达倍数。

11.P 值(P-value ):即概率,反映某一事件发生的可能性大小。 统计学根据显著性检验方法所得到的 P 值,一般以 P<0.05为显著, P<0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于 0.05 或 0.01 。

12.UTR:(UntranslateRegions) :非翻译区域。是信使 RNA(mRNA )分子两端的非编码片段。 5'-UTR 从 mRNA 起点的甲基化鸟嘌呤核苷酸帽延伸至 AUG 起始密码子, 3'-UTR 从编码区末端的终止密码子延伸至多聚 A 尾巴( Poly-A )的前端。

13.ORF (open reading frame ):开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。

14.CDS (Coding sequence ): 是编码一段蛋白产物的序列,是结构基因组学术语。 DNA 转录成 mRNA ,mRNA 经剪接等加工后翻译出蛋白质,所谓 CDS 就是与蛋白质序列一一对应的 DNA 序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑 mRNA 加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。

15.差异表达转录本( DifferentiallyExpressed Transcript ,DET):指表达水平存在显著差异的转录本。

16.差异表达转录本( DifferentiallyExpressed Transcript ,DET):指表达水平存在显著差异的转录本。

17.皮尔逊相关系数 r(Pearson ’s Correlation Coefficient ):用于度量两个变量 X 和 Y 之间的相关(线性相关),其值介于 -1 与 1 之间。其中, 1 表示变量完全正相关, 0 表示无关, -1 表示完全负相关。在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近 1,说明两个重复样品相关性越强。

18.Contig :高通量测序中利用软件将具有一定长度 overlap 的 reads 连成更长的片段,这些通过 reads overlap关系得到的不含 N 的组装片段称之为 Contig 

19.Scaffold :高通量测序中 reads 经过拼接获得 Contigs ,Contig 经过确定先后顺序用 N 连接起来组成 Scaffold 

20.Contig N50 :Reads 拼接后会得到长度不同的 Contigs 。将所有 Contigs 的长度相加后获得一个 Contig 的总长度。之后将所有 Contig 按照序列长度由短到长进行排序, 如获得 Contig1 ,Contig2 ,Contig3 ⋯⋯.. 。将 Contig按照这个顺序一次相加,当相加的长度达到 Contig 总长度的一半时,最后一个加上的 Contig 长度即为Contig N50 。

21.Contig N50 :Reads 拼接后会得到长度不同的 Contigs 。将所有 Contigs 的长度相加后获得一个 Contig 的总长度。之后将所有 Contig 按照序列长度由短到长进行排序, 如获得 Contig1 ,Contig2 ,Contig3 ⋯⋯.. 。将 Contig按照这个顺序一次相加,当相加的长度达到 Contig 总长度的一半时,最后一个加上的 Contig 长度即为Contig N50 。

22.lncRNA (long noncoding RNA ):长链非编码 RNA 。在长度 200-100000nt 之间,不具有编码蛋白功能的转录本。

23.GO (Gene Ontology ):基因本体联合会 (Gene Ontology Consortium )所建立的数据库, 旨在建立一个适用于各种物种的,堆积因何蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。 GO 是多种生物本体语言中的一种,提供了三层结构(分子功能、生物学途径、细胞组件)的系统定义方式,用于描述基因产物的功能。

24.Nr(NCBI non-redundant protein sequences) :是 NCBI 官方的蛋白序列数据库, 它包括了 GenBank 基因的蛋白编码序列, PDB(Protein Data Bank)蛋白数据库、SwissProt 蛋白序列及来自 PIR(Protein Information Resource )和 PRF(Protein Research Foundation )等数据库的蛋白序列。根据 nr 注释信息我们能得到 GO 功能注释。

25.KEGG(Kyoto Encyclopedia of Genes and Genomes) :是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据 ,包括代谢通路( KEGG PATHWAY )、药物( KEGG DRUG )、疾病(KEGG DISEASE )、功能模型 (KEGG MODULE )、基因序列 (KEGG GENES )及基因组 (KEGG GENOME )等等。 KO(KEGG ORTHOLOG )系统将各个 KEGG 注释系统联系在一起, KEGG 已建立了一套完整 KO 注释的系统,可完成新测序物种的基因组或转录组的功能注释。

25.Uniprot 注释:UniProt 是 Universal Protein 的英文缩写,是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。

26.COG:即Clusters of Orthologous Groups of proteins。可以理解为COG是NCBI的数据库。COG的中文释义即同源蛋白簇。COG分为两类,一类是原核生物的,另一类是真核生物。原核生物的一般称为COG数据库;真核生物的一般称为KOG数据库。由NCBI创建并维护的蛋白数据库,根据细菌、藻类和真核生物完整基因组的编码蛋白系统进化关系分类构建而成。通过比对可以将某个蛋白序列注释到某一个COG中,每一簇COG由直系同源序列构成,从而可以推测该序列的功能。COG数据库按照功能一共可以分为二十六类。

27.Pfam(Protein families database of alignments and hidden Markov models ):提供了完整准确的蛋白质家族和结构域分类信息,以多序列比对信息和隐马尔可夫模型(HMM)表示,广泛应用于蛋白家族查询和蛋白结构域的注释。PfamA 中所包含的蛋白结构数据都是已知并且得到验证的,每个蛋白结构域都有各自的定义(definition)。

28.KEGG PATHWAY:KEGG是一个整合了基因组、化学和系统功能信息的数据库,其中最核心的为 KEGG PATHWAY和KEGG ORTHOLOGY数据库。在 KEGG ORTHOLOG数据库中,将序列高度相似且行使相同功能的基因聚在一起,称为 Ortholog Groups (KO entries),每个 KO 包含多个基因信息,并在一至多个 pathway 中发挥作用。而在 KEGG PATHWAY 数据库中,将生物代谢通路划分为 6 类,分别为:细胞过程(Cellular Processes)、环境信息处理(Environmental Information Processing)、遗传信息处理(Genetic Information Processing)、人类疾病(Human Diseases)、新陈代谢(Metabolism)、生物体系统(Organismal Systems),其中每类又被系统分类为二、三、四层。第二层目前包括有 43 种pathway;第三层即为其代谢通路图;第四层为每个代谢通路图的具体注释信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值