一不小心进入了大数据这一朝阳产业,内心还有点小激动呢。怎么回事呢?我什么都不知道啊。先看下表吧。
1. DNA 的基本单位为什么叫碱基对?
因为 DNA 是由两条反向互补的链组成的,两条链之间遵循碱基互补配对原则(A 与 T 配对,G 与 C 配对)。知道了一条链的序列,就能推断出另一条链的序列。因此当谈到 DNA 的一个基本单位时,习惯上叫碱基对(base pair,缩写为 bp),意味着它可以代表的是一对碱基,也就是一对核酸。
2. 基因组大小是怎么定义的?
人的基因组约有 3 个 G,这 3 个 G 严格来说是人的一个细胞中一半 DNA 的碱基数。因为人是二倍体,共有 46 条染色体,23 条来自于父亲,23 条来自于母亲。两者共 6 个 G。因此当谈到一个物种的基因组大小时,指的是其配子(单倍体)中所有 DNA 的碱基数。有人说人的基因组有 6 个 G,这是不严谨的。
3. 为什么说生物信息学是大数据行业?
举几个例子:
(1)科研上测人的基因组,习惯上测 30X,也就是每一个碱基测 30 次,那么 30*3G 就是 90G 了。一个项目测 5 个人的,得到的数据差不多要 500G 硬盘来装了(不考虑压缩的情况)。处理这些数据,对计算资源的要求可想而知,普通笔记本和台式机肯定不行了,得上服务器。