为什么说生物信息学是真正的大数据行业?

一不小心进入了大数据这一朝阳产业,内心还有点小激动呢。怎么回事呢?我什么都不知道啊。先看下表吧。

1. DNA 的基本单位为什么叫碱基对?

因为 DNA 是由两条反向互补的链组成的,两条链之间遵循碱基互补配对原则(A 与 T 配对,G 与 C 配对)。知道了一条链的序列,就能推断出另一条链的序列。因此当谈到 DNA 的一个基本单位时,习惯上叫碱基对(base pair,缩写为 bp),意味着它可以代表的是一对碱基,也就是一对核酸。

2. 基因组大小是怎么定义的?

人的基因组约有 3 个 G,这 3 个 G 严格来说是人的一个细胞中一半 DNA 的碱基数。因为人是二倍体,共有 46 条染色体,23 条来自于父亲,23 条来自于母亲。两者共 6 个 G。因此当谈到一个物种的基因组大小时,指的是其配子(单倍体)中所有 DNA 的碱基数。有人说人的基因组有 6 个 G,这是不严谨的。

3. 为什么说生物信息学是大数据行业?

举几个例子:

(1)科研上测人的基因组,习惯上测 30X,也就是每一个碱基测 30 次,那么 30*3G 就是 90G 了。一个项目测 5 个人的,得到的数据差不多要 500G 硬盘来装了(不考虑压缩的情况)。处理这些数据,对计算资源的要求可想而知,普通笔记本和台式机肯定不行了,得上服务器。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值