生物信息学算法之Python实现|Rosalind刷题笔记：011 DNA六框翻译

最新推荐文章于 2023-05-22 17:33:11 发布

简说基因-专业生信合作伙伴

最新推荐文章于 2023-05-22 17:33:11 发布

阅读量3.5k

点赞数 18

文章标签： python tapestry isp nvidia c++11

本文链接：https://blog.csdn.net/weshengxin/article/details/111189554

版权

开放阅读框（Open Reading Frame, ORF）是由起始密码子开始，直到终止密码子结束，中间不含有其他终止密码子的核酸序列。由于 DNA 是双链结构，任何一条链都可以作为模板合成 RNA；并且又因为遗传密码是三联体，由三个核苷酸决定一个氨基酸，因此对于一段 DNA 序列，有六种可能的阅读框（正向三个，反向三个）。通常情况下，六种阅读框只有一种是正确的：一般是翻译得到最长氨基酸序列的阅读框。

图源：rosalind.info

给定： Fasta 文件中一条长度不超过 1kb 的 DNA 序列。

需得： 不同的由 ORF 翻译而来的蛋白序列。返回翻译的蛋白序列时可以是任意顺序。

示例数据

>Rosalind_99
AGCCATGTAGCTAACTCAGGTTACATGGGGATGACCCCGCGACTTGGATTAGAGTCTCTTTTGGAATAAGCCTGAATGATCCGAGTAGCATCTCAG

示例结果

MLLGSFRLIPKETLIQVAGSSPCNLS
M
MGMTPRLGLESLLE
MTPRLGLESLLE

Python 实现

Open_Reading_Frames.py

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

简说基因-专业生信合作伙伴

关注关注

18
点赞
踩
44

收藏

觉得还不错? 一键收藏
7
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

六框翻译

weixin_30687811的博客

08-14

1366

六框翻译-生信人必练的200个数据处理任务-生信技能树 http://www.biotrainee.com/thread-1444-1-1.html(出处: 生信技能树) 密码子是按3个碱基翻译的，所以从第一位开始翻译会得到一个氨基酸序列，从第二位翻译会得到一个不同的氨基酸序列从第三位开始又会得到一个不同的序列。从第四位开始就会和第一个开始翻译的序列...

生信刷题之ROSALIND——Part 2

Dzfly

04-18

1195

Rosalind是一个通过解决问题来学习生物信息学和编程的平台。

7 条评论您还未登录，请先登录后发表或查看评论

perl应用：六框阅读翻译DNA序列

GRC

10-24

5808

生物学知识： 1.六框翻译因为DNA为双链, 平时从NCBI等里面得到的只是其中的一条链,还有一个互补链没有结出. 先从一条链讲起, 如此链为ACGATGCCG....则现在有以下三种读法：第一种，ACG/ATG/CCG.... 第二种，把A看做前面的部分，则为A/CGA/TGC/CG..... 第三种，把AC看做是前面的部分，则为AC/GAT/GCC/G...

Rosalind刷题历程

weixin_30666753的博客

12-30

485

1_Counting DNA Nucleotides with open('E:/rosalind_dna(1).txt') as f: a = list(f.read()) print(a.count('A')) print(a.count('C')) print(a.count('G')) print(a.count('T')) 2_Transcribi...

生物信息学算法之Python实现|Rosalind刷题笔记：002 中心法则：转录

公众号/简说基因，知乎/简宝玉

12-05

755

我在生物信息学：全景一文中，阐述了生物信息学的应用领域非常广泛。但是有一点是很关键的，就是细胞内的生命活动都遵从中心法则，生物信息学很多时候就是在中心法则上做文章：分子生物学中心法则：D...

生物信息学算法之Python实现|Rosalind刷题笔记：013 随机DNA序列

公众号/简说基因，知乎/简宝玉

12-16

1194

众所周知，基因组的核酸链不可能是随机形成的。有时候许多物种基因组之间，存在一些保守序列（motif），这意味着它们可能具有重要功能。但是，我们如何确定这些序列不是随机形成的 DNA 片段...

生物信息学算法之Python实现|Rosalind刷题笔记：005 GC含量计算

公众号/简说基因，知乎/简宝玉

12-08

2855

DNA 序列的 GC 含量是指序列中'G'和'C'所占的百分比。一条 DNA 序列很容易表示，但是如果有多条 DNA 序列放在一起，则每条序列必须被标记，...

如何自学生物信息学：从菜鸟到专家

公众号/简说基因，知乎/简宝玉

11-23

1万+

看透了如此多的秘密，我们已停止相信尚有不可知之物。然而，那不可知之物却仍然坐在那里，冷静地舔着自己的嘴唇。 ——H.L. Mencken尽管人类已把航天器...

python-practice:LPTHW、罗莎琳德等

05-31

对于Rosalind部分，你将学习如何使用Python处理文本文件、解析生物序列数据、执行计算和算法，如DNA碱基配对、蛋白质翻译等。在结合HTML的学习中，你可能会探索如何使用Python的库（如BeautifulSoup和requests）来...

基于python的计算基因组_【ROSALIND】【练Python，学生信】05 计算DNA序列GC含量

weixin_35133280的博客

12-23

1455

题目：计算DNA序列GC含量(Computing GC content)Given: At most 10 DNA strings in FASTA format (of length at most 1 kbp each).所给：不超过10条DNA序列，每条最少1kbp，以FASTA格式提供。Return: The ID of the string having the highest GC-c...

Rosalind-计算DNA碱基数

输入+输出=学习

06-11

1208

Rosalind——生物信息刷题库，用编程解决问题

【中科院】分子生物学-朱玉贤第四版-笔记-第7-8讲翻译

最新发布

weixin_53682198的博客

05-22

1746

一段翻译成蛋白质的序列有一个阅读框架，它有一个特殊的起始密码子(AUG)，从此延伸出一系列代表氨基酸的三联体，一直到在三种类型的终止密码子上结束(见第5 章)。开读框架(Open Reading Frame: ORF)的预测常与第一个ATG和终止密码子的确定相关，但由于EST序列相对较低的测序质量，在测序过程中出现的碱基删除或插入错误(称为indel错误)将引起读框移动，甚至出现假终止密码子，所以，仅凭第一个ATG和终止密码子是不足以确定ORF的。一个由能翻译成氨基酸序列的三联体构成的阅读框称为。

Python生物信息学数据管理---第二章自测

qq_39212193的博客

04-09

770

insulin = ''' MPRAPRCRAVRSLLRSHYREVLPLATFVRRLGPQGWRLVQRGDPAAFRALVAQCLVCVPWDARPPPAAPS FRQVSCLKELVARVLQRLCERGAKNVLAFGFALLDGARGGPPEAFTTSVRSYLPNTVTDALRGSGAWGLL LRRVGDDVLVHLLARCALFVLVAPSCAYQVCGPPLYQLGAATQARPPPHASGPRRRLGCERAWNHSVREA GVPLGLPAPGARRRGGSASRSLPLPKRPR

python for bioinformatics相关题目

wangprince2017

12-09

990

题目完整版来自：http://rosalind.info/problems/list-view/；学习的网友脚本来自生信技能树：http://www.biotrainee.com/forum-59-1.html。每个题可能有多种解法，不同解法用分别用## 1/2/3表示，通常## 1 是我自己脚本，而其他解法是参考其他网友的脚本。如果你也同我一样刚用python处理生信数据的话，请务必先自...

Python生物信息学数据管理——第9、10章课后习题

xszzgyyz55的博客

04-09

1564

import re fo=open('genome.fasta','r') #把多序列文件整成字典格式，并使序列连贯起来 txt=fo.readlines() flag=True seq='' dict={} title='A' for line in txt: if line[0]=='&amp;amp;amp;gt;' and flag==True: title=line elif l...

小白的基因测序学习之路——#001有关基因的那些事

milkorwine

06-23

4113

什么是基因？首先，我们应该了解一下染色体，DNA，RNA，基因之间的关系。基因的定义基因是控制生物性状的基本遗传单位。基因（遗传因子）是产生一条多肽链或功能RNA所需的全部核苷酸序列。也就是说，基因只是DNA链中的一个个片段。每一片段会控制不同的性状。按照基因结构，可分为编码区和非编码区。编码区真核生物的编码区是不连续的，分为外显子和内含子，在转录过程中会修剪内含子，并拼合外显子来形成转录产物。在原核生物中，基因是连续的，也就是说无外显子和内含子之分。外显子 Exon 外显子

python练习题4 将mRNA翻译成蛋白质

qq_25055921的博客

11-18

8679

题目地址：http://rosalind.info/problems/prot/ 首先，需要先识别mRNA中的翻译起始位点，即AUG,然后从该位置，根据标准遗传密码表，将整个mRNA序列翻译成蛋白质，如果中途遇到终止密码子，则显示Stop. 当然，biopython也提供了翻译蛋白质的模块，可以很方便的将mRNA或者DNA翻译成蛋白质。这是不用biopython的代码：

python系列教程152——range函数与分片

人工智能AI技术

02-17

821

朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow 声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写，所以不如我的AI技术教学风趣幽默，学起来比较枯燥；但它的知识点还是讲到位的了，也值得阅读！想要学习AI技术的同学可以点击跳转到我的教学网站。PS：看不懂本篇文章的同学请先看前面的文章，循序渐进每