根据基因或者蛋白的id提取序列---extract_seq.exe

在面对需要提取某一个基因的序列时,大家会通过什么样的方式提取呢?下载具有序列的全部文件,手动一个一个去搜?刚开始,小编也是这样的,那时候从NCBI上一点一点的搜,一点一点的查,经常一查就是一天,关键是还要受限于网速带来的影响。后来下载了整个物种的fasta文件,然后本地一个一个的查,这种方式虽然慢但是成功解决了网速带来的缺点!现在,如果让我再来一次,我是真的怕手动一个一个查,写一个脚本,让他自己去跑,不管跑多久,好歹自己解放出来了,用这些时间追追剧,刷刷抖音不香吗?
不久前,朋友也在抱怨这个事情,为此我特意将该功能进行封装了,做了一个可视化的界面,可以直接去做!该工具在使用前需要安装python3.8或及以上版本作为环境。安装的过程就不过多的描述了!
首先,解压压缩包,在压缩包下,有这么几个文件,其中gene1和gene.txt为要提取的蛋白的id,背景数据库从uniprot下载的人的蛋白数据库
在这里插入图片描述
首先,在文件夹dist\extract_seq\extract_seq.exe,双击打开
在这里插入图片描述非常简单,我们只需要选择合适的文件,直接运行即可,结果文件会保存在‘选择需要提取的id’文件同一目录下。
在这里插入图片描述
这里不过多介绍,我们在这里介绍一下,gene.txt和gene1.txt分别是什么文件,为什么小编会准备两个哈!
首先,我们看一下gene.txt和gene1.txt是什么!
在这里插入图片描述
在这里插入图片描述看完这两个文件,聪明的你应该就已经明白了,在提取序列的时候有时候,我们知道的id可能在数据库中只是序列名称的一部分,完全匹配是没有办法实现的!小编提供的这个工具,可以实现一个模糊匹配的功能,比如说搜索gene1,会将gene1和gene10都提取出来,所以需要提供的id越准确越好!
有感兴趣可以测试一下,下载链接在
https://download.csdn.net/download/weixin_43949246/16798032
当然也可以联系小编,相互交流!
在这里插入图片描述

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值