根据基因或者蛋白的id提取序列---extract_seq.exe

最新推荐文章于 2024-06-12 17:42:58 发布

木之如水

最新推荐文章于 2024-06-12 17:42:58 发布

阅读量3.9k

点赞数 6

分类专栏：软件 python学习笔记

本文链接：https://blog.csdn.net/weixin_43949246/article/details/116022805

版权

python学习笔记同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

软件

6 篇文章 1 订阅

订阅专栏

在面对需要提取某一个基因的序列时，大家会通过什么样的方式提取呢？下载具有序列的全部文件，手动一个一个去搜？刚开始，小编也是这样的，那时候从NCBI上一点一点的搜，一点一点的查，经常一查就是一天，关键是还要受限于网速带来的影响。后来下载了整个物种的fasta文件，然后本地一个一个的查，这种方式虽然慢但是成功解决了网速带来的缺点！现在，如果让我再来一次，我是真的怕手动一个一个查，写一个脚本，让他自己去跑，不管跑多久，好歹自己解放出来了，用这些时间追追剧，刷刷抖音不香吗？
不久前，朋友也在抱怨这个事情，为此我特意将该功能进行封装了，做了一个可视化的界面，可以直接去做！该工具在使用前需要安装python3.8或及以上版本作为环境。安装的过程就不过多的描述了！
首先，解压压缩包，在压缩包下，有这么几个文件，其中gene1和gene.txt为要提取的蛋白的id,背景数据库从uniprot下载的人的蛋白数据库
在这里插入图片描述
首先，在文件夹dist\extract_seq\extract_seq.exe,双击打开
非常简单，我们只需要选择合适的文件，直接运行即可，结果文件会保存在‘选择需要提取的id’文件同一目录下。

这里不过多介绍，我们在这里介绍一下，gene.txt和gene1.txt分别是什么文件，为什么小编会准备两个哈！
首先，我们看一下gene.txt和gene1.txt是什么！
在这里插入图片描述
看完这两个文件，聪明的你应该就已经明白了，在提取序列的时候有时候，我们知道的id可能在数据库中只是序列名称的一部分，完全匹配是没有办法实现的！小编提供的这个工具，可以实现一个模糊匹配的功能，比如说搜索gene1，会将gene1和gene10都提取出来，所以需要提供的id越准确越好！
有感兴趣可以测试一下，下载链接在
https://download.csdn.net/download/weixin_43949246/16798032
当然也可以联系小编，相互交流！
在这里插入图片描述