在面对需要提取某一个基因的序列时,大家会通过什么样的方式提取呢?下载具有序列的全部文件,手动一个一个去搜?刚开始,小编也是这样的,那时候从NCBI上一点一点的搜,一点一点的查,经常一查就是一天,关键是还要受限于网速带来的影响。后来下载了整个物种的fasta文件,然后本地一个一个的查,这种方式虽然慢但是成功解决了网速带来的缺点!现在,如果让我再来一次,我是真的怕手动一个一个查,写一个脚本,让他自己去跑,不管跑多久,好歹自己解放出来了,用这些时间追追剧,刷刷抖音不香吗?
不久前,朋友也在抱怨这个事情,为此我特意将该功能进行封装了,做了一个可视化的界面,可以直接去做!该工具在使用前需要安装python3.8或及以上版本作为环境。安装的过程就不过多的描述了!
首先,解压压缩包,在压缩包下,有这么几个文件,其中gene1和gene.txt为要提取的蛋白的id,背景数据库从uniprot下载的人的蛋白数据库
首先,在文件夹dist\extract_seq\extract_seq.exe,双击打开
非常简单,我们只需要选择合适的文件,直接运行即可,结果文件会保存在‘选择需要提取的id’文件同一目录下。
这里不过多介绍,我们在这里介绍一下,gene.txt和gene1.txt分别是什么文件,为什么小编会准备两个哈!
首先,我们看一下gene.txt和gene1.txt是什么!
看完这两个文件,聪明的你应该就已经明白了,在提取序列的时候有时候,我们知道的id可能在数据库中只是序列名称的一部分,完全匹配是没有办法实现的!小编提供的这个工具,可以实现一个模糊匹配的功能,比如说搜索gene1,会将gene1和gene10都提取出来,所以需要提供的id越准确越好!
有感兴趣可以测试一下,下载链接在
https://download.csdn.net/download/weixin_43949246/16798032
当然也可以联系小编,相互交流!
根据基因或者蛋白的id提取序列---extract_seq.exe
最新推荐文章于 2024-06-12 17:42:58 发布