会编程对于生命科学研究者来说确实是一项加分技能,能帮助他们完成许多关键的研究任务。然而,对于生命科学领域的研究者和学生来说,学习编程需要耗费极大的时间和精力,那么有没有一款可以不用费力学习枯燥的代码,也能极高的提高科研效率,更加适合生物科研工作者的软件呢?今天就介绍一款极易上手的自动化数据分析软件——FlyFish(飞鱼)
FlyFlish在生物信息学上的用途非常广泛。今天主要介绍几个常用的场景,相信每一位研究生物学的同学都用过NCBI,NCBI网站上提供了一系列生物信息学工具,包括BLAST、Entrez检索系统、RefSeq基因库、GenBank和PubMed等数据库,这些工具和数据库对于生命科学和医学研究都非常重要。大家用得也很频繁,但是对于大批量的数据往往耗时耗力。
案例1:NCBI批量查找氨基酸注释信息
很多生物研究者在收到转录子公司的数据时,需要自己动手到NCBI上查找氨基酸序列和注释等信息,非常耗时和浪费精力。
图片来源:转录子数据
图片来源:NCBI官网
而现在,通过FlyFlish,科研工作者只需要动手点击下鼠标,FlyFlish就能够自动登录NCBI官网,只需要花费几分钟即可完成上百条数据。
NCBI序列匹配
案例2:NCBI自动采集CDS序列
在分析基因组数据时,我们有时候只需要基因组中某个部位的信息,比如涉及编码蛋白功能就只需要CDS序列,研究miRNA与mRNA互作时,只需要3‘UTR序列。
如何快速的得到基因组中的目标序列呢?
1.首先准备一份excel表格,A列为目的基因的ID号,B列是CDS序列,C列是全基因序列
2.打开FlyFlish程序,修改Excel文件位置
程序运行视频
NCBI自动采集CDS序列
运行结果
案例3:NCBI批量ID转换
在许多情况下,我们经常需要进行数据库之间编号的置换。举例来说,假设我们使用NCBI官网上的基因数据库研究。在该数据库中,基因通常使用LOC号进行唯一标识,但在我们的工作流程中,我们更希望使用基因的ID号进行处理和分析。
传统的处理方法可能需要手动查询每个基因的LOC号,并将其转换为对应的ID号,然后使用ID号进行后续操作。然而,这个过程通常耗时且容易出错,特别是当我们需要处理大量基因时。借助FlyFlish,我们可以编写一个自动化的机器人流程来快速高效地处理这个任务。
1.将待转换物种的NCBI基因号统一放在Excel
2.FlyFlish自动打开网页:
https://www.ncbi.nlm.nih.gov/sites/batchentrez,如图,自动点击“选择文件”。
3.FlyFlish将准备好的Excel文件转换为txt文件, 将txt文件上传,并下载转换好的文件。
4.FlyFlish将转换后的ID,根据LOC号对应填入Excel
NCBI-ID批量转换