最近在做基因富集分析发现,很多非模式植物通过
clusterprofiler
做富集分析都需要自备注释文件,这时我们需要GO的注释文件,需要自己整理,这里通过python来爬取
GO数据库 来制作注释所需的文件。
爬取整体思路
-
通过观察GO的网址,我们不难发现,整个网页的网址格式是固定的,如http://amigo.geneontology.org/amigo/term/GO:0000004,网址前面都是,http://amigo.geneontology.org/amigo/term/,变的是后面的GO:0000004。
所以我们只需要用python循环来构建url即可爬取。
-
在整个网页,我们只需要前面的信息,通过翻阅网页源代码,我们可以发现,这些信息都在元素
dl
的内部。
代码实现
- 构造GO编号生成函数
def Number(num)