1.引言
往往我们在论文研究的结尾就会出现一个环节“将富集结果出来的基因进行功能查找,看它参与了什么过程,看它参与了什么调控的表达。”可是问题痛点也随之而来,面对浩如烟海的富集结果,如何进行科学查找方便搜索成了大家都想解决的一个问题。
2.解决方法
首先要明白我需要什么?如果我说我拥有一个根据功能基因名称就可以解析基因功能的程序那不就解决了?
唉,真有?技术实现:selenuuim爬虫框架实现自动化爬取genecard网站就搞定!
3.成果展示
3.1 假定输入基因列表
3.2 结果文件
3.talk is cheap,show you code.
说来惭愧实现此部分代码效果仅仅10几行python代码便可以搞定,但是看你数据量,如果真的需要查找基因居多,就不要傻傻等待了,计算机人最玩不起的就是等待。直接上多线程就行,但是由于网站性能问题,多线程可能会出现大家都不想看到的爬坏别人网站。此部分就不教了,若是真有需求。嘻嘻嘻,找我我告诉你怎么实现
def search(gene):
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
driver = webdriver.Chrome()
web = driver.get('https://www.genecards.org/cgi-bin/carddisp.pl?gene='+gene)
gene_function= driver.find_element('xpath','//section[2]/div[1]/ul/li/p')
# for item in gene_function:
print(gene+':'+gene_function.text)
driver.quit()
if __name__== '__main__':
fp = open("gene_list",mode="r",encoding="utf-8")
genes = fp.read().splitlines()
for gene in genes:
# print(gene)
search(gene)