基于爬虫实现基因功能批量查找

1.引言

   往往我们在论文研究的结尾就会出现一个环节“将富集结果出来的基因进行功能查找,看它参与了什么过程,看它参与了什么调控的表达。”可是问题痛点也随之而来,面对浩如烟海的富集结果,如何进行科学查找方便搜索成了大家都想解决的一个问题。

2.解决方法

  首先要明白我需要什么?如果我说我拥有一个根据功能基因名称就可以解析基因功能的程序那不就解决了?
  唉,真有?技术实现:selenuuim爬虫框架实现自动化爬取genecard网站就搞定!

3.成果展示

   3.1 假定输入基因列表在这里插入图片描述
  3.2 结果文件
在这里插入图片描述

3.talk is cheap,show you code.

  说来惭愧实现此部分代码效果仅仅10几行python代码便可以搞定,但是看你数据量,如果真的需要查找基因居多,就不要傻傻等待了,计算机人最玩不起的就是等待。直接上多线程就行,但是由于网站性能问题,多线程可能会出现大家都不想看到的爬坏别人网站。此部分就不教了,若是真有需求。嘻嘻嘻,找我我告诉你怎么实现

def search(gene):
    from selenium import webdriver
    from selenium.webdriver.common.keys import Keys
    from selenium.webdriver.common.by import By
    from selenium.webdriver.common.action_chains import ActionChains
    driver = webdriver.Chrome()
    web = driver.get('https://www.genecards.org/cgi-bin/carddisp.pl?gene='+gene)
    gene_function= driver.find_element('xpath','//section[2]/div[1]/ul/li/p')
    # for item in gene_function:
    print(gene+':'+gene_function.text)
    driver.quit()
if __name__== '__main__':
    fp = open("gene_list",mode="r",encoding="utf-8")
    genes = fp.read().splitlines()
    for gene in genes:
        # print(gene)
        search(gene)
        




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值