python的requests爬取Uniprot中蛋白序列和N-糖基化位点

1. 目的:

从Uniprot中下载某个蛋白 (以 P05067 为例) 对应的N-糖基化位点以及该蛋白的序列。

2. python3脚本:

import requests
import re
from requests.adapters import HTTPAdapter
#import time


class Get_Nglyco_Seq(object):
    def __init__(self,uniprot_id):
        self.uniprot_id = uniprot_id

    def __parse_xml_page(self,content_xml): ## 正则表达式匹配xml中N-糖基化和序列对应的部分
        patt_gly = re.compile(
            '\s+<feature type="glycosylation site" description="N-linked.+'
            '\s+<location>'
            '\s+<position position="(\d+)"/>'
            '\s+</location>',
            re.MULTILINE)
        patt_seq = re.compile('<sequence length[\w\s="-]+>([A-Z]+)</sequence>',re.MULTILINE)
        match_gly = patt_gly.findall(content_xml)
        match_seq = patt_seq.findall(content_xml)
        return match_gly, match_seq

    def get_xml_page(self): ## 获取uniprot_id对应的xml网页
        s = requests.Session()
        s.mount('https://', HTTPAdapter(max_retries=2))
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
        response = s.get('https://rest.uniprot.org/uniprotkb/'+self.uniprot_id+'.xml',headers=headers)
        content_xml = response.text
        glyco_pos, sequ = self.__parse_xml_page(content_xml=content_xml)
        return glyco_pos, sequ


def main(uniprot_id):
    try:
        Nglyco_Seq = Get_Nglyco_Seq(uniprot_id)
        glyco_pos, sequ = Nglyco_Seq.get_xml_page()
        if len(glyco_pos) == 0:
            print('Uniprot ID: %s\nN-Glyco Pos: %s\nSequence: %s' % (uniprot_id,'No',sequ[0]))
        else:
            print('Uniprot ID: %s\nN-Glyco Pos: %s\nSequence: %s' % (uniprot_id,glyco_pos,sequ[0]))
    except Exception as e:
        print('Error: %s\t%s' % (uniprot_id,e))
    #time.sleep(random.randint(1,3))
    

if __name__ == '__main__':
	""" 以蛋白 P05067 为例,获取该蛋白的 N-糖基化位点和序列"""
	main('P05067')

3. 测试结果:

P05067的N-糖基化位点和序列结果如下:

Uniprot ID: P05067
N-Glyco Pos: ['542', '571']
Sequence: MLPGLALLLLAAWTARALEVPTDGNAGLLAEPQIAMFCGRLNMHMNVQNGKWDSDPSGTKTCIDTKEGILQYCQEVYPELQITNVVEANQPVTIQNWCKRGRKQCKTHPHFVIPYRCLVGEFVSDALLVPDKCKFLHQERMDVCETHLHWHTVAKETCSEKSTNLHDYGMLLPCGIDKFRGVEFVCCPLAEESDNVDSADAEEDDSDVWWGGADTDYADGSEDKVVEVAEEEEVAEVEEEEADDDEDDEDGDEVEEEAEEPYEEATERTTSIATTTTTTTESVEEVVREVCSEQAETGPCRAMISRWYFDVTEGKCAPFFYGGCGGNRNNFDTEEYCMAVCGSAMSQSLLKTTQEPLARDPVKLPTTAASTPDAVDKYLETPGDENEHAHFQKAKERLEAKHRERMSQVMREWEEAERQAKNLPKADKKAVIQHFQEKVESLEQEAANERQQLVETHMARVEAMLNDRRRLALENYITALQAVPPRPRHVFNMLKKYVRAEQKDRQHTLKHFEHVRMVDPKKAAQIRSQVMTHLRVIYERMNQSLSLLYNVPAVAEEIQDEVDELLQKEQNYSDDVLANMISEPRISYGNDALMPSLTETKTTVELLPVNGEFSLDDLQPWHSFGADSVPANTENEVEPVDARPAADRGLTTRPGSGLTNIKTEEISEVKMDAEFRHDSGYEVHHQKLVFFAEDVGSNKGAIIGLMVGGVVIATVIVITLVMLKKKQYTSIHHGVVEVDAAVTPEERHLSKMQQNGYENPTYKFFEQMQN
### 关于面包板电源模块 MB102 的 USB 供电规格及兼容性 #### 1. **MB102 基本功能** 面包板电源模块 MB102 是一种常见的实验工具,主要用于为基于面包板的小型电子项目提供稳定的电压输出。它通常具有两路独立的稳压输出:一路为 5V 另一路可调电压(一般范围为 3V 至 12V)。这种设计使得它可以满足多种芯片传感器的不同工作电压需求。 #### 2. **USB 供电方式** MB102 支持通过 USB 接口供电,输入电压通常是标准的 5V DC[^1]。由于其内部集成了 LM7805 稳压器以及可调节电位器控制的直流-直流变换电路,因此即使输入来自电脑或其他低功率 USB 设备,也能稳定地向负载供应电力。不过需要注意的是,如果项目的功耗较高,则可能超出某些 USB 端口的最大电流能力(一般是 500mA),从而引起不稳定现象或者保护机制启动断开连接的情况发生。 #### 3. **兼容性分析** 该型号广泛适用于各种微控制器单元 (MCU),特别是那些像 Wemos D1 R32 这样可以通过杜邦线轻松接入并共享相同逻辑级别的系统[^2]。另外,在提到 Arduino Uno 板时也表明了良好的互操作性,因为两者均采用相似的标准接口定义与电气特性参数设置[^4]: - 对于需要 3.3V 工作环境下的组件来说,只需调整好对应跳线帽位置即可实现精准匹配; - 当涉及到更多外围扩展应用场合下,例如带有多重模拟信号采集任务的情形里,利用 MB102 提供干净无干扰的基础能源供给就显得尤为重要了[^3]。 综上所述,对于打算构建以单片机为核心的原型验证平台而言,选用具备良好声誉记录且易于获取配件支持服务链路上下游资源丰富的品牌产品——如这里讨论过的这款特定类型的配电装置不失为明智之举之一。 ```python # 示例 Python 代码展示如何检测硬件状态 import machine pin = machine.Pin(2, machine.Pin.IN) if pin.value() == 1: print("Power supply is stable.") else: print("Check your connections and power source.") ```
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值