python爬取InBase网站中的intein序列

计算之道

于 2024-08-20 12:35:20 发布

阅读量154

点赞数 2

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45936544/article/details/141355263

版权

一、爬取

(ML) mrc@mrc-Precision-3660:request$ cat request_intein.py
import requests
from bs4 import BeautifulSoup

# 基础URL
base_url = "https://inbase.ligsciss.com/iwai/InBase/tools.neb.com/inbase/"

# 目标页面
url = base_url + "list_prop.html"

# 获取网页内容
response = requests.get(url)
response.encoding = 'utf-8' # 设置编码
soup = BeautifulSoup(response.text, 'html.parser')

# 获取所有Intein链接
intein_links = soup.find_all('a')

# 存储Intein名称和对应的序列
intein_sequences = {}

for link in intein_links:
    # 检查<a>标签是否有href属性
    if 'href' in link.attrs:
        intein_name = link.text.strip()
        intein_url = base_url + link['href']

        # 获取Intein详细信息页面内容
        intein_response = requests.get(intein_url)
        i

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python爬取InBase网站中的intein序列

获取完整的氨基酸序列，包括多行的处理。# 如果当前已经有未完成的序列，则先写入输出文件。# 更新当前的蛋白质名称，并重置序列。# 获取紧随其后的<font>标签。# 提取序列部分并添加到当前序列中。# 初始化变量来存储当前的蛋白质名称和序列。# 否则，假设它是序列的一部分。# 查找表示氨基酸序列的标签。# 确保最后一个序列也被写入输出文件。# 检查是否是蛋白质名称行。# 输出所有Intein名称和对应的序列。# 存储Intein名称和对应的序列。# 去除行末的换行符。# 定义输入文件和输出文件的路径。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。