爬虫：爬取MDPI杂志中国作者单位和邮箱

生信探索

于 2024-08-27 11:00:18 发布

阅读量1k

点赞数 4

文章标签：后端

本文链接：https://blog.csdn.net/weixin_44493991/article/details/141597520

版权

Python爬虫，简单来说，就是使用Python编程语言编写的一种自动化获取网页内容的程序。它们能够模拟人类浏览网页的行为，如访问网页、解析网页内容、甚至填写表单和点击链接等，从而帮助我们从互联网上大量收集和处理数据。Python爬虫因其强大的库支持（如requests、BeautifulSoup、Scrapy等）而变得非常流行。

Python爬虫的基本组成部分

发送请求：这是爬虫的第一步，通常使用 requests库来向目标网站发送HTTP请求，获取网页的HTML内容。
解析内容：获取到HTML后，需要从中提取有用的数据。常用的解析库有 BeautifulSoup和 lxml，它们可以帮助你解析HTML或XML文档，定位到所需的数据部分。
数据存储：提取到的数据可以根据需求存储为各种格式，如CSV、JSON或者直接存入数据库（如MySQL、MongoDB）中。
高级功能：对于复杂的网站，可能还需要处理JavaScript渲染的内容、管理cookies、处理登录认证、设置延时避免被封禁等高级功能，这时可能需要使用Selenium、Scrapy等工具。

Python爬虫的一些关键库

requests: 用于发送网络请求。
BeautifulSoup: HTML和XML的解析库，方便地从网页中提取数据。
lxml: 另一个强大的XML和HTML解析库，速度更快，功能更丰富。
Scrapy: 一个更高级的爬虫框架，适合大规模数据抓取项目，提供了完整的解决方案，包括调度、解析、存储等。
Selenium: 用于模拟浏览器行为，处理JavaScript渲染的页面。
Pandas: 数据分析库，常用于数据清洗和格式化。

注意事项

遵守法律法规：确保你的爬虫活动不违反相关法律法规，尊重网站的 robots.txt规则。
尊重网站资源：合理控制爬取频率，避免给网站服务器带来过大压力。
隐私和版权：不要非法收集和使用个人信息，尊重数据版权。

Python爬虫是数据分析、机器学习、市场研究等领域的重要工具，但使用时应确保行为合法合规，尊重网络礼仪。

前边的是理论知识，下边内容就是真正干货了

因为MDPI网站对作者邮箱是保护的，直接使用requests得到网页内容，显示的邮箱信息是

response = requests.get('https://www.mdpi.com/1422-0067/25/5/3072', headers=headers)
soup.find('a',class_="toEncode emailCaptcha visibility-hidden")

<a class="toEncode emailCaptcha visibility-hidden" data-author-id="12423507" href="/cdn-cgi/l/email-protection#5c733f3238713f3b3573307339313d3530712c2e3328393f283533327f6c6c6c3e6a6f6d6a6c6c6c3e6d6a69686969696e696c6e6f696e6969696c68386c6c6c3f6c39"><sup><i class="fa fa-envelope-o"></i></sup></a>