欢迎关注”生信修炼手册”!
编写一段程序,从网站上抓取特定资源,比如自动化的下载kegg colorful pathway的通路图,这样的程序就是一个基础的网络爬虫了。在python中,通过内置模块urlib, 可以实现常规的网页抓取任务。
该内置模块包含以下4个子模块
urllib.request
urllib.error
urllib.parser
urllib.robotparser
其中urllib.request 子模块是最常用的,用来从网站获取源代码。基本用法如下
import urllib.request
f = urllib.request.urlopen('https://www.python.org/')
f.read().decode('utf-8')
该用法适用于处理简单的GET请求的网站资源,除了GET外,还要一种POST提交方式,需要从表单中获取对应数据。对于post请求,urllib也可以轻松实现,用法如下
import urllib.parse
import urllib.request
url = 'https://www.test.com'
# 表单数据用字典来存储
params = {
'gene':'tp53',
'pages':'10'
}
# 使用parse对url进行正确的编码
data = bytes(urllib.parse.urlencode(params), encoding='utf8')
response = urllib.request.urlopen(url, data=data)
response.read().decode('utf-8')
urllib还有更加高级的玩法,举例如下
1. 模拟浏览器
火狐,谷歌等网页浏览器可以与网站交互,显示对应的网页,以谷歌浏览器为例,通过快捷键F12的调试模式,可以看到浏览器在发送HTTP请求时的头文件,截图如下
其中,红框表示的部分就是浏览器的标识,拷贝其中的信息,就可以将程序伪装成浏览器来与网站进行交互,用法如下
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
}
request = urllib.req