爬虫获取数据总体上可以分为两步:
- 获取网页
主要用到 requests
(发送网页请求) selenium
(使用浏览器访问网页)
- 解析网页
主要用到 BeautifulSoup
下面将简单介绍上面三个库的使用
requests 从URL中得到网页
使用 pip install requests
安装
使用 import requests
引用
快速使用
import requests
r = requests.get('http://zoollcar.top') # 发送请求到url
print(r.text) # 输出获取到的页面文本
requests 的7个主要方法
使用格式 requests.ge(url, params=None, **kwargs)
方法 | 功能 |
---|---|
requests.request() |
所有其他方法的基础方法 |
requests.get() |
获得URL的内容 |
requests.head() |
请求获取URL位置资源的响应消息报告,即获得该资源的头部信息 |
requests.post() |
请求向URL位置的资源后附加新的数据 |
requests.put() |
请求向URL位置存储一个资源,覆盖原URL位置的资源 |
requests.patch() |
请求局部更新URL位置的资源,即改变该处资源的部分内容 |
requests.delete() |
请求删除URL位置存储的资源 |
可选参数 **kwargs
参数 | 说明 |
---|---|
params | 字典或字节序列,作为参数增加到url中 |
data | 字典、字节序列或文件对象,作为Request的内容 |
json | JSON格式的数据,作为Request的内容 |
headers | 字典,HTTP定制头 |