requests模块
概念:Python中原生的一款基于网络请求的模块。
特点:功能强大、简单便捷、效率极高。
作用:模拟浏览器发请求。
使用流程:
①指定url(输入网址)
②发起请求(搜索网址)
③获取响应数据(搜索后出现的网页源码数据)
④持久化存储(保存从网页上获取到的数据)
环境安装:
在本地终端(Ctrl+R后输入cmd)中输入 pip install requests 下载安装
或
在pycharm中点击 file→settings
找到Python Interpreter 后点击 + 号搜索 requests 后点击 Install Package 下载安装
实战编码(例):
①制定需求:爬取搜狗首页的页面数据
②编码:
Ⅰ.创建Python File(RequestsTest)
Ⅱ.编写代码:
import requests
if __name__ == "__main__":
# 1.指定url
url = 'https://www.sogou.com/'
# 2.发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)
# 3.获取响应数据
# .text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
# 持久化存储
# 将爬取到的数据存储在当前目录下
with open('./sogou.html', 'w', encoding='utf-8') as fp:
fp.write(page_text)
print('爬取结束并完成存储!')
Ⅲ.爬取结果:
已存储到当前目录下。
Ⅳ.验证:(查看搜狗页面源码)
在页面中右击鼠标,点击查看页面源码
实战巩固:
需求:
1.爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
2.破解百度翻译
3.爬取豆瓣电影分类排行榜 https://movie.douban.com/ 中的电影详情数据
需求1:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)
①分析
在搜狗搜索中随便搜索一个数据(例:爬虫)
②代码:
# UA:User-Agent(请求载体的身份标识)
# UA检测:门户网站的服务器会检测对应请求的载体身份标识,若检测到请求的载体身份标识为某一款浏览器,说明该请求是正常的请求。
# 但如果检测到请求的载体身份标识不是基于某一款浏览器,则表示该请求是不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求.
# 为了能够爬取成功需要进行UA伪装
# UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器
import requests
if __name__ == "__main__":
# UA伪装:将对应的User-Agent封装到一个字典中
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/92.0.4515.131 Safari/537.36'}
# 指定url
# 原网址为'https://www.sogou.com/web?query=爬虫&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=2511885&sst0=1629169213951&lkt=2%2C1629169210437%2C1629169211406&sugsuv=1629166684520092&sugtime=1629169213951'
# 分析后发现爬虫后的数据不要也可以得到搜索页面所以指定url为'https://www.sogou.com/web?query=爬虫'
# 为了可以灵活的搜索数据,将url携带的参数进行处理
url = 'https://www.sogou.com/web'
# 处理url携带的参数:封装到字典中
kw = input('enter a word:')
params = {'query': kw}
# 发起请求
# 对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url=url, params=params, headers=headers)
# 获取响应数据
page_text = response.text
# 持久化存储
# 将爬取到的数据存储在当前目录下
fileName = kw + '.html'
with open(fileName, 'w', encoding='utf-8') as fp:
fp.write(page_text)
print(fileName, '爬取结束并完成存储!')
③结果:
④备注:
关于如何获取浏览器的 User-Agent
右击浏览器点击检查→找到网络(Network)→如果没有东西刷新页面,如果有点击Name中的一个→找到右侧的Headers
需求2:破解百度翻译
①分析
我们不难发现当我们输入查询的单词后页面进行了刷新并多出了单词解释的这一部分
而这一部分就是我们需要爬取的部分
那么如何获取这一部分呢?
首先右键点击页面,点击检查。
在Network中找到XHR,我们不难在Name下的数据包中找到拥有cat这一变量的数据包
通过观察我们还可以发现:
我们通过浏览器发送的请求是一个post请求(请求中携带了参数)
那么我们如何使用requests模块发送post请求呢?且post请求发送后如何处理其携带的参数?
我们还发现相应的数据是一组json数据
②编写代码:
import requests
import json
if __name__ == "__main__":
# 指定url
post_url = 'https://fanyi.baidu.com/sug'
# 进行UA伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/92.0.4515.131 Safari/537.36'}
# post请求参数处理(同get请求一致)
word = input('enter a word:')
data = {'kw': word}
# 发送请求
response = requests.post(url=post_url, data=data, headers=headers)
# 获取响应数据:json方法返回的是obj(如果确认响应数据是json类型的,才可以使用json())
dic_obj = response.json()
# 持久化存储
fileName = word+'.json'
fp = open(fileName, 'w', encoding='utf-8')
json.dump(dic_obj, fp=fp, ensure_ascii=False)
print(fileName, '爬取结束并存储完成')
③结果:
需求3:爬取豆瓣电影分类排行榜 https://movie.douban.com/ 中的电影详情数据
①分析:
打开网址,点击排行榜,定位某一种类型的电影(例:喜剧)
我们可以发现但滚轮拖到页面最下端时又会出现新的电影数据
查看页面请求类型和返回数据类型
②编写代码:
import requests
import json
if __name__ == "__main__":
# 指定url
url = 'https://movie.douban.com/j/chart/top_list'
# 处理参数
params = {'type': '24',
'interval_id': '100:90',
'action': '',
# 从库中的第几部电影开始去取(从0开始)
'start': '0',
# 一次取出的的电影个数
'limit': '20'}
# UA伪装
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/92.0.4515.131 Safari/537.36'}
# 发送请求
response = requests.get(url=url, params=params, headers=headers)
# 获取响应数据
list_data = response.json()
# 持久化存储
fp = open('./douban.json', 'w', encoding='utf-8')
json.dump(list_data, fp=fp, ensure_ascii=False)
print('爬取结束并存储完成')
③结果: