1,爬虫概述
- 什么是爬虫
-通过编写代码模拟用户去访问网站,在网站中抓取数据。
2,Requests模块的基本上使用
- requests模块作用:模拟浏览器发送请求
- 环境安装:pip install requests
实战1:爬取百度首页数据
#1,requests.get(url,[headers],[params],[proxies]) 向指点网站发送get请求数据
#- url:网址,必须参数
#- headers:请求头,[可选参数]
#- params:请求网址需要携带的参数,[可选参数]
#-proxies:代理ip,[可选参数]
#2,实战
#-爬取百度首页数据
#- 导入requests模块
import requests
url = "https://www.baidu.com"
#- 发送请求
response = requests.get(url = url)
#修改响应数据的编码格式,否则会乱码
response.encoding = 'utf-8'
#.text属性 字符形式返回响应数据
print(response.text)
实战2:UA伪装
- UA伪装向网址发送请求
-模拟指定浏览器向服务器发送请求- UA伪装的实现
-定义一个字典
-在字典中进行相关请求头的伪装
-将该字典作用到get方法的headers参数中即可
import requests
url = "https://www.baidu.com/s?&wd=淘宝"
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}
response = requests.get(url=url,headers=headers)#UA伪装
response.encoding = 'utf-8'
print(response.text)
实战3:动态化请求参数
- 步骤:
-定义字典
-字典中的键值对就是url携带的参数
-将字典作用到get方法中的params参数中
import requests
url='https://www.baidu.com/s'
#UA
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
}
wd = input('输入需要百度的值')
param = {
'wd':wd
}
response = requests.get(url = url,headers=headers,params=param)
response.encoding = 'utf-8'
print(response.text)