Python爬虫requests的基本使用

1,爬虫概述

  • 什么是爬虫
    -通过编写代码模拟用户去访问网站,在网站中抓取数据。

2,Requests模块的基本上使用

  • requests模块作用:模拟浏览器发送请求
  • 环境安装:pip install requests

实战1:爬取百度首页数据

#1,requests.get(url,[headers],[params],[proxies]) 向指点网站发送get请求数据
	#- url:网址,必须参数
	#- headers:请求头,[可选参数]
	#- params:请求网址需要携带的参数,[可选参数]
	#-proxies:代理ip,[可选参数]

#2,实战
	#-爬取百度首页数据
	#- 导入requests模块
	import requests
	url = "https://www.baidu.com"
	#- 发送请求
	response = requests.get(url = url)
	#修改响应数据的编码格式,否则会乱码
	response.encoding = 'utf-8'
	#.text属性 字符形式返回响应数据
	print(response.text) 

实战2:UA伪装

  • UA伪装向网址发送请求
    -模拟指定浏览器向服务器发送请求
  • UA伪装的实现
    -定义一个字典
    -在字典中进行相关请求头的伪装
    -将该字典作用到get方法的headers参数中即可
	import requests
	url = "https://www.baidu.com/s?&wd=淘宝"
	headers={
 		'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
 	}
	response = requests.get(url=url,headers=headers)#UA伪装
	response.encoding = 'utf-8'
	print(response.text)

实战3:动态化请求参数

  • 步骤:
    -定义字典
    -字典中的键值对就是url携带的参数
    -将字典作用到get方法中的params参数中
	import requests
	url='https://www.baidu.com/s'
	#UA
	headers={
 		'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'
 	}
 	wd = input('输入需要百度的值')
 	param = {
 		'wd':wd
 	}
 	response = requests.get(url = url,headers=headers,params=param)
 	response.encoding = 'utf-8'
 	print(response.text)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值