用Python写爬虫之爬代理篇--
第二节使用requests访问网站并拿数据
第二部分:
2.1 任务描述
从拟爬的网站拿数据
2.2 具体步骤
第一步:
import requests #导入requests
将拟爬的网站(就是前文说到的免费代理网站)的网址定义为
url = 'https://xxx.com/cn/free-proxies/asia/china/#:~:text=%E5%85%8D%E8%B4%B9%E4%B8%AD%E5%9B%BD%E4%BB%A3%E7%90%86.%20%E6%B5%8F%E8%A7%88'
提供一个headers
headers = {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Accept-Language": "zh-CN,zh;q=0.9",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:130.0) Gecko/20100101 Firefox/129.0"
}
这个headers的作用就是迷惑对方服务器,让对方网站服务器认为你是浏览器访问的正常用户,这是一种反反爬手段。
反爬是让网站服务器识别出正常用户和程序,反反爬是迷惑网站服务器,让网站服务器认为你是正常的浏览器用户。
#请求数据
使用
response = requests.get(url, headers=headers)
来请求数据,要注意的是,有时候你可能请求不到数据,那就需要用
print(response.status_code)
来看看到底是什么样的状态码 再灵活处理
顺利的话
这时候你可以使用
print(response.text)
来看看你获取到的都是些什么吧。
有没有包含自己想要的数据。
像我这边就已经拿到了自己想要的数据。
要注意的是有时候拿到的数据是json格式,那个我后面再另开一篇单独说。