用途:本案例主要学习爬虫的爬虫的UA伪装,能够将机器伪装为浏览器操作来获取网页数据
案例:通过爬虫爬取搜狗搜索的搜索功能,并将其结果页面数据持久化储存
前提知识:掌握简单网页的爬取方法
一、常规方法:常规网页的爬取方法是直接通过爬取代码进行界面获取,没有将爬虫进行伪装,常用方法如下,设置一个变量来获取搜索值,并进行搜索,代码如下:
# 需求:爬取搜狗首页的页面数据
import requests # 引入requests包
if __name__ == '__main__': # 指定脚本运行,不可导入其他脚本运行
# 第一步:指定url
url = 'https://www.sogou.com/web'
kw = input("输入搜索信息")
param ={
"query": kw
}
# 对指定的url发起请求对应的url是携带参数的,并且请求过程中处理了参数
# 第二步:发起请求
# get方法会返回一个响应对象
response=requests.get(url=url,params=param)
# 第三步:获取响应数据,text返回的是字符串形式的响应数据
# text返回的是页面对应的源码数据,字符串形式
page_text = response.text
print(page_text)
# 第四步:数据持久化存储,写入文件
# 要设置encoding='utf-8'&#x