python爬虫——简易网页采集器学习笔记

最新推荐文章于 2024-05-13 22:03:50 发布

柿子镭

最新推荐文章于 2024-05-13 22:03:50 发布

阅读量463

点赞数 1

分类专栏： python爬虫文章标签：爬虫 python UA

本文链接：https://blog.csdn.net/weixin_45890771/article/details/122685826

版权

python爬虫专栏收录该内容

22 篇文章 5 订阅

订阅专栏

UA
1、UA ：User-Agent(请求载体的身份标识)
2、UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求，但是如果检测到请求的载体身份标识不是基于某一款浏览器，则表示该请求为不正常的请求（爬虫），则服务器端很可能会拒绝该请求
3、UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器

# 网页采集器

import requests
# UA ：User-Agent(请求载体的身份标识)
# UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求，
#         但是如果检测到请求的载体身份标识不是基于某一款浏览器，则表示该请求为不正常的请求（爬虫），则服务器端很可能会拒绝该请求
# UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器
if __name__ == '__main__':
   # UA伪装：将对应的请求载体身份标识伪装成某一款浏览器
   headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69'
   }

   # 指定url
   url = 'https://www.sogou.com/web'

   # 处理url携带的参数: 封装到字典中
   kw = input('enter a word')
   param = {
      'query': kw
   }

   # 发送请求（携带参数）
   response = requests.get(url=url,params=param,headers=headers)
   # 获取响应数据
   page_text = response.text
   fileName = kw + '.html'
   print(page_text)
   # 持久化存储
   with open(fileName, 'w', encoding='utf-8') as fp:
      fp.write(page_text)
   print(fileName,'保存成功。。。')

成功：

柿子镭

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python爬虫——简易网页采集器学习笔记

UA1、UA ：User-Agent(请求载体的身份标识)2、UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求，但是如果检测到请求的载体身份标识不是基于某一款浏览器，则表示该请求为不正常的请求（爬虫），则服务器端很可能会拒绝该请求3、UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器# 网页采集器import requests# UA ：User-Agent(请求载体的身份标识)# UA检测：门户网站的服
复制链接

扫一扫