简易网页采集器

最新推荐文章于 2023-11-26 16:43:26 发布

Z0o1010

最新推荐文章于 2023-11-26 16:43:26 发布

阅读量109

点赞数

分类专栏： Spider_Practise

本文链接：https://blog.csdn.net/weixin_48732879/article/details/109199847

版权

Spider_Practise 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

import requests

# UA 检测：门户网站的服务器会检测对应请求的载体身份标识，若检测到请求的载体身份标识为某款浏览器，则说明为正常请求
#         反之，则为爬虫，服务器段可能会拒绝此次请求
# UA 伪装：让爬虫对应的请求载体身份标识伪装成某款浏览器

if __name__ == '__main__':
    # UA 伪装：将对应的 User-Agent 封装到字典中
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36"
    }
    url = "https://www.baidu.com/s?"
    # 处理 url 所携带的参数
    kw = input("输入参数：")
    param = {
        "word": kw
    }
    # 对指定的 url 发起的请求对应的 url 是携带参数的，并且请求过程中处理了参数
    response = requests.get(url=url, params=param, headers=headers)

    page_text = response.text

    with open(kw+".html", "w", encoding="utf-8") as fp:
        fp.write(page_text)
        fp.close()

    print("Over")

Z0o1010

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简易网页采集器

import requests# UA 检测：门户网站的服务器会检测对应请求的载体身份标识，若检测到请求的载体身份标识为某款浏览器，则说明为正常请求# 反之，则为爬虫，服务器段可能会拒绝此次请求# UA 伪装：让爬虫对应的请求载体身份标识伪装成某款浏览器if __name__ == '__main__': # UA 伪装：将对应的 User-Agent 封装到字典中 headers = { "User-Agent": "Mozilla/5.0 (W
复制链接

扫一扫

专栏目录