python简易网页采集器

Z.xh

于 2023-11-26 16:43:26 发布

阅读量71

点赞数 1

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_51575130/article/details/134629640

版权

具体步骤：

1.指定url网址

2.发送请求，访问网址

3.获取响应数据

4.持久化存储，保存在数据库或本地

#UA伪装
#UA:User-Agent(请求载体的身份标题 )
import requests
if __name__ == '__main__':
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
    }
    #实现简易网页采集器
    url='https://www.sogou.com/web'  #处理url携带的参数，封装到字典
    kw = input('enter a word:') #输入对应的搜索词
    param = {
        'query':kw
    }
    response = requests.get(url=url,params=param,headers=headers) #对指定的url发起的请求是携带参数的，请求过程中处理
    page_text = response.text
    fileName = kw+'.html'
    with open(fileName,'w',encoding='utf-8')as fp:
        fp.write(page_text)
    print(fileName,'保存成功！')

运行后命令行输入想要采集的搜索结果，文件保存在本地

选择浏览器打开即可