学习用python爬虫

前提:是、一枚python小白,想学习一些python爬虫的技能,并且这就是第一步,记录并监督自己不断学习,当让如果内容帮助到了你的话,也非常的开心;

今天所学:爬取搜狗浏览器

爬虫主要分为四个步骤:

1.选定你所想爬的网站(使url='...')

2.获取网站中的东西即数据(使requests.get(url,param,kwarg*))

3.将数据内容赋给一个代名字(content)

4.保存内容到一个文件当中(with open (...,'...',...') as fp:)

这样你所爬的网站就是你所看到的所有,是固定死的

为了更加灵活一点,咱们得通过字典的形式来增加变量即创建一个param

这样就可以把静态的变为动态的

再者,网站会对爬虫程序进行反爬,所以咱们得伪装成浏览器的用户身份(user-agent)以免被拦截

这里简单提提怎么查询user-agent,进入需要爬的网站

按Fn+F12--弹出工具栏--打开网络--随你便选取一个项目点击----滑至最下查询复制粘贴

然后进行编写,以下是学习编写的简单代码:

import requests
headers={
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29' //为自己电脑user-agent
    }
url='https://www.sogou.com/web?'//所爬网站
search=input("what do u want to search?")//变量
param={
        'query':search
    }
area = requests.get(url=url,params=param,headers=headers)//赋予名字

content=area.text
fileName=search+'.html'
with open (fileName) as fp//保存数据
        fp.write(content)
        print(" the project overed")

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

26瓶白兰地

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值