python自学笔记(一)简单爬虫篇

        自学python也有2年了(断断续续的,不是一直学习的那种),所以一直没有学精,时间长了把已经学会的也忘记了🤣,用到的时候还要重新去查资料,很不方便还耽误时间。在这里记录一下已学过一些技能,后期用的时候方便查找,不用再去网上找大量资料再去筛选有用的信息了,同时也希望给新入门的同学一些思路,共同学习,共同成长。

        我是一个纯小白学过来的,在这里建议新手要先把基础打扎实,python的关键词很少,入门很简单,但是想要深入还是要去用心去研究的。同时还要有耐心,因为有些资料在查询的时候,网上给的答案很杂,你需要自己去筛选有用的信息,没有耐心是不行的,有时候为了弄明白一个功能如何实现,我可能要查找几个小时的资料并自己测试可行性,这是很费时间的。当然,你学会了以后对自己的好处也是很大的,下次再有类似的应用就简单的多了,可以举一反三的去实现。

        关于爬虫,因为工作需要,我需要爬取公司的案件数据,并把数据整合起来保存成表格。因为我有一点python的底子,熟悉工作流程之后就开始着手写自己需要的功能,去把一些固定的、重复的工作交给系统来做。

        因为这篇只写一爬虫的内容,就不去详细写其它的内容了。

        首先要爬取公司的网站来获取案件数据(网址是我公司的系统网址,没有用户和密码是登录不上去的,这里只是做个展示,有需要的同学可以找其它的网站爬取内容),我用的requests来爬取(本来想实现模拟登录来着,一直没有研究明白,就略过了,每过一段时间需要自己复制cooking来保证登录成功)。

        首先要找到所需要的网址和headers信息:按F12打开开发人员工具,右边会出现一个窗口,如下:

 点击网络(Network)-> XHR -> 名称(Name)那找找内容,每个网站不一样,要自己去筛选一下。在常规里找到请求的网址,在第三个请求标头里找到所需要的headers信息(红框里是身份标识,也就是cooking):

 

 找到这两个信息之后就可以开始了,先把网址URL和headers(headers的作用是用来模拟浏览器信息的,要不会被反爬)保存上

url = 'http://api.smart-insight-service.com:40423/case_medical?a=paginate&_=1658047475149'
headers = {
  
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值