自学python也有2年了(断断续续的,不是一直学习的那种),所以一直没有学精,时间长了把已经学会的也忘记了🤣,用到的时候还要重新去查资料,很不方便还耽误时间。在这里记录一下已学过一些技能,后期用的时候方便查找,不用再去网上找大量资料再去筛选有用的信息了,同时也希望给新入门的同学一些思路,共同学习,共同成长。
我是一个纯小白学过来的,在这里建议新手要先把基础打扎实,python的关键词很少,入门很简单,但是想要深入还是要去用心去研究的。同时还要有耐心,因为有些资料在查询的时候,网上给的答案很杂,你需要自己去筛选有用的信息,没有耐心是不行的,有时候为了弄明白一个功能如何实现,我可能要查找几个小时的资料并自己测试可行性,这是很费时间的。当然,你学会了以后对自己的好处也是很大的,下次再有类似的应用就简单的多了,可以举一反三的去实现。
关于爬虫,因为工作需要,我需要爬取公司的案件数据,并把数据整合起来保存成表格。因为我有一点python的底子,熟悉工作流程之后就开始着手写自己需要的功能,去把一些固定的、重复的工作交给系统来做。
因为这篇只写一爬虫的内容,就不去详细写其它的内容了。
首先要爬取公司的网站来获取案件数据(网址是我公司的系统网址,没有用户和密码是登录不上去的,这里只是做个展示,有需要的同学可以找其它的网站爬取内容),我用的requests来爬取(本来想实现模拟登录来着,一直没有研究明白,就略过了,每过一段时间需要自己复制cooking来保证登录成功)。
首先要找到所需要的网址和headers信息:按F12打开开发人员工具,右边会出现一个窗口,如下:
点击网络(Network)-> XHR -> 名称(Name)那找找内容,每个网站不一样,要自己去筛选一下。在常规里找到请求的网址,在第三个请求标头里找到所需要的headers信息(红框里是身份标识,也就是cooking):
找到这两个信息之后就可以开始了,先把网址URL和headers(headers的作用是用来模拟浏览器信息的,要不会被反爬)保存上
url = 'http://api.smart-insight-service.com:40423/case_medical?a=paginate&_=1658047475149'
headers = {