python自学笔记（一）简单爬虫篇

最新推荐文章于 2024-05-30 11:43:13 发布

忍之刃

最新推荐文章于 2024-05-30 11:43:13 发布

阅读量532

点赞数 1

分类专栏：爬虫文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/zyn7011/article/details/125832753

版权

自学python也有2年了（断断续续的，不是一直学习的那种），所以一直没有学精，时间长了把已经学会的也忘记了🤣，用到的时候还要重新去查资料，很不方便还耽误时间。在这里记录一下已学过一些技能，后期用的时候方便查找，不用再去网上找大量资料再去筛选有用的信息了，同时也希望给新入门的同学一些思路，共同学习，共同成长。

我是一个纯小白学过来的，在这里建议新手要先把基础打扎实，python的关键词很少，入门很简单，但是想要深入还是要去用心去研究的。同时还要有耐心，因为有些资料在查询的时候，网上给的答案很杂，你需要自己去筛选有用的信息，没有耐心是不行的，有时候为了弄明白一个功能如何实现，我可能要查找几个小时的资料并自己测试可行性，这是很费时间的。当然，你学会了以后对自己的好处也是很大的，下次再有类似的应用就简单的多了，可以举一反三的去实现。

关于爬虫，因为工作需要，我需要爬取公司的案件数据，并把数据整合起来保存成表格。因为我有一点python的底子，熟悉工作流程之后就开始着手写自己需要的功能，去把一些固定的、重复的工作交给系统来做。

因为这篇只写一爬虫的内容，就不去详细写其它的内容了。

首先要爬取公司的网站来获取案件数据（网址是我公司的系统网址，没有用户和密码是登录不上去的，这里只是做个展示，有需要的同学可以找其它的网站爬取内容），我用的requests来爬取（本来想实现模拟登录来着，一直没有研究明白，就略过了，每过一段时间需要自己复制cooking来保证登录成功）。

首先要找到所需要的网址和headers信息：按F12打开开发人员工具，右边会出现一个窗口，如下：

点击网络（Network）-> XHR -> 名称（Name）那找找内容，每个网站不一样，要自己去筛选一下。在常规里找到请求的网址，在第三个请求标头里找到所需要的headers信息（红框里是身份标识，也就是cooking）：

找到这两个信息之后就可以开始了，先把网址URL和headers（headers的作用是用来模拟浏览器信息的，要不会被反爬）保存上

url = 'http://api.smart-insight-service.com:40423/case_medical?a=paginate&_=1658047475149'
headers = {

最低0.47元/天解锁文章

忍之刃

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python自学笔记（一）简单爬虫篇

关于用中文，这是我个人的一个想法，对于英文不好的人，用中文来把一些有关联的地方替换掉，很容易就明白什么意思，有助于理解，不过不建议这么做，同学们还是要按照大佬们的建议，规范的写代码，命名也规范命名。个人感悟学习不是你学习了多少，而是你用上了多少，只有你用上的，才是有用的，所以学python不要想着我把这些都学完再写程序，那样是学习不好的，每天都会有大量的库更新，会有更好的库出现，你永远学不完，把自己能用上的学好就行，不是学的多就好。看，其实爬虫就是这么简单，当然，我要学习的地方还很多。...
复制链接

扫一扫