![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 83
风夜阑竹
这个作者很懒,什么都没留下…
展开
-
python实战-网站扫码登录流程全解析
在前文中,我们讲解了企业内网中常用的CAS登陆流程,并给出了用python实现的案例。然而,在互联网环境下,相对更方便、快捷、灵活的扫码登录方式才是主流。本文中,我们就详细来讲解一下扫码登陆的流程,并给出一个实际的案例来加深理解。在前文中,我们讲解了企业内网中常用的CAS登陆流程,并给出了用python实现的案例。然而,在互联网环境下,相对更方便、快捷、灵活的扫码登录方式才是主流。本文中,我们就详细来讲解一下扫码登陆的流程,并给出一个实际的案例来加深理解。原理分析扫码登陆的实现上,各家的细节不尽相同原创 2021-02-28 18:45:11 · 3382 阅读 · 1 评论 -
python实战-实现内网CAS统一认证登录
CAS(Central Authentication Service)集中式认证服务是一种广泛应用的单点登录协议,特别是在校园网和企业内网,它允许用户只需向认证服务器提供一次凭证,即可以访问多个应用系统。这样用户就无需在登陆应用系统时进行重复认证,而且这些应用系统也无法获得密码等敏感信息。在前文中,我们学习了用Scrapy框架爬取数据,其中一种场景就是登录后爬取数据。那篇文章仅对登录做了一个简单说明,本文我们就通过一个实例一步步教你怎么用python实现CAS认证登录。登录完成后,爬取数据也就水到渠成了原创 2021-02-28 11:08:25 · 6195 阅读 · 5 评论 -
Scrapy入门-爬取需要登录后才能访问的数据
本篇是Scrapy入门系列第四篇,建议读者依顺序循序渐进阅读,有任何疑问可以在评论区留言。另外,您的支持是我坚持更新的最大动力,右上角点关注给个鼓励吧。前面几篇文章抓取的均是公开的数据,即没有控制访问权限即可浏览的数据。但还是存在一些网站(比如教学管理系统、内部论坛等),它会首先要求你登录,然后才能访问到后续的内容。这种情况下,就要首先解决登录授信的问题。在开始编码实现前,我们先了解下登录授信的原理。CookieCookie,引用百度百科的定义“是某些网站为了辨别用户身份,进行Session跟踪原创 2021-02-28 10:46:40 · 2932 阅读 · 2 评论 -
Scrapy入门-模拟网络发包翻页爬取数据
在前文 Scrapy入门-翻页爬取及抓取链接页内容 中,我们了解了如何利用Scrapy框架进行翻页数据的爬取。当时,我们是用XPATH去识别“下一页”这个关键元素,访问其href属性中注明的下一页的链接地址,如此循环,最终得到了每一页的数据。然而,这种方案存在一个限制,即网页的“下一页”这个元素的属性中,必须给出下一页的链接。如下图的网页中,下一页的href属性就不是一个真实的链接地址,它表示点击下一页时,程序时通过执行一段JS代码来获取下一页的数据。本文就将通过一个实例手把手教大家如何翻页抓取这类网页原创 2021-02-27 11:57:33 · 527 阅读 · 0 评论 -
Scrapy入门-翻页爬取及抓取链接页内容
爬取目标在前文《scrapy入门-环境安装及demo运行》中,我们了解了如何利用Scrapy框架进行单一网页的数据抓取。然而,很多场景下,想要抓取的数据比较多,会分好几页展示。一种常见的形式是,网站有一个索引页,索引页中包含许多列表项,同时有分页系统。点击索引页中的列表项,跳转到列表项对应的详情页中。本文中,我们将以自如租房网页的抓取为例,介绍如何实现翻页爬取1-50页的租房列表爬取和每个房源链接详情页内容数据的爬取。CrawlSpiderScrapy提供了一个CrawlSpider原创 2021-02-27 11:40:37 · 3048 阅读 · 4 评论 -
Scrapy入门-环境安装及demo运行
运行环境:win10、python3.6.5、VSCodePython环境的安装本文不再赘述Scrapy安装下面通过pip命令安装scrapy环境。在VScode上新建一个终端,终端上键入命令“pip install scrapy”,pip会自动收集依赖的库信息,并依次安装笔者在运行过程中遇到了两个问题,一个是编码问题,可以通过chcp命令改变终端的编码来临时解决。一个是缺少openssl的头文件,可以通过执行“pip install pyopenssl”来解决,安装openssl后,重新执原创 2021-02-27 10:51:48 · 336 阅读 · 0 评论