Python爬虫
文章平均质量分 95
Python爬虫
白巧克力LIN
愿你能成为自己的英雄,不惧离别,不怕孤单!!!
公众号同名
展开
-
Python爬虫——学习字体反爬获取某招聘信息
网站的反爬措施有很多,例如:js反爬、ip反爬、css反爬、字体反爬、验证码反爬、滑动点击类验证反爬等等,今天我们通过爬取某招聘来实战学习字体反爬。今日网站aHR0cHM6Ly93d3cuc2hpeGlzZW5nLmNvbS8=出于安全原因,我们把网址通过base64编码了,大家可以通过base64解码把网址获取下来。字体反爬字体反爬:一种常见的反爬技术,是网页与前端字体文件配合完成的反爬策略,最早使用字体反爬技术的有58同城、汽车之家等等,现在很多主流的网站或APP也使用字体反爬技术为原创 2021-12-02 17:15:09 · 540 阅读 · 0 评论 -
Python爬虫——js爬取某证信股票行情
最好的挣钱方式是钱生钱,怎样钱生钱呢,钱生钱可以通过投资,例如买股票、基金等方式,有人可能说买股票基金发财,我没这样的命和运气。买股票基金靠的不只有命运和运气,更多靠的是长期的经验和对股票基金数据的分析,今天我们使用scrapy框架来js逆向爬取某证信数据平台的国内指数成分股行情数据。目录网页分析js逆向加密寻找加密参数位置设置断点写js文件调试js文件实战演练scrapy框架爬虫itmes.py文件发送网络请求提取数据保存数据请求头headers原创 2021-11-15 16:42:48 · 557 阅读 · 1 评论 -
Python爬虫——多线程爬取阳光问政
正所谓,民生无小事,今日多关注,今天我们利用多线程来爬取阳光问政,关注一下老百姓需要解决什么问题。线程什么是线程线程是轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位。其生命周期可以分为五个状态——新建、就绪、运行、阻塞、终止,如下图所示: 新建状态:新创建的线程在调用 start() 方法之前,不会得到执行; 就绪状态:新建状态的线程调用 start() 方法后,该线程就转换到就绪状态,当获取到CPU资源就可以执行;原创 2021-11-14 15:48:23 · 1373 阅读 · 3 评论 -
Python爬虫——aiohttp异步协程爬取同程旅行酒店评论
大家好!我是霖heroPython并发编程有三种方式:多线程(Threading)、多进程(Process)、协程(Coroutine),使用并发编程会大大提高程序的效率,今天我们将学习如何选择多线程、多进程和协程来提高代码的效率、如何使用异步协程,并用协程来获取同程旅行酒店的评论数据。目录并发编程多线程(Threading)多进程(Process)协程(Coroutine)并发编程对比异步协程asyncio模块aiohttp库aiohttp基本使用post请原创 2021-11-12 17:02:39 · 1587 阅读 · 2 评论 -
Python爬虫——使用线程池爬取同程旅行景点数据并做数据可视化
大家好!我是霖hero正所谓:有朋自远方来,不亦乐乎?有朋友来找我们玩,是一件很快乐的事情,那么我们要尽地主之谊,好好带朋友去玩耍!那么问题来了,什么时候去哪里玩最好呢,哪里玩的地方最多呢?今天将手把手教你使用线程池爬取同程旅行的景点信息及评论数据并作词云、数据可视化!!!带你了解各个城市的游玩景点信息。在开始爬取数据之前,我们首先来了解一下线程。线程进程:进程是代码在数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位。线程:是轻量级的进程,是程序执行的最小单元,是进程的一原创 2021-10-20 15:32:57 · 5221 阅读 · 5 评论 -
Python爬虫——教你下载b站指定视频
大家好!我是霖hero不知道大家有没有下载自己喜欢的视频的习惯,反正我就有。众所周知,b站是一个很好的学习知识平台,我们可以在b站学习各种各样的知识,但唯一的不足是b站没有提供下载视频的功能,遇到喜欢的只能点赞、关注、收藏,那么我们想下载指定的视频该怎么办呢,今天将教你下载b站指定视频!!!目录爬前准备FFmpeg第三方工具简介FFmpeg第三方工具安装与配置下载包和可执行文件设置环境变量网页分析实战演练发送网络请求提取视频名及获取视频音频URL下载视频音频原创 2021-10-01 00:11:30 · 2173 阅读 · 1 评论 -
Python爬虫——教你js逆向爬取网易云评论
大家好!我是霖hero正所谓条条道路通罗马,上次我们使用了Selenium自动化工具来爬取网易云的音乐评论,Selenium自动化工具可以驱动浏览器执行特定的动作,获得浏览器当前呈现的页面的源代码,做到可见即可爬,但需要等网页完全加载完,也就是JavaScript完全渲染出来才可以获取到当前的网页源代码,这样的爬取效率太低了、爬取速度太慢了。追求完美、追求高效率的我们,怎么会容忍效率低下呢?所以我们今天利用Scrapy框架加js逆向来爬取网易云评论,做效率最高的人!!!目录js逆向常见的原创 2021-09-28 09:38:52 · 2232 阅读 · 3 评论 -
Python爬虫——Scrapy通用爬虫
大家好,我是霖hero除了钱,大家还比较喜欢什么?当然是全能、万能和通用的人或事物啦,例如:全能、什么都会的员工、万能钥匙、通用爬虫等等。今天我们学习Scrapy通用爬虫,利用Scrapy通用爬虫来获取美食杰网站。Scrapy通用爬虫创建Scrapy项目Scrapy爬虫和Scrapy通用爬虫都是通过以下执行命令来创建Scrapy项目,没什么不同,命令如下所示:Scrapy startproject Scrapy项目名Spider爬虫模板在创建spider爬虫前,我们先看看有什么原创 2021-09-09 19:23:39 · 2018 阅读 · 6 评论 -
Python爬虫——教你用Scrapy框架爬取小说
大家好,我是霖hero相信学Python爬虫的小伙伴听说过Scrapy框架,也用过Scrapy框架,正所谓一时看小说一时爽,一直看小说一直爽,今天我们边学习Scrapy框架边爬取整部小说,让大家在不知不觉的学习过程中使用Scrapy框架完成整部小说的爬取。首先我们简单介绍Scrapy框架是什么?Scrapy框架是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,是提取结构性数据而编写的应用框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,我们只需要少量的代码就能够快速抓取原创 2021-09-07 16:42:24 · 3672 阅读 · 1 评论 -
Python爬虫——Scrapy框架(附有实战)
大家好!我是霖hero有一天,我在逛街,突然被一声靓仔打断了我的脚步,回头一看,原来是水果摊阿姨叫我买水果,说我那么靓仔,便宜一点买给我,自恋的我无法拒绝阿姨的一声声靓仔,于是买了很多水果回家,家人问我水果多少钱,结果如何,没错,水果买贵了!今天我们使用scrapy框架来爬取北京新发地价格行情,了解商品价格,家人再也不怕我买贵东西啦。Scrapy在爬取之前,我们先来学习一下什么Scrapy框架。Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架,是提取结构性数原创 2021-09-06 17:41:15 · 15860 阅读 · 2 评论 -
Python爬虫——Scrapy框架爬取腾讯招聘
大家好,我是霖hero相信很多人都希望进腾讯这种大厂工作吧,人工高福利好,那么腾讯公司现在在招哪些职位,职位要求是什么呢,今天我们通过Scrapy框架来爬取腾讯招聘网,一探究竟!!!爬前分析爬取前我们来简单分析一下腾讯的技术岗招聘网页,进入网站并打开开发者工具,如下图所示:通过上图可以知道,职位的数据存放在<div class="recruit-wrap recruit-margin"标签中,那么我们打开网页源代码看看,数据是否存放在网页源代码里面,如下图所示:发现数据没有原创 2021-09-05 09:10:41 · 1669 阅读 · 1 评论 -
Python爬虫——异步爬虫,两百四十多万字,六百章的小说20秒爬完?
大家好!我是霖hero。相信很多人喜欢在空闲的时间里看小说,甚至有小部分人为了追小说而熬夜看,那么问题来了,喜欢看小说的小伙伴在评论区告诉我们为什么喜欢看小说,今天我们手把手教你使用异步协程20秒爬完两百四十多万字,六百章的小说,让你一次看个够。在爬取之前我们先来简单了解一下什么是同步,什么是异步协程?同步与异步同步异步请求库requests库asyncio模块aiohttp库httpx请求库httpx请求库——同步请求httpx请求库——同步请求高级用法原创 2021-09-04 09:52:51 · 1133 阅读 · 2 评论 -
Python爬虫——手把手教你爬取王者荣耀英雄皮肤
大家好!我是霖hero大家知道目前最火的手游是哪个嘛,没错,就是王者荣耀,这款手游想必大家都听过或者玩过吧,里面有106个英雄,几百个英雄皮肤,今天我来手把手教你们把几百个皮肤都爬取下来。Python基础我们先来讲一些Python基础知识,一是待会可能会用到这些Python基础知识,方便Python基础差的同学更好地理解,二是为了巩固基础,我们一直学下去,一定要回头看一看,回顾回顾基础。基础好的可以直接跳过这一节。Python内置函数zipzip() 函数用于将可迭代的对象作为参数,原创 2021-09-02 19:14:15 · 4009 阅读 · 1 评论 -
Python爬虫——selenium爬取网易云评论并做词云
大家好!我是霖hero到点了上号网易云,很多人喜欢到夜深人静的时候,在网易云听音乐发表评论,正所谓:自古评论出人才,千古绝句随口来,奈何本人没文化,一句卧槽行天下!评论区集结各路大神,今天我们来爬取网易云音乐评论并做个词云图,看看大家都评论了啥。目录爬取分析正式爬取selenium爬取网易云评论获取子Frame内容获取评论保存评论结果展示制作词云结果展示爬取分析首先我们打开网易云的某首歌曲,打开开发者工具,如下图所示:通过观察可以发现,网易.原创 2021-09-01 19:38:23 · 3281 阅读 · 2 评论 -
Python爬虫——selenium爬取当当畅销图书排行
前言上上篇文章我们爬取了今日头条街拍美图,好了,心情愉悦完了,这篇文章我们使用Selenium来爬取当当网的畅销图书排行。正所谓书中自有黄金屋,书中自有颜如玉,我们通过读书学习来提高自身的才华,自然能有荣华富贵,也自然少不了漂亮小姐姐。准备工作在爬取数据前,我们需要安装好Python的Selenium库和Chrome浏览器并配置好ChromeDriver。SeleniumSelenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获得浏览器当前原创 2021-08-30 21:14:04 · 3107 阅读 · 1 评论 -
Python爬虫——教你使用XPath爬取免费代理IP
目录前言XPath什么是 XPath?XPath作用是什么?XPath——常用规则XPath Helper的添加与使用XPath Helper的添加XPath Helper的使用实战演练爬取首页XPath规则提取内容循环遍历结果展示前言可能有人说,初学者Python爬虫爬数据太难啦,构造正则表达式的时候,太烦琐了,眼睛都看花了,而且前一秒还可以愉快地爬取,下一秒IP就被封了,这还爬个屁啊,不爬了。哎,不要着急,这篇文章我们教你如何使用XPath来爬原创 2021-08-29 15:00:36 · 1215 阅读 · 0 评论 -
Python爬虫——Ajax爬取今日头条街拍美图
文章目录前言抓取分析实战演练最后前言上篇文章我们学了Ajax数据爬取,这篇文章我们以今日头条为例,通过分析Ajax请求来抓取今日头条的街拍美图,并将图片下载到本地并保存下来。准备好纸巾没,我们现在开始!!!抓取分析在抓取之前,首先分析抓取的逻辑。打开今日头条的街拍美图https://so.toutiao.com/search?dvpf=pc&source=input&keyword=%E8%A1%97%E6%8B%8D,如下图:我们点击第一个,这个请求的URL是:随后我们打开原创 2021-06-10 21:23:24 · 1012 阅读 · 1 评论 -
Python爬虫——正则表达式(超详细,附带实战演练)
前言在学编程的过程中,我们可能听过正则表达式,但是不知道它是什么,我一开始听到正则表达式时,我在想正则表达式是啥?它用来干嘛的?学起来难不难的?可能很多人和我想的一样。学完之后,我很认真负责地告诉你们,正则表达式不难!!!正则表达式百度百科里写到:正则表达式又称规则表达式,计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本,是对字符串操作的一种逻辑公式,是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种原创 2021-06-29 16:17:40 · 16298 阅读 · 15 评论 -
Python爬虫——Ajax数据爬取
前言有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样,在浏览器中可以看到正常显示的页面数据,但使用requests得到的结果并没有。这是因为在requests获得的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有很多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定的算法计算后生成的。本文将讲解什么是Ajax以及如何分析和抓取Ajax请求。...原创 2021-06-08 21:12:42 · 5858 阅读 · 8 评论