自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 爬取图片小案例

今天这个是一个爬取图片的小案例,在分析案例的过程中,用了另外一种思维来爬取的图片,感觉可以分享出来和大家一起讨论学习。通过这个案例,我们可以了解,其实爬虫不一定非要按照传统的步骤去爬取,有些时候,我们可以通过仔细分析网页的细节,找到更好的切入点,从而达到更好的爬取目的。

2023-03-29 15:47:41 186

原创 python爬取有声小说

我写过很多爬取有声小说的案例,有些是因为审核的原因,不能放出来,在加上平时就喜欢听有声小说,但是现在的有声小说大部分都收费了,作为一个玩爬虫的,收费听小说是自己不能忍的,最近发现了一部小说通过分析,是不需要付费可以爬取下来的,特把这次的爬取过程给大家总结出来,希望对大家有一定的帮助。

2023-03-29 15:47:01 775 1

原创 python获取评论数据

python获取新闻评论数据

2022-11-16 17:57:04 2048

原创 python爬取视频评论数据

用python爬取小视频数据和评论数据

2022-06-13 11:56:53 4163 3

原创 爬取二次元图片

我一个亲戚的小孩很喜欢二次元,也没事就喜欢画这些二次元的动漫人物,为了精进自己的技术,经常要在网上找自己喜欢的图片做参考,但是每次都很麻烦才能找到合适的图片,而且一次也只能保存一张,为了能有很多的图片素材做参考,他就找到了我,让我帮他家小孩搞一点这类的图片,这就有了今天这个案例。今天这个案例就是爬取二次元的动漫图片,爬图片的案例之前也讲过不少,可是今天这个案例,看似很简单的网站,实则想找到真正的图片位置,确实一个很复杂的过程,话不多说,我们开始吧。分析网页如图分析所示,我们要的图片就在这个网址里面,

2022-05-13 11:05:15 597

原创 通过scrapy命令行工具做网页分析

前言:Scrapy是由python语言开发的一个快速、高效的web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架,任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行,也就意味着scrapy里面会有很多的命令需要在命令行下才能运行,今天我们就用过这些好用的命令,来对网址进行一下网页分析。命令:scrapy view>>> scrapy view url地址 这个

2022-04-25 17:59:20 1277

原创 这个小众确好用的模块

前言:我们提取网页的时候,经常会遇到正常的html网页里面没有我们需要提取的数据,但是却在网页源码里面在JavaScript里面有我们需要的数据,而且这些数据,大多都是用字典的形式呈现出来的,但是这些数据大多都有一个弊病,就是都是非常凌乱的,就算你用正则表达式提取出来,也是很凌乱的,无法像字典那样方便精准的提取我们需要的数据。今天我就给大家带来一个小模块,这个模块就可以解决我们的问题,它可以把这些凌乱的数据变成JSON一样的数据,这样我们能就可以把这些数据像字典一样提取出来了。这个模块的叫chompjs

2022-04-11 09:55:54 204

原创 我用python一键整理杂乱的文件

前言:最近电脑升级了一下,需要从新安装操作系统,安装好系统后,发现文件夹内凌乱的文件,还需要一个个建立指定文件夹整理起来,想想都好麻烦。幸好我们有python,所以就写了一个python程序,用于整理杂乱的文件。案例模块:Python版本:3.6.5import osimport shutil # 文件移动模块完整代码:import osimport shutil # 文件移动模块def baseFile(): """ 准备需要整理的文件字典 :return

2022-03-21 10:47:16 864

原创 简单JS解密爬取股票信息案例

前言:今天给大家带来一个使用JS解密爬取股票信息的案例,本案例比较简单,主要介绍如何找出JS加密的过程,希望通过本案例可以带给大家学习JS的一些思路。本案例网站:https://webapi.cninfo.com.cn/#/marketData一、分析网页我们通过查看开发者工具,可以看出该网页的主页里面并没有给我们响应什么数据,通过经验这个时候一般主页没有给我们响应数据,可以直接定位XHR这个选项,如图:通过图片可以看出我们已经找到了包含数据的真正的API网址,就是箭头所指的这个,如图:既

2021-10-28 10:19:09 806

原创 爬取推糖网图片小案例

前言:好久没有更新博文了,因为工作的关系,一直没有更新博文,今天有空,就给大家带来一个爬图片的小案例。今天的目标网站就是堆糖网,关于爬取这个网站图片的案例,肯定大家都看到很多,基本都是通过搜索图片的关键字,然后找到ajax网页,然后请求这个网页,获取到他的json数据,最后提取出图片。我们今天就用另一种思路来给大家爬取这个网站的图片。本案例网站:https://www.duitang.com/blog/?id=1345325138一、分析网页既然说了,是用另一种思路来爬取图片,那我们就需要具体分析

2021-09-24 16:13:53 560

原创 爬取图虫网MM图片

前言:其实我之前写过一篇爬取MM图片的文章,但是碍于尺度的问题,文章改了又改才过审,但是作为一个爬虫,怎么能没有爬取图片的案例呢,所以我又发现了一个不错的网站,里面的MM也不错,而且尺度也正常,话不多说,开爬!!本案例网址:http://tuchong.com/tags/%E7%BE%8E%E5%A5%B3一、分析网页从图可以看出每一张图片对应一个链接,每一个链接里面就是该图片这个模特的所有图片,打开开发者工具来具体分析一下,可以分析出这个网页的图片加载都是动态加载的,你滚轮滑动向下,图片一直会

2021-07-08 16:44:32 480

原创 爬取听书网有声小说音频数据

前言:朋友最近迷上了听有声小说,可是因为很多的有声小说网站都需要vip才能听,所以他想让我帮他把小说弄下来,方便他可以随时在手机上听。我在网上搜了一下他听的这部小说,的确有很多大的听书网站都需要vip才能听,所以我就找了一个小的网站,帮他把小说爬取了下来。因为他听的小说是一个很有名的作者的,为了保护作者的权益,本文的案例就没有拿这个作者的小说来进行爬取,用了另一部小说来进行爬取讲解,大概的爬取思路都是一样,所以可以借鉴本文的思路。本案例网址:https://www.88tingshu.com/29101

2021-06-09 15:41:22 3907 1

原创 通过mitmproxy爬取西瓜视频app数据保存到mongodb数据库

前言:说起抓包工具,很多人肯定会第一时间想起fiddler,charles 等HTTP/HTTPS抓包工具,的确fiddler和charles确实是现在最主流的抓包工具了,也确实很好用,我也是经常用的。但是现在有些app虽然你能抓到包,请求数据里面是一些无规律的参数,这样我们如果想携带这些参数去发送请求,获取响应数据就是是一件很难的事情了,但是今天我介绍的这款抓包工具,虽然不是什么主流的工具,但是它却有一个非常厉害的功能,它可以对抓包结果通过脚本进行实时处理和保存,这样我们就可以绕过这些无规律的参数,实现

2021-05-06 16:31:51 1371

原创 JS逆向steam登录

JS逆向steam登录前言:我们爬虫有时候,会遇到登录才能获取到数据的情况,最开始的时候我们只需要加入请求的data参数就可以,可是现在网站为了反爬,对登录的密码或者账号都做了加密处理,如果我们不破解出这些加密的密码或者账号,就没办法实现请求登录,所以我们就需要破解出这些加密后的密码或者账号,才能实现请求登录,这些加密的密码或者账号基本都是用JavaScript写的,后面我们统一都简称为js。一、了解js加密的种类现在市面上的js加密,大至分为五类,base64加密、sha1加密、MD5加密、AES

2021-04-22 11:02:25 690

原创 JS逆向获取网易云音乐评论并保存到mongodb数据库

JS逆向获取网易云音乐评论前言:这段时间,一直在研究JS逆向,今天小试牛刀一下,利用JS逆向技术获取网易云音乐评论。一、分析网页其实网易云音乐评论的api很好找到的,我们通过F12进入到浏览器(chrome)的开发者模式,因为音乐的评论是动态加载的网页,所以我们可以直接定位到network下的XHR选项,如图:经过我们一个个的查找分析,定位到get?csrf_token=这个网页,这个里面就是包含评论信息的内容:可以看出这个网页数据属于json格式的数据,里面包含了评论的内容,评论者的信息

2021-03-23 16:04:48 889 4

原创 爬取杂志所有期刊的文章案例

爬取杂志所有期刊的文章案例前言:这次给大家带来一个简单的爬虫案例,就是爬取意林杂志所有期刊的文章。本案例网址:https://www.yilinzazhi.com/一、分析网页可以看出这个网站的网页很规整,而且没有反爬,每一年的期刊日期都是一个链接,点击进去就是该期期刊的所有文章标题,如图:每一个标题文字就是该文章的内容的链接,点击这个链接就是该标题的文章具体的内容:现在我们理解了网站的具体构成,下面就说一下大概的思路,通过主页链接提取出每一期的网页链接和每一期的期刊日期,在对每一期的网

2021-03-16 11:21:59 1928 2

原创 搜索关键字下载QQ音乐

搜索关键字下载QQ音乐本案例所用到的模块:import requestsimport jsonimport osfrom jsonpath import jsonpathfrom urllib.request import urlretrievefrom requests.exceptions import RequestException前言:因为腾讯音乐占有中国总曲库的90%,所以往日红火一时的网易云音乐,因为歌曲版权太少的缘故,已经不复当年了,喜欢听歌的小伙伴们也纷纷从网易云音乐

2021-03-02 17:19:43 592

原创 我认为最好用的网页解析模块Parsel

前言:众所周知,网页解析4大模块:1.正则表达式(re),2.bs4(BeautifulSoup),3.xpath(lxml)4.css选择器(pyquery),大家一定都很熟悉,很多都是从这几个模块入手,本文不对这4个模块评价它们的优略,因为每个人解析网页的习惯不同,所以对这些模块的理解和熟悉程度也不尽相同。本文要说的,是一个很强大的解析模块parsel,它的强大之处在于是把上面其中的3大模块集成于一身,一个模块可以干3个模块的事情,你们说它强大吗。所以我就想分享出来,一起和大家交流和学习,parse

2021-02-13 21:35:42 2677 1

原创 利用搜索关键字爬取今日头条新闻评论信息案例

利用搜索关键字爬取今日头条新闻评论信息案例爬虫4步骤:1.分析网页2.对网页发送请求,获取响应3.提取解析数据4.保存数据本案例所用到的模块import requestsimport timeimport csv案例网址:https://www.toutiao.com/一、分析网页如果我们想通过关键字来搜索爬取新闻的评论信息,就需要找到它们的接口,但是这个接口应该如何找呢,其实也不难找,我们在首页中的搜索栏中,输入想搜索的关键字,点击搜索:然后网址会给我们跳转到一个搜索出来该关键

2021-02-04 16:55:24 4658 10

原创 通过搜索内容下载B站视频案例

通过搜索下载B站视频案例爬虫经典老四步:1.分析网页2.对网页发送请求,获取响应3.提取解析数据4.保存数据本案例所用到的模块:import requestsimport you_get # 如果没有该模块,pip install you-get安装即可import sysimport os一、分析网页b站有两种找到接口的情况,如果你是在主页搜索输入需要搜索的内容的话,网站会自动跳转到另一个页面,经过分析,这个页面里面的数据,获取到的数据是html的源码数据,这次本案例不对ht

2021-02-02 18:22:07 476 4

原创 Python爬取美女图片案例

爬取妹子图图片案例爬虫常规思路:1.分析网页2.对网页发送请求,获取响应3.提取解析数据4.保存数据本案例所用到的模块:import requestsimport parselimport os一、分析网页网址链接:https://www.mzitu.com/分析思路:妹子图这个网站和别的图片网站不一样,是因为它有一定的反爬机制,它的反爬就是如果按照正常的提取保存图片,是没用的,保存的图片是不显示,经过分析,其实是问题就是出现在请求头里面,如下图:那么我们在保存图片的时候,

2021-02-02 15:58:16 416

原创 Python爬取基金数据案例

爬取基金数据案例爬虫常规思路:1.分析网页2.对网页发送请求,获取响应3.提取解析数据4.保存数据本案例所用到的模块:import requestsimport timeimport csvimport re网址链接:http://fund.eastmoney.com/Data/Fund_JJJZ_Data.aspx一、分析网页其实这个网站的网页数据没有太多的反爬,就是网页需要构建一个params的参数,该参数里面包含了网页翻页的数据,时间戳的数据,这些是动态的,需要怎么自己指定

2021-02-02 14:57:22 2478 10

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除