1yshu-CSDN博客

原创爬取图片小案例

今天这个是一个爬取图片的小案例，在分析案例的过程中，用了另外一种思维来爬取的图片，感觉可以分享出来和大家一起讨论学习。通过这个案例，我们可以了解，其实爬虫不一定非要按照传统的步骤去爬取，有些时候，我们可以通过仔细分析网页的细节，找到更好的切入点，从而达到更好的爬取目的。

2023-03-29 15:47:41 374

原创 python爬取有声小说

我写过很多爬取有声小说的案例，有些是因为审核的原因，不能放出来，在加上平时就喜欢听有声小说，但是现在的有声小说大部分都收费了，作为一个玩爬虫的，收费听小说是自己不能忍的，最近发现了一部小说通过分析，是不需要付费可以爬取下来的，特把这次的爬取过程给大家总结出来，希望对大家有一定的帮助。

2023-03-29 15:47:01 1569 1

原创 python爬取视频评论数据

用python爬取小视频数据和评论数据

2022-06-13 11:56:53 5419 3

我一个亲戚的小孩很喜欢二次元，也没事就喜欢画这些二次元的动漫人物，为了精进自己的技术，经常要在网上找自己喜欢的图片做参考，但是每次都很麻烦才能找到合适的图片，而且一次也只能保存一张，为了能有很多的图片素材做参考，他就找到了我，让我帮他家小孩搞一点这类的图片，这就有了今天这个案例。今天这个案例就是爬取二次元的动漫图片，爬图片的案例之前也讲过不少，可是今天这个案例，看似很简单的网站，实则想找到真正的图片位置，确实一个很复杂的过程，话不多说，我们开始吧。分析网页如图分析所示，我们要的图片就在这个网址里面，

2022-05-13 11:05:15 811 1

原创通过scrapy命令行工具做网页分析

前言：Scrapy是由python语言开发的一个快速、高效的web抓取框架，用于抓取web站点并从页面中提取结构化的数据，只需要实现少量的代码，就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架，任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行，也就意味着scrapy里面会有很多的命令需要在命令行下才能运行，今天我们就用过这些好用的命令，来对网址进行一下网页分析。命令：scrapy view>>> scrapy view url地址这个

2022-04-25 17:59:20 1447

原创这个小众确好用的模块

前言：我们提取网页的时候，经常会遇到正常的html网页里面没有我们需要提取的数据，但是却在网页源码里面在JavaScript里面有我们需要的数据，而且这些数据，大多都是用字典的形式呈现出来的，但是这些数据大多都有一个弊病，就是都是非常凌乱的，就算你用正则表达式提取出来，也是很凌乱的，无法像字典那样方便精准的提取我们需要的数据。今天我就给大家带来一个小模块，这个模块就可以解决我们的问题，它可以把这些凌乱的数据变成JSON一样的数据，这样我们能就可以把这些数据像字典一样提取出来了。这个模块的叫chompjs

2022-04-11 09:55:54 297

原创我用python一键整理杂乱的文件

前言:最近电脑升级了一下，需要从新安装操作系统，安装好系统后，发现文件夹内凌乱的文件，还需要一个个建立指定文件夹整理起来，想想都好麻烦。幸好我们有python，所以就写了一个python程序，用于整理杂乱的文件。案例模块：Python版本：3.6.5import osimport shutil # 文件移动模块完整代码：import osimport shutil # 文件移动模块def baseFile(): """ 准备需要整理的文件字典 :return

2022-03-21 10:47:16 962

原创简单JS解密爬取股票信息案例

前言：今天给大家带来一个使用JS解密爬取股票信息的案例，本案例比较简单，主要介绍如何找出JS加密的过程，希望通过本案例可以带给大家学习JS的一些思路。本案例网站：https://webapi.cninfo.com.cn/#/marketData一、分析网页我们通过查看开发者工具，可以看出该网页的主页里面并没有给我们响应什么数据，通过经验这个时候一般主页没有给我们响应数据，可以直接定位XHR这个选项，如图：通过图片可以看出我们已经找到了包含数据的真正的API网址，就是箭头所指的这个，如图：既

2021-10-28 10:19:09 1071

原创爬取推糖网图片小案例

前言：好久没有更新博文了，因为工作的关系，一直没有更新博文，今天有空，就给大家带来一个爬图片的小案例。今天的目标网站就是堆糖网，关于爬取这个网站图片的案例，肯定大家都看到很多，基本都是通过搜索图片的关键字，然后找到ajax网页，然后请求这个网页，获取到他的json数据，最后提取出图片。我们今天就用另一种思路来给大家爬取这个网站的图片。本案例网站：https://www.duitang.com/blog/?id=1345325138一、分析网页既然说了，是用另一种思路来爬取图片，那我们就需要具体分析

2021-09-24 16:13:53 787

原创爬取图虫网MM图片

前言：其实我之前写过一篇爬取MM图片的文章，但是碍于尺度的问题，文章改了又改才过审，但是作为一个爬虫，怎么能没有爬取图片的案例呢，所以我又发现了一个不错的网站，里面的MM也不错，而且尺度也正常，话不多说，开爬！！本案例网址：http://tuchong.com/tags/%E7%BE%8E%E5%A5%B3一、分析网页从图可以看出每一张图片对应一个链接，每一个链接里面就是该图片这个模特的所有图片，打开开发者工具来具体分析一下，可以分析出这个网页的图片加载都是动态加载的，你滚轮滑动向下，图片一直会

2021-07-08 16:44:32 729

原创爬取听书网有声小说音频数据

前言：朋友最近迷上了听有声小说，可是因为很多的有声小说网站都需要vip才能听，所以他想让我帮他把小说弄下来，方便他可以随时在手机上听。我在网上搜了一下他听的这部小说，的确有很多大的听书网站都需要vip才能听，所以我就找了一个小的网站，帮他把小说爬取了下来。因为他听的小说是一个很有名的作者的，为了保护作者的权益，本文的案例就没有拿这个作者的小说来进行爬取，用了另一部小说来进行爬取讲解，大概的爬取思路都是一样，所以可以借鉴本文的思路。本案例网址：https://www.88tingshu.com/29101

2021-06-09 15:41:22 5101 1

原创通过mitmproxy爬取西瓜视频app数据保存到mongodb数据库

前言：说起抓包工具，很多人肯定会第一时间想起fiddler，charles 等HTTP/HTTPS抓包工具，的确fiddler和charles确实是现在最主流的抓包工具了，也确实很好用，我也是经常用的。但是现在有些app虽然你能抓到包，请求数据里面是一些无规律的参数，这样我们如果想携带这些参数去发送请求，获取响应数据就是是一件很难的事情了，但是今天我介绍的这款抓包工具，虽然不是什么主流的工具，但是它却有一个非常厉害的功能，它可以对抓包结果通过脚本进行实时处理和保存，这样我们就可以绕过这些无规律的参数，实现

2021-05-06 16:31:51 1724

原创 JS逆向steam登录

JS逆向steam登录前言：我们爬虫有时候，会遇到登录才能获取到数据的情况，最开始的时候我们只需要加入请求的data参数就可以，可是现在网站为了反爬，对登录的密码或者账号都做了加密处理，如果我们不破解出这些加密的密码或者账号，就没办法实现请求登录，所以我们就需要破解出这些加密后的密码或者账号，才能实现请求登录，这些加密的密码或者账号基本都是用JavaScript写的，后面我们统一都简称为js。一、了解js加密的种类现在市面上的js加密，大至分为五类，base64加密、sha1加密、MD5加密、AES

2021-04-22 11:02:25 992

原创 JS逆向获取网易云音乐评论并保存到mongodb数据库

JS逆向获取网易云音乐评论前言：这段时间，一直在研究JS逆向，今天小试牛刀一下，利用JS逆向技术获取网易云音乐评论。一、分析网页其实网易云音乐评论的api很好找到的，我们通过F12进入到浏览器(chrome)的开发者模式，因为音乐的评论是动态加载的网页，所以我们可以直接定位到network下的XHR选项，如图：经过我们一个个的查找分析，定位到get?csrf_token=这个网页，这个里面就是包含评论信息的内容：可以看出这个网页数据属于json格式的数据，里面包含了评论的内容，评论者的信息

2021-03-23 16:04:48 1064 4

原创爬取杂志所有期刊的文章案例

爬取杂志所有期刊的文章案例前言：这次给大家带来一个简单的爬虫案例，就是爬取意林杂志所有期刊的文章。本案例网址：https://www.yilinzazhi.com/一、分析网页可以看出这个网站的网页很规整，而且没有反爬，每一年的期刊日期都是一个链接，点击进去就是该期期刊的所有文章标题，如图：每一个标题文字就是该文章的内容的链接，点击这个链接就是该标题的文章具体的内容：现在我们理解了网站的具体构成，下面就说一下大概的思路，通过主页链接提取出每一期的网页链接和每一期的期刊日期，在对每一期的网

2021-03-16 11:21:59 2382 2

原创搜索关键字下载QQ音乐

搜索关键字下载QQ音乐本案例所用到的模块：import requestsimport jsonimport osfrom jsonpath import jsonpathfrom urllib.request import urlretrievefrom requests.exceptions import RequestException前言：因为腾讯音乐占有中国总曲库的90%，所以往日红火一时的网易云音乐，因为歌曲版权太少的缘故，已经不复当年了，喜欢听歌的小伙伴们也纷纷从网易云音乐

2021-03-02 17:19:43 919

原创我认为最好用的网页解析模块Parsel

前言：众所周知，网页解析4大模块：1.正则表达式(re),2.bs4(BeautifulSoup),3.xpath(lxml)4.css选择器(pyquery),大家一定都很熟悉，很多都是从这几个模块入手，本文不对这4个模块评价它们的优略，因为每个人解析网页的习惯不同，所以对这些模块的理解和熟悉程度也不尽相同。本文要说的，是一个很强大的解析模块parsel，它的强大之处在于是把上面其中的3大模块集成于一身，一个模块可以干3个模块的事情，你们说它强大吗。所以我就想分享出来，一起和大家交流和学习，parse

2021-02-13 21:35:42 2902 1

weixin_46913162的博客