@lizhihang-CSDN博客

原创【建议收藏】三月份开始，二十二个爬虫项目，无套路，附上源码全部拿走

文章目录前言APP类电商类社交类招聘类房源类其他前言你的日常中是否需要数据？你是否对爬虫感兴趣？你还在为没有爬虫案例发愁？2021年3月份开始写第一个爬虫至今写了22个爬虫项目，无套路，不虚假，附上源码，全部给你所有爬虫均是2021年3月份开始写的，可能有许多不足之处，大家多多包涵，对于刚刚入门爬虫想要拿项目练手的你来说可能会起到一些帮助作用，每一个爬虫我都写个一篇文章教程同时附上源码APP类利用fiddler+mitudump+appium+python的方式对APP类数据进行爬取抖

2021-04-19 10:39:18 6734 4

原创爬虫项目二十一：需要简历吗？用Python轻松爬下上千份简历模板

文章目录前言一、获取详情页url二、获取下载链接三、保存模板前言用Python对站长之家的上千个简历模板批量爬取保存提示：以下是本篇文章正文内容，下面案例可供参考一、获取详情页url我们进入站长之家的免费模板网站 https://sc.chinaz.com/jianli/free.html进行翻页观察页面的url变化规律，可以看到其规律就是free后变化的数据第一页：https://sc.chinaz.com/jianli/free.html第二页：https://sc.chinaz

2021-04-18 09:12:45 1959

原创爬虫项目二十：用Python对58租房信息进行爬取

文章目录前言一、分析url二、制造url三、详情url四、解析页面总结前言用Python爬下58同城租房详情信息提示：以下是本篇文章正文内容，下面案例可供参考一、分析url第一页：https://bj.58.com/chuzu/?PGTID=0d000000-0000-0116-5fa7-7c361aef2ca6&ClickID=1第二页：https://bj.58.com/chuzu/pn2/?PGTID=0d3090a7-0000-1606-2950-91e1fdc3a82a&a

2021-04-17 06:36:58 3511 2

原创爬虫项目十九：用Python轻松爬下前程无忧上万条招聘信息

文章目录前言一、分析url二、生成url三、获取页面源码四、解析页面源码前言用Python轻松爬下前程无忧上万条招聘信息提示：以下是本篇文章正文内容，下面案例可供参考一、分析url我们进入前程无忧官网，输入职位名称，我以数据分析为例，选择全国，观察url，其中有许多无用的参数，修改之后的url如下url：https://search.51job.com/list/010000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E5%25

2021-04-15 13:18:56 1452

原创爬虫项目十八：用Python对拉钩网全部城市所有招聘信息爬取

文章目录前言一、分析页面url二、拼接url和参数前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、分析页面url我们打开进入拉钩的官网，可以发现数据属于动态加载的，所以我们打开抓包工具，刷新页面抓包我们现在来分析他的url和参数，看下面的代码块pn表示页数 kd表示关键字url：https://www.lagou.co

2021-04-13 12:32:41 1573 3

原创爬虫项目十七：用Python轻松爬下智联招聘七千条招聘信息

文章目录前言一、详情url获取前言利用Python爬取智联招聘中全国招聘数据，大约九千条提示：以下是本篇文章正文内容，下面案例可供参考我的目的是需要进入页面获取招聘详情页的链接，通过链接再将数据进行爬取一、详情url获取下方是列表页的url，其中jl后可直接用省份代替，kw即为搜索的关键词，p表示页数https://sou.zhaopin.com/?jl=532&kw=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&p=1修改后：https:/

2021-04-11 15:56:03 7122 7

原创爬虫项目十六：用 Python 三十行代码采集QQ群成员信息，很简单

文章目录前言一、抓包二、使用步骤1.引入库2.读入数据总结前言用Python爬取QQ群成员信息数据提示：以下是本篇文章正文内容，下面案例可供参考一、抓包示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warni

2021-04-10 11:30:05 3554 1

原创爬虫项目十五：你了解你的QQ好友吗？教你用Python采集QQ好友数据

文章目录前言一、方法的选择二、通过QQ空间获取好友信息三、通过QQ查找获取好友信息前言关于写这篇文章我做了很多工作，想了很多办法，尝试过QQ邮箱、QQ空间、QQ查找抓包，最终也没有选出一个好方法，不能爬下完全的数据，但能尽可能的爬下多的数据包括昵称、网名、分组、年龄、地址提示：以下是本篇文章正文内容，下面案例可供参考一、方法的选择首先我们先看一下如果通过QQ邮箱能获取什么数据，如果说是通过QQ邮箱爬QQ好友信息，那只能拿到昵称和QQ邮箱号所以不选择这中方法再来看看通过QQ空间能拿到哪些

2021-04-07 17:25:57 5449 3

原创爬虫项目十四：Python爬下豆瓣《我的姐姐》两千条影评，看看大家对其评价如何

文章目录前言一、分析URL二、获取影评三、代码实现四、词云前言爬取豆瓣影评，爬虫代码已经封装好，修改请求头和url即可采集你想要采集的电影影评提示：以下是本篇文章正文内容，下面案例可供参考一、分析URL观察url我们可以发发现其url变化的规律，页数增加 start也增加，start=(页数-1)*20第一页：https://movie.douban.com/subject/35158160/reviews?start=0第二页：https://movie.douban.com/subj

2021-04-05 19:14:49 1036

原创爬虫项目十三：用Python两分钟爬下微信公众号900篇文章

文章目录前言一、fiddler抓包1.数据抓包2.分析url二、代码实现前言用Fiddler结合Python爬下微信公众号900多篇文章提示：以下是本篇文章正文内容，下面案例可供参考一、fiddler抓包首先我是通过fiddler在PC端微信上进行抓包，找到文章的接口，并且解析出其规律关于fiddler的配置安装不赘述1.数据抓包启动fiddler开始抓包，打开微信打开公众号，并且向下滑动使其显示出更多文章再利用fiddler的筛选功能，将数据包找到我们拿到数据包，放到json官

2021-04-05 10:57:15 3877 3

原创爬虫项目十一：用Python爬下微博博主所有视频、所有微博数据、获取评论数据

文章目录前言一、微博数据1.分析页面2.分析url3.解析数据4.实现翻页前言用Python爬下微博博主的所有微博数据，下载所有视频，爬下单个微博的评论数据，以papi酱为例提示：以下是本篇文章正文内容，下面案例可供参考一、微博数据用python爬下papi酱的所有原创微博数据，有标题、点赞数、评论数、转发数1.分析页面我们打开页面观察页面，向下滑动可以发现有部分数据属于动态加载我尝试利用requests单纯的访问页面并且保存到本地html文件，发现一条数据都没有所以对于爬取微博.

2021-03-31 20:17:59 10739 1

原创爬虫项目十：Python苏宁易购商品数据、评论数据爬取

文章目录前言一、商品数据1.分析url2.解析数据3.实现翻页二、评论数据前言利用Python对苏宁易购商品数据评价数据实现爬取提示：以下是本篇文章正文内容，下面案例可供参考一、商品数据苏宁易购官网商品数据是属于动态加载的，所以我用的方法时selenium模拟，利用selenium向下滑动加载数据，获取数据1.分析url我们搜索一件商品观察url，这个url很简单，就是在官网上加上了关键字，没有多余的参数https://search.suning.com/%E7%BA%A2%E7%B1.

2021-03-30 11:25:35 4490 3

原创爬虫项目九：亚马逊中国商品数据爬虫

文章目录前言一、分析url二、分析页面三、获取数据前言Python对亚马逊中国平台的商品数据抓取提示：以下是本篇文章正文内容，下面案例可供参考一、分析url我们打开亚马逊中国官网输入商品关键词，观察url，其中有三个参数，K表示的就是商品关键词可以直接用中文替换https://www.amazon.cn/s?k=%E8%A3%A4%E5%AD%90 ==》关键词&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99 .

2021-03-28 10:10:14 2079 1

原创爬虫项目八：Python对天猫商品数据、评论数据爬取

文章目录前言一、商品数据1.分析url2.登录账号3.解析数据4.模拟滑动滑块前言天猫商城商品数据、评论数据爬取提示：以下是本篇文章正文内容，下面案例可供参考一、商品数据爬取天猫商城商品数据，观察页面没有动态加载，但是页面会是不是出现登录界面，所以选择selenium登录的方式爬取商品数据，整个爬虫的过程中需要mitmdump拦截伪装，详情可看我主页文章淘宝https://blog.csdn.net/weixin_47163937/article/details/1149987861.分.

2021-03-26 16:03:31 8194 9

原创爬虫项目七：Python对唯品会商品数据、评论数据的爬取

文章目录前言一、商品数据1.分析页面2.分析url3.解析数据二、评论数据1.抓包2.分析url3.获取数据三、总结前言用Python爬取唯品会商品数据、评论数据提示：以下是本篇文章正文内容，下面案例可供参考一、商品数据1.分析页面我们进入唯品会官网，搜索商品观察页面，向下滑动页面可以看到数据是动态加载的，对于动态加载数据有两种办法一个是selenium一个是找接口，我是用的selenium2.分析url我们拿首页url看一看，keyword就是商品关键词无容置疑，但是关键词后.

2021-03-25 11:54:04 5645

原创爬虫项目六：用Python爬下链家新房所有城市近三万条数据

文章目录前言一、分析url二、拼接url1.实例化chrome2.获取首字符、page3.拼接url前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、分析url这个url的构成很简单，https://后面是城市的首字母 pg后表示页数。我们为了拿到所有城市的房源数据，需要构造出准确无误的所有url 有了url利用request进.

2021-03-22 08:15:32 2656 7

原创爬虫项目五：最详细的京东商品、评价爬虫、词云展示

文章目录前言一、京东商品信息爬虫1.分析URL2.实例化chrome3.加载完整数据4.实现翻页5.解析数据二、京东商品评价爬虫1.找到接口2.分析url3.解析数据4.词云前言本文内容包含京东商品列表爬虫的详细教程以及商品评价数据的详细教程提示：以下是本篇文章正文内容，下面案例可供参考一、京东商品信息爬虫我们要知道京东商品页的数据有一半是通过动态加载出现的，一页60条数据一半是动态加载，也就是说我们如果单纯的用requests访问url的话只能拿到一半的数据，那另一半的数据拿到有两种方法.

2021-03-20 10:29:22 10784 8

原创爬虫项目四：2021最新测试可用淘宝爬虫

文章目录前言一、mitmdump配置二、登陆淘宝三、解析数据总结前言众所周知淘宝的反爬机制是越来越严格，如果用单纯的用selenium登录淘宝会出现万恶的滑块验证，这是因为淘宝检测出你是selenium，下面用mitmdump中间拦截修改伪装的方式“骗过”淘宝顺利登录爬取先说明一下，mitmdump拦截有没有用，如果过从查看window.navigator.webdriver角度老说他还是True并没有改变，但是我用他确确实实顺利的爬到了数据我用30页测试很顺利并没有出现异常，但是我尝试没有用m.

2021-03-19 11:04:19 9934 8

原创去智联招聘扒了九千多条数据，为了搞清楚数据分析就业情况

文章目录前言一、数据处理二、数据分析1.数据分析工资的分布情况和平均工资前20的城市有哪些？2.学历要求占比、学历与工资情况3.需求人数TOP204.招工类型、薪资分别5.公司规模、学历要求与薪资分布6.技能描述、公司福利、职位介绍词云三、总结前言大家好，先自我介绍一下，我是一个数据分析专业的苦逼大专生，大二的我想对之后的就业有个大概认知（都到这个时候了，也无所谓了），所以我在智联招聘上用Python爬了31个省份直辖市自治区、九千多条数据，关键词是“数据分析”,我只选用了包含“数据分析”字眼的岗位名

2021-03-09 08:42:11 6760 8

weixin_47163937的博客