「已注销」-CSDN博客

原创第16期-通过搜狐体育爬取赛程(遇到困难)

进入搜狐体育简单的看了一下，首先我们会发现一件比较糟糕的事情，就是他的主页面的文字，全都看不懂，这是我们熟悉的二类字体加密。虽然我们想要的东西暂时看起来并不在二类字体加密里面，但是一进来，就给了我们一个下马威，看起来这不好招惹啊。仔细观察一下，就会发现，这只是一个ajax请求，数据是非常清晰的"awaycompetitorname": "曼联","venuename": "范可多夫体育场","tournamentnamebeitai": "欧冠","status": "closed",..

2021-09-16 00:22:41 1335

原创第15期-通过新浪体育爬取赛程

我很爱看球，想要时刻关注赛程，应该怎么做呢？首先找到欧冠赛程的地址。简单的查看一下数据，然后慌了，发现，找不到数据。看来，赛程这种东西多半是使用js生成的，那这样就不好办了啊。通过查看，找到了一个可疑的请求，是一个api的接口，里面的内容全都看不懂"data": { "A": [{ "MatchType": "20", "Season": "2021", "Team1Id...

2021-09-15 22:46:29 853

原创第14期-为什么说不要爬取新闻网站

新闻类网站几乎都是一样的情况，结构相似，基本都是ul-li的列表，内容也非常相似，我们参考第13期爬取新浪网的新闻的方法，一模一样来一遍就行了。首先找到地址---发送请求---提取地址---发送新请求---下载新闻，没区别感觉这些新闻类的网站都很古老，用的甚至是很多年前的技术。同样的网站，还有观察者网环球网参考消息中国新闻网易新闻这些新闻网站，全都可以通过一模一样的方式爬取到...

2021-09-14 23:20:06 462

原创第13期-请不要爬取新闻网站

新闻类网站的数据一般获取都非常容易，为什么？大概是因为新闻资讯的时效性非常重要，过期的新闻没有任何意义，因此过往的数据价值很低，只有那么一页是有价值的。而且也不怕被抄袭，因为从新闻发布的那一刻起，新闻的价值就在降低了。如果晚抄袭2个小时，那么就是有点落后了，晚抄袭2天，这个新闻就有点旧了。晚抄袭2个礼拜，那这个新闻不如倒闭回家算了。因此，在这种情况下，新闻类网站的数据往往特别容易就可以获取。# 比如说我们看到了网易新闻的地址# 我们根本无需做过多的考虑，直接发起请求就是了url = "ht

2021-09-14 22:48:53 641

原创第12期-通过百度贴吧爬取指定用户发的帖子

是否你有心仪的女孩，想要回忆起她的点点滴滴？这并不困难。虽然说百度贴吧，给我们提供了吧内搜索的功能，但是这个功能并不好用，能查到的信息太少了。所以说，为什么我们不换一个方式呢。首先，只要知道目标用户曾经在哪个贴吧活跃过，然后把这个贴吧的所有帖子都爬下来，然后存起来自建搜索引擎，就很容易可以轻轻松松的完成任务了。# 百度贴吧的地址https://tieba.baidu.com/f?kw={贴吧名}&ie=utf-8&pn={帖子数}只要通过这个地址，爬取到帖子的标题，和发帖

2021-09-14 22:25:02 734

原创第11期-通过斗鱼直播爬取弹幕

几年前的时候，我还不会使用爬虫，曾经在“超级小桀”的直播间看到过小桀做出了一种非常厉害的积分系统。只要在他的直播间发送弹幕，就能参与竞猜。当时我觉得这太厉害了，这到底是怎么做到的呢。后来直到自己也真正学会使用了爬虫，才发现，当初看起来非常厉害的东西，不过就只是爬取斗鱼的弹幕罢了，如今的我也是可以轻松实现的。这大概就是当你近距离观察的时候，美感就消失了。我不再会觉得当初我崇拜的东西有那么厉害和神秘，这大概就是因为成长而失去。好吧，说正经的，到底如何爬取斗鱼的弹幕呢？正常的方法在网上已经有很多人写过了。

2021-09-11 21:20:25 1534

原创第10期特别福利-爬取yy直播舞蹈区主播封面图

好消息，好消息，xiaspider2021终于做到第10期啦本期为了特别庆贺，不做分析了，直接通过yy直播爬取舞蹈区的主播的封面图没什么好说的，直接上代码，复制去运行就好了'''作者：瞎老弟时间：2021-09-10联系方式：qq群383472162简介：python3环境下运行，需要安装requests模块，请确保执行目录中没有以数字命名的图片文件声明：运行前请充分考虑可能存在的潜在风险，若因执行代码造成任何损失，作者概不负责'''import requests as rq

2021-09-10 23:05:31 709

原创第9期-通过简书爬取文章

这又是一次历史性的突破，他来了，他来了，他脚踏祥云走来了！没错，那就是，截止到现在为止，终于出现了，第一个，依靠user-agent来反爬的网站了# 通过requests不修改请求头，直接发送请求# 出现下面字样<h1>403 Forbidden</h1><p>You don\'t have permission to access the URL on this server. Sorry for the inconvenience.<br/&g

2021-09-10 10:22:59 439

原创第8期-通过晋江爬取小说

上一次我们在潇湘书院中，已经见到过了字体加密。也就是通过css把所有的字体进行了重新编码的反爬行为，本次晋江的反爬方式和潇湘书院有点类似，但是完全不一样¡¡¡¡êÌ³±ÉúËµÓÐ¿ÕÀ´ÅãËý£¬¿ÉÒ»Á¬¹ýÁËºÃ¼¸ÈÕ£¬Ëû¶¼Ã»ÓÐ<br>¡¡¡¡<br>¡¡¡¡µ¹ÊÇËûÉí±ßµÄËÞÂ×À´ÁË£¬ËÞÂ×±¾ÌåÊÇÒ»Ö»ºÖÉ«Æ¤Ã«µÄºüÀê£¬ËûÀ´µ<br>¡¡¡¡ºü×å±¾¸ÃÌìÉúÒ»¸±ºÃÏàÃ²£¬Ë

2021-09-10 10:04:11 2475

原创第7期-通过潇湘书院爬取小说

这把我们遇到高手了，我尝试寻找数据来源的时候，发现根本找不到，不难猜测，肯定有内容加密的措施。脚底滑，摔狗吃屎。马车绝尘溅脸泥浆！我们观察这样三句话，发现其中出现了很多不认识的奇怪字符，

2021-09-09 09:04:10 535

原创第6期-通过qq阅读爬取小说

由于某网站太大不好惹，无法过审，正文内容略结论：没有反爬措施，只有一个ajax请求，按照对应的地址接口请求即可查看2021更多爬虫分析，点击这里

2021-09-09 08:23:13 2394 1

原创第5期-通过飞卢小说网爬取小说

飞卢小说，说实话还是第一次听说，可能是因为我孤陋寡闻的缘故，别在意。我才不会告诉你，因为我平时只看笔趣阁呢。首先随便选择一本热门小说吧https://b.faloo.com/476534.html这个地址没有任何反爬，可以轻松获取到所有小说列表，当然里面可能有一些奇怪的符号，替换掉就没问题了进入小说的详情页以后，直接请求地址https://b.faloo.com/476534_2.html可以看到同样也是没有任何反爬措施，直接就可以获取数据了如今云纳兰虽年仅十三岁，但斗气.

2021-09-07 20:18:49 6648 2

原创第4期-通过起点中文网爬取小说

起点中文网的历史比较悠久，一般来说，新的小说和古老的小说的格式恐怕是不太一样的，甚至vip章节和普通章节也是不一样的，因此，我们就尽量挑选最新的小说研究一下。首先是排行榜的地址https://www.qidian.com/rank/hotsales/直接通过requests发起请求，就可以获得所有的数据，没有任何的反爬措施，可以说，起点是到目前为止见到过的最友好的网站，轻松就可以拿到排行榜数据。然后我们选择当前最热门的小说《大奉打工人》https://book.qidian.com/

2021-09-07 19:33:23 5133

原创第3期-通过途牛爬取机票价格

前两期，我们已经研究过了携程和去哪儿的机票。作为同样有名的出行平台，我们自然也应该再研究一下途牛的机票价格。首先，登录途牛的界面，我感觉，非常的熟悉。虽然我是第一次打开途牛的机票价格的界面，但是我就感觉我似乎曾经到过这个地方，没错，那就是之前研究过的机票价格的页面一摸一样，除了颜色变为了绿的，我都想不出有什么区别了。好吧，这不重要。首先，我点击了机票价格查询，然后惊讶的发现，在html和ajax中居然一点数据都没有。我感觉到了非常困扰。难道说，途牛和别人只是页面看起来一样，使用起来居然完全不同吗？难

2021-09-03 23:45:19 601

原创第2期-通过去哪儿爬取机票价格

上期分析了携程的机票，本次来对比一下去哪儿的机票看看有什么不同。接口地址：https://flight.qunar.com/touch/api/domestic/wbdflightlist有一个加密参数__m__，看上去的话，这个__m__的获得应当是没有之前的携程的v那么困难的，但是很显然，也不是一时半会能够解决的data: r({ departureCity: i, arrivalCity: s, departureDate: o, ex_track: u

2021-09-02 18:54:42 1481 2

原创第1期-通过携程爬取机票价格

首先我们先找到携程机票的地址携程机票的地址为，https://flights.ctrip.com/online/list/oneway-{a}-{b}?depdate={c}其中，a为起始地，b为目的地，c为时间例如，北京-上海，2021年9月1日的机票地址应该为https://flights.ctrip.com/online/list/oneway-bjs-sha?depdate=2021-09-01由此可见，如果通过selenium来获取机票价格的话，是非常容易的，只需要知道起始地，目

2021-08-29 23:20:17 3053 3

原创第0.8期-xiaspider2021目录索引

这是xiaspider2021的所有目录，你可以随意访问你感兴趣的内容哦！第0期-xiaspider2021计划及介绍第0.5期-xiaspider2021模组先导篇

2021-08-28 10:54:39 2699

原创第0.5期-新手入门爬虫应该下载什么模块

爬虫程序一般的流程：发送请求-处理数据-保存数据1，发送数据结论：使用requests，如果有必要的话，使用selenium问题1：为什么不用urllib？回答1：我不知道现在是否还有人会有这种疑问，也许这个问题放在几年前，例如2016年左右，还会有人纠结到底是使用urllib好，还是使用requests更好呢，甚至在那个时候，还会有人争论到底应该用python3呢，还是用python2呢？不过现在这些似乎已经不是一个问题了。毕竟很多2021年才开始接触python的初学者，甚至

2021-08-28 10:51:03 464

原创第0期-通过hao123爬取导航网站

嗨，欢迎来到这里，我是瞎老弟，这是一个全新的计划。我打算在2021年剩下的时间中，研究100个热门网站，看看他们都有什么数据，是否容易获取，当然本期主要是介绍，是不算在内的。说实话，回忆起来，上网接近20年，用的最多还是搜索引擎，想要找什么网站，直接搜索，常用的网站，还真就不认识多少。想要多记住几个网站，好去访问，似乎是我很小的时候的事情了。总之，我打算第0期通过hao123获取到一些热门的网站，以此来作为我们xiaspider2021计划中的部分目标网站。当然，我也会进行一些挑选。比如很多网页游戏

2021-08-28 10:08:32 582

我是瞎老弟