自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我是瞎老弟

关注数据采集,爬虫

  • 博客(19)
  • 收藏
  • 关注

原创 第16期-通过搜狐体育爬取赛程(遇到困难)

进入搜狐体育简单的看了一下,首先我们会发现一件比较糟糕的事情,就是他的主页面的文字,全都看不懂,这是我们熟悉的二类字体加密。虽然我们想要的东西暂时看起来并不在二类字体加密里面,但是一进来,就给了我们一个下马威,看起来这不好招惹啊。仔细观察一下,就会发现,这只是一个ajax请求,数据是非常清晰的"awaycompetitorname": "曼联","venuename": "范可多夫体育场","tournamentnamebeitai": "欧冠","status": "closed",..

2021-09-16 00:22:41 1226

原创 第15期-通过新浪体育爬取赛程

我很爱看球,想要时刻关注赛程,应该怎么做呢?首先找到欧冠赛程的地址。简单的查看一下数据,然后慌了,发现,找不到数据。看来,赛程这种东西多半是使用js生成的,那这样就不好办了啊。通过查看,找到了一个可疑的请求,是一个api的接口,里面的内容全都看不懂"data": { "A": [{ "MatchType": "20", "Season": "2021", "Team1Id...

2021-09-15 22:46:29 656

原创 第14期-为什么说不要爬取新闻网站

新闻类网站几乎都是一样的情况,结构相似,基本都是ul-li的列表,内容也非常相似,我们参考第13期爬取新浪网的新闻的方法,一模一样来一遍就行了。首先找到地址---发送请求---提取地址---发送新请求---下载新闻,没区别感觉这些新闻类的网站都很古老,用的甚至是很多年前的技术。同样的网站,还有观察者网环球网参考消息中国新闻网易新闻这些新闻网站,全都可以通过一模一样的方式爬取到...

2021-09-14 23:20:06 358

原创 第13期-请不要爬取新闻网站

新闻类网站的数据一般获取都非常容易,为什么?大概是因为新闻资讯的时效性非常重要,过期的新闻没有任何意义,因此过往的数据价值很低,只有那么一页是有价值的。而且也不怕被抄袭,因为从新闻发布的那一刻起,新闻的价值就在降低了。如果晚抄袭2个小时,那么就是有点落后了,晚抄袭2天,这个新闻就有点旧了。晚抄袭2个礼拜,那这个新闻不如倒闭回家算了。因此,在这种情况下,新闻类网站的数据往往特别容易就可以获取。# 比如说我们看到了网易新闻的地址# 我们根本无需做过多的考虑,直接发起请求就是了url = "ht

2021-09-14 22:48:53 509

原创 第12期-通过百度贴吧爬取指定用户发的帖子

是否你有心仪的女孩,想要回忆起她的点点滴滴?这并不困难。虽然说百度贴吧,给我们提供了吧内搜索的功能,但是这个功能并不好用,能查到的信息太少了。所以说,为什么我们不换一个方式呢。首先,只要知道目标用户曾经在哪个贴吧活跃过,然后把这个贴吧的所有帖子都爬下来,然后存起来自建搜索引擎,就很容易可以轻轻松松的完成任务了。# 百度贴吧的地址https://tieba.baidu.com/f?kw={贴吧名}&ie=utf-8&pn={帖子数}只要通过这个地址,爬取到帖子的标题,和发帖

2021-09-14 22:25:02 558

原创 第11期-通过斗鱼直播爬取弹幕

几年前的时候,我还不会使用爬虫,曾经在“超级小桀”的直播间看到过小桀做出了一种非常厉害的积分系统。只要在他的直播间发送弹幕,就能参与竞猜。当时我觉得这太厉害了,这到底是怎么做到的呢。后来直到自己也真正学会使用了爬虫,才发现,当初看起来非常厉害的东西,不过就只是爬取斗鱼的弹幕罢了,如今的我也是可以轻松实现的。这大概就是当你近距离观察的时候,美感就消失了。我不再会觉得当初我崇拜的东西有那么厉害和神秘,这大概就是因为成长而失去。好吧,说正经的,到底如何爬取斗鱼的弹幕呢?正常的方法在网上已经有很多人写过了。

2021-09-11 21:20:25 1343

原创 第10期特别福利-爬取yy直播舞蹈区主播封面图

好消息,好消息,xiaspider2021终于做到第10期啦本期为了特别庆贺,不做分析了,直接通过yy直播爬取舞蹈区的主播的封面图没什么好说的,直接上代码,复制去运行就好了'''作者:瞎老弟时间:2021-09-10联系方式:qq群383472162简介:python3环境下运行,需要安装requests模块,请确保执行目录中没有以数字命名的图片文件声明:运行前请充分考虑可能存在的潜在风险,若因执行代码造成任何损失,作者概不负责'''import requests as rq

2021-09-10 23:05:31 569

原创 第9期-通过简书爬取文章

这又是一次历史性的突破,他来了,他来了,他脚踏祥云走来了!没错,那就是,截止到现在为止,终于出现了,第一个,依靠user-agent来反爬的网站了# 通过requests不修改请求头,直接发送请求# 出现下面字样<h1>403 Forbidden</h1><p>You don\'t have permission to access the URL on this server. Sorry for the inconvenience.<br/&g

2021-09-10 10:22:59 278

原创 第8期-通过晋江爬取小说

上一次我们在潇湘书院中,已经见到过了字体加密。也就是通过css把所有的字体进行了重新编码的反爬行为,本次晋江的反爬方式和潇湘书院有点类似,但是完全不一样¡¡¡¡ê̳±Éú˵ÓпÕÀ´ÅãËý£¬¿ÉÒ»Á¬¹ýÁ˺ü¸ÈÕ£¬Ëû¶¼Ã»ÓÐ<br>¡¡¡¡<br>¡¡¡¡µ¹ÊÇËûÉí±ßµÄËÞÂ×À´ÁË£¬ËÞÂ×±¾ÌåÊÇÒ»Ö»ºÖɫƤëµÄºüÀ꣬ËûÀ´µ<br>¡¡¡¡ºü×å±¾¸ÃÌìÉúÒ»¸±ºÃÏàò£¬Ë

2021-09-10 10:04:11 1838

原创 第7期-通过潇湘书院爬取小说

这把我们遇到高手了,我尝试寻找数据来源的时候,发现根本找不到,不难猜测,肯定有内容加密的措施。&#xe820;脚底&#xe801;滑,摔&#xe803;&#xe80b;狗吃屎。&#xe820;&#xe855;&#xe85a;&#xe800;马车绝尘&#xe82c;&#xe82f;溅&#xe803;&#xe820;&#xe801;脸泥浆!我们观察这样三句话,发现其中出现了很多不认识的奇怪字符,

2021-09-09 09:04:10 419

原创 第6期-通过qq阅读爬取小说

由于某网站太大不好惹,无法过审,正文内容略结论:没有反爬措施,只有一个ajax请求,按照对应的地址接口请求即可查看2021更多爬虫分析,点击这里

2021-09-09 08:23:13 1310 1

原创 第5期-通过飞卢小说网爬取小说

飞卢小说,说实话还是第一次听说,可能是因为我孤陋寡闻的缘故,别在意。我才不会告诉你,因为我平时只看笔趣阁呢。首先随便选择一本热门小说吧https://b.faloo.com/476534.html这个地址没有任何反爬,可以轻松获取到所有小说列表,当然里面可能有一些奇怪的符号,替换掉就没问题了进入小说的详情页以后,直接请求地址https://b.faloo.com/476534_2.html可以看到同样也是没有任何反爬措施,直接就可以获取数据了如今云纳兰虽年仅十三岁,但斗气.

2021-09-07 20:18:49 5426 1

原创 第4期-通过起点中文网爬取小说

起点中文网的历史比较悠久,一般来说,新的小说和古老的小说的格式恐怕是不太一样的,甚至vip章节和普通章节也是不一样的,因此,我们就尽量挑选最新的小说研究一下。首先是排行榜的地址https://www.qidian.com/rank/hotsales/直接通过requests发起请求,就可以获得所有的数据,没有任何的反爬措施,可以说,起点是到目前为止见到过的最友好的网站,轻松就可以拿到排行榜数据。然后我们选择当前最热门的小说《大奉打工人》https://book.qidian.com/

2021-09-07 19:33:23 3818

原创 第3期-通过途牛爬取机票价格

前两期,我们已经研究过了携程和去哪儿的机票。作为同样有名的出行平台,我们自然也应该再研究一下途牛的机票价格。首先,登录途牛的界面,我感觉,非常的熟悉。虽然我是第一次打开途牛的机票价格的界面,但是我就感觉我似乎曾经到过这个地方,没错,那就是之前研究过的机票价格的页面一摸一样,除了颜色变为了绿的,我都想不出有什么区别了。好吧,这不重要。首先,我点击了机票价格查询,然后惊讶的发现,在html和ajax中居然一点数据都没有。我感觉到了非常困扰。难道说,途牛和别人只是页面看起来一样,使用起来居然完全不同吗?难

2021-09-03 23:45:19 452

原创 第2期-通过去哪儿爬取机票价格

上期分析了携程的机票,本次来对比一下去哪儿的机票看看有什么不同。接口地址:https://flight.qunar.com/touch/api/domestic/wbdflightlist有一个加密参数__m__,看上去的话,这个__m__的获得应当是没有之前的携程的v那么困难的,但是很显然,也不是一时半会能够解决的data: r({ departureCity: i, arrivalCity: s, departureDate: o, ex_track: u

2021-09-02 18:54:42 1090 2

原创 第1期-通过携程爬取机票价格

首先我们先找到携程机票的地址携程机票的地址为,https://flights.ctrip.com/online/list/oneway-{a}-{b}?depdate={c}其中,a为起始地,b为目的地,c为时间例如,北京-上海,2021年9月1日的机票地址应该为https://flights.ctrip.com/online/list/oneway-bjs-sha?depdate=2021-09-01由此可见,如果通过selenium来获取机票价格的话,是非常容易的,只需要知道起始地,目

2021-08-29 23:20:17 2223 3

原创 第0.8期-xiaspider2021目录索引

这是xiaspider2021的所有目录,你可以随意访问你感兴趣的内容哦!第0期-xiaspider2021计划及介绍第0.5期-xiaspider2021模组先导篇

2021-08-28 10:54:39 2139

原创 第0.5期-新手入门爬虫应该下载什么模块

爬虫程序一般的流程:发送请求-处理数据-保存数据1,发送数据结论:使用requests,如果有必要的话,使用selenium问题1:为什么不用urllib?回答1:我不知道现在是否还有人会有这种疑问,也许这个问题放在几年前,例如2016年左右,还会有人纠结到底是使用urllib好,还是使用requests更好呢,甚至在那个时候,还会有人争论到底应该用python3呢,还是用python2呢?不过现在这些似乎已经不是一个问题了。毕竟很多2021年才开始接触python的初学者,甚至

2021-08-28 10:51:03 391

原创 第0期-通过hao123爬取导航网站

嗨,欢迎来到这里,我是瞎老弟,这是一个全新的计划。我打算在2021年剩下的时间中,研究100个热门网站,看看他们都有什么数据,是否容易获取,当然本期主要是介绍,是不算在内的。说实话,回忆起来,上网接近20年,用的最多还是搜索引擎,想要找什么网站,直接搜索,常用的网站,还真就不认识多少。想要多记住几个网站,好去访问,似乎是我很小的时候的事情了。总之,我打算第0期通过hao123获取到一些热门的网站,以此来作为我们xiaspider2021计划中的部分目标网站。当然,我也会进行一些挑选。比如很多网页游戏

2021-08-28 10:08:32 406

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除