Python 网络爬虫实战
文章平均质量分 93
本专栏主要教大家使用 python 语言编写网络爬虫,获取自己想要的数据。博主会将爬取网站的分析过程,思路,技术难点和应对方法,以及爬虫程序的源代码详细的分享出来,供大家参考交流学习,适合新手入门使用,感谢大家支持。
机灵鹤
这个作者很懒,什么都没留下…
展开
-
Python 网络爬虫实战:爬取知乎回答中的全部图片
平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动。于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答中全部图片的新爬虫。1. 分析网站知乎的网站我们已经爬取过很多次了《Python 网络爬虫实战:爬取知乎一个话题下的全部问题》《Python网络爬虫实战:爬取知乎话题下 18934 条回答数据》《Python网络爬虫实战:近千条中秋节祝福语文案让你成为亲朋好友里最靓的仔》所以,网站分析的抓包过程我们原创 2021-11-22 21:16:35 · 3128 阅读 · 0 评论 -
Python 网络爬虫实战:爬取百度贴吧高清原图
前段时间受哥儿们所托,爬取贴吧某帖子里的高清图片。事情是这样的,我哥们发现被贴吧中有好多漂亮的图片,想下载原图做壁纸,但是帖子里图片太多了,他全都要,于是想让我帮忙写个爬虫,批量下载下来。要求只有两个:下载原图实现批量下载话不多说,直接开始。1. 分析网站哥们提供的帖子地址: https://tieba.baidu.com/p/6516084831 。先分析 url 组成,我们可以猜到 6516084831 是帖子的 id 。在 勾选只看楼主,翻页 等这些操作之后,链接变成了这样 ht原创 2021-11-15 19:55:23 · 2353 阅读 · 0 评论 -
Python网络爬虫实战:近千条中秋节祝福语文案让你成为亲朋好友里最靓的仔
中秋节马上到了,不知道大家有没有像我这样的烦恼,每次过节,都要绞尽脑汁想好久,发什么样的祝福语才显得有诚意又有创意,什么样的朋友圈文案会有文化又有逼格。去网上搜吧,搜出来的祝福语,画风大多是像这样的佛说:我可以让你许个愿我对佛说:我愿xxx永远健康,年轻快乐佛说:只能四天我说行,春天,夏天,秋天,冬天。佛说,不行,只能三天。我说,好,昨天,今天,明天。佛说,不行,只能两天我说,好,黑天和白天佛说,不行,只能一天。我说,好。佛茫然地问到,哪一天?我说,每一天。又或者是这样的,多原创 2021-09-18 13:46:25 · 1296 阅读 · 2 评论 -
Python爬虫实战:爬取解放日报新闻文章
上一篇《Python 网络爬虫实战:爬取人民日报新闻文章》发布之后,确实帮到了不少朋友。前几天,我好哥们问我:我想爬另一个日报新闻网站,网页结构几乎跟人民日报几乎一模一样,但是我用你的那个代码去爬却爬不下来数据呢?顺着哥儿们发来的网址(网站传送地址:解放日报),我点进去看了一下,界面大概长这样。跟人民日报的主页界面非常相似,都是 版面列表 -- 文章列表 -- 文章详情 的这种结构。本来我觉得肯定是我这哥儿们代码基础不过关,报的语法错误,先 “嘲讽” 他一波,然后帮他改好就得了。.原创 2021-04-24 22:10:32 · 8035 阅读 · 25 评论 -
Python爬虫基础:使用 Python 爬虫时经常遇到的问题合集
从开始玩爬虫到现在差不多半年多了,写了不少爬虫,爬了不少网站,在博客里也分享了不少爬虫的教程。我的教程文章中,一般会附带完整的爬虫代码,大家只要搭建好环境,便可以直接运行使用。不少读者朋友在使用爬虫遇到问题时也会跟我讨论,交流过程中我发现了一些比较共性的问题。因此文章重点放在了思路分析上,具体如何编写代码爬取数据则简单略过。造成了一些读者,基于我的代码进行修改爬取其他相似网站时束手无策。...原创 2019-07-08 15:28:39 · 16798 阅读 · 21 评论 -
Python爬虫实战 | 人民网爬虫 根据关键词筛选新闻文章
上一篇《人民日报》的爬虫文章发布之后,收到了很不错的反馈,文中的爬虫代码也确实帮助到了很多人,我很开心。跟读者们交流过程中,我也发现了一些比较共性的需求,就是 根据关键词筛选 新闻文章。最初我的想法是,在爬取到全部文章数据的基础上,遍历文件夹,然后将正文中包含关键词的文章筛选出来。如果你已经下载到了完整的新闻数据,那用这种方法无疑是最方便快捷的。但是如果没有的话,需要先爬取全部数据,再从中筛选符合条件的数据,无疑是有点浪费时间。本篇文章,我将介绍两种方法,一种,是从现有数据中根据关键词筛选,另一种,原创 2021-02-06 21:12:10 · 18163 阅读 · 47 评论 -
【Python 骚操作】使用 Gitbook + Typora 打造一个属于自己的电子书网站
前段时间,我在互联网冲浪时候,发现了一个写作的工具组合 Gitbook + Typora,堪称神器。安利到 Blink 和朋友圈之后,有一朋友表示很感兴趣,希望我简单出一个教程,介绍一下这套工具怎么使用。好吧,安排!0x00 效果展示Gitbook + Typora ,我称之为 “神器”,不仅是因为他可以用来写文章,更在于它可以将你写的 Markdown 文章直接转换成 pdf,转成各种常用格式,甚至可以转换成网页直接发布到网上。正好我的个人网站备案审核通过了,就利用 Gitbook.原创 2020-06-26 16:56:13 · 3091 阅读 · 0 评论 -
Python 网络爬虫实战:去哪儿网旅游攻略图文爬取保存为 Markdown电子书
接上回,《Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据》。我们爬取到了数千篇的旅游攻略文章的数据。但是事情还没有结束,对于大部分的人来讲,最希望得到的东西应该不是这种干巴巴的 Excel 数据,而是这种图文并茂的文章吧!其实之前我们爬过很多类似的网站,比如 《人民日报新闻爬虫》,《知乎问题回答爬虫》,都是爬取大段的文章。不过区别在于,那些爬虫的关注点在于文字,主要用来做分词,语义情感等方面的分析,不需要人工阅读,所以直接将图片,超链接,排版格式等东西舍弃,仅..原创 2020-06-21 00:10:16 · 2888 阅读 · 1 评论 -
Python 网络爬虫实战:爬取《去哪儿》网数千篇旅游攻略数据,再也不愁旅游去哪儿玩了
好久不见!今天我们来爬取 去哪儿网站的旅游攻略数据。0x00 找一个合理的作案动机作为一名立志成为技术宅的普通肥宅,每次一到周末就会面临一个人生难题:这周末怎么过?本来是没有这些问题的,该吃吃该睡睡,打打游戏敲敲代码,也挺自在。只是后来毕业,来到一个新的城市,赚的钱除了吃住还有富余,总觉得如果不趁着周末和假期出去好好逛逛这个城市,就等于白来一趟,那就太亏了。话虽如此,旅游岂是说走就走的。好几次我下定决心出门,结果在小区门口的十字路口,看着车来车往陷入沉思:我特么去哪儿玩...原创 2020-06-11 21:25:00 · 12497 阅读 · 25 评论 -
Python网络爬虫实战:爬取携程网酒店评价信息
这个爬虫是在一个小老弟的委托之下写的。他需要爬取携程网上的酒店的评价数据,来做一些分词和统计方面的分析,然后来找我帮忙。爬这个网站的时候也遇到了一些有意思的小麻烦,正好整理一下拿出来跟大家分享一下。这次爬取过程稍微曲折,各种碰壁,最终成功的过程,还是有点意思。所以本文我会按照自己当时爬取的思路来讲述,希望能给大家一些思路上的启发。分析部分略长,如果赶时间可以直接拉到最下面,...原创 2019-10-29 16:58:10 · 21862 阅读 · 23 评论 -
Python网络爬虫实战:利用 Python & ADB & 人脸识别实现自动给抖音漂亮小姐姐视频点赞
这只爬虫做了些什么事儿呢?通过 ADB 控制你的手机,帮你自动刷抖音 调用百度人脸识别的接口,给视频画面中出现的小姐姐打分 自动给颜值 70 以上的小姐姐的视频点赞有趣的是,根据抖音的推荐算法,连着刷几天之后,抖音里给你推荐的全是漂亮小姐姐了。0. 成果展示先演示一下效果。连接手机(手机要允许ADB调试),运行爬虫程序,程序会自动打开抖音APP,自动寻找漂亮的小姐姐...原创 2019-10-24 10:12:45 · 3478 阅读 · 4 评论 -
Python 网络爬虫实战:爬取《拉勾网》关于 VR 方向的 450 家招聘信息
早就说过要爬取一下招聘网站,一直以来没时间搞,用大数据来看一下 VR 方向的行情如何?都有哪些岗位?哪些岗位比较吃香?哪些岗位薪资比较高?又有哪些技术要求?等等等等,只有了解了这些,才能更准确地去把握自己的定位,找到自己未来发展的方向。本周,我爬取了《拉勾网》网站,以 VR 为关键词,搜索得到 450 条招聘信息匹配结果。爬取其关键信息并保存至本地,留作后续分析使用。本文只讲爬虫部分,后续的数...原创 2018-12-18 13:43:20 · 5887 阅读 · 3 评论 -
Python 网络爬虫实战:猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看?
11月16日,一部无流量明星、无大制作、无大IP的“三无”国产电影《无名之辈》上映后,竟然连续打败了超级英雄“毒液”、会魔法的“神奇动物”、勇闯互联网的“无敌破坏王”和“憨豆特工”,成为最大赢家。从11月21日起,《无名之辈》就在单日票房上超过了《毒液:致命守护者》《神奇动物:格林德沃之罪》《无敌破坏王2:大闹互联网》《憨豆特工3》这些进口大片,连续9天霸占了当日票房冠军。上映14天《无名...原创 2018-11-30 21:19:07 · 10374 阅读 · 8 评论 -
Python 网络爬虫实战:使用 Scrapy + MongoDB 爬取京东网站并部署到云服务器上
本周爬取的网站是京东(https://search.jd.com/),这次我又使用了一些 “新技术” : 使用 Scrapy 框架来写爬虫,并将爬取结果存入 MongoDB 数据库中。 将爬虫部署到阿里云服务器上,以便将来可以每天定时自动爬取。 写在前面的话1. 京东网站的搜索页是(https://search.jd.com/),它有个比较方便的点,是它不需要用户登陆即可搜...原创 2018-11-26 19:12:56 · 7482 阅读 · 10 评论 -
Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据
本周我们的目标是:B站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据。我们都知道,B站有很多号称“镇站之宝”的视频,拥有着数量极其恐怖的评论和弹幕。所以这次我们的目标就是,爬取B站视频的评论数据,分析其为何会深受大家喜爱。首先去调研一下,B站评论数量最多的视频是哪一个。。。好在已经有大佬已经统计过了,我们来看一哈!【B站大数据可视化】B站评论数...原创 2018-11-06 20:46:55 · 22859 阅读 · 50 评论