Python 网络爬虫实战_机灵鹤的博客-CSDN博客

Python 网络爬虫实战

关注

文章平均质量分 93

本专栏主要教大家使用 python 语言编写网络爬虫，获取自己想要的数据。博主会将爬取网站的分析过程，思路，技术难点和应对方法，以及爬虫程序的源代码详细的分享出来，供大家参考交流学习，适合新手入门使用，感谢大家支持。

关注数：文章数：15 文章阅读量：140182 文章收藏量：4400

作者: 机灵鹤

这个作者很懒，什么都没留下…

展开

Python 网络爬虫实战：爬取知乎回答中的全部图片

平时逛知乎的时候，经常能看到很多很棒的图片，精美的壁纸，搞笑的表情包，有趣的截图等等，总有想全部保存下来的冲动。于是在一个小老弟的拜托之下，我把之前的知乎爬虫改造了一下，改装成了一个可以下载知乎回答中全部图片的新爬虫。1. 分析网站知乎的网站我们已经爬取过很多次了《Python 网络爬虫实战：爬取知乎一个话题下的全部问题》《Python网络爬虫实战：爬取知乎话题下 18934 条回答数据》《Python网络爬虫实战：近千条中秋节祝福语文案让你成为亲朋好友里最靓的仔》所以，网站分析的抓包过程我们

原创 2021-11-22 21:16:35 · 3128 阅读 · 0 评论
Python 网络爬虫实战：爬取百度贴吧高清原图

前段时间受哥儿们所托，爬取贴吧某帖子里的高清图片。事情是这样的，我哥们发现被贴吧中有好多漂亮的图片，想下载原图做壁纸，但是帖子里图片太多了，他全都要，于是想让我帮忙写个爬虫，批量下载下来。要求只有两个：下载原图实现批量下载话不多说，直接开始。1. 分析网站哥们提供的帖子地址： https://tieba.baidu.com/p/6516084831 。先分析 url 组成，我们可以猜到 6516084831 是帖子的 id 。在勾选只看楼主，翻页等这些操作之后，链接变成了这样 ht

原创 2021-11-15 19:55:23 · 2353 阅读 · 0 评论
Python网络爬虫实战：近千条中秋节祝福语文案让你成为亲朋好友里最靓的仔

中秋节马上到了，不知道大家有没有像我这样的烦恼，每次过节，都要绞尽脑汁想好久，发什么样的祝福语才显得有诚意又有创意，什么样的朋友圈文案会有文化又有逼格。去网上搜吧，搜出来的祝福语，画风大多是像这样的佛说：我可以让你许个愿我对佛说：我愿xxx永远健康，年轻快乐佛说：只能四天我说行，春天，夏天，秋天，冬天。佛说，不行，只能三天。我说，好，昨天，今天，明天。佛说，不行，只能两天我说，好，黑天和白天佛说，不行，只能一天。我说，好。佛茫然地问到，哪一天？我说，每一天。又或者是这样的，多

原创 2021-09-18 13:46:25 · 1296 阅读 · 2 评论
Python爬虫实战：爬取解放日报新闻文章

上一篇《Python 网络爬虫实战：爬取人民日报新闻文章》发布之后，确实帮到了不少朋友。前几天，我好哥们问我：我想爬另一个日报新闻网站，网页结构几乎跟人民日报几乎一模一样，但是我用你的那个代码去爬却爬不下来数据呢？顺着哥儿们发来的网址（网站传送地址：解放日报），我点进去看了一下，界面大概长这样。跟人民日报的主页界面非常相似，都是版面列表 -- 文章列表 -- 文章详情的这种结构。本来我觉得肯定是我这哥儿们代码基础不过关，报的语法错误，先 “嘲讽” 他一波，然后帮他改好就得了。.

原创 2021-04-24 22:10:32 · 8035 阅读 · 25 评论
Python爬虫基础：使用 Python 爬虫时经常遇到的问题合集

从开始玩爬虫到现在差不多半年多了，写了不少爬虫，爬了不少网站，在博客里也分享了不少爬虫的教程。我的教程文章中，一般会附带完整的爬虫代码，大家只要搭建好环境，便可以直接运行使用。不少读者朋友在使用爬虫遇到问题时也会跟我讨论，交流过程中我发现了一些比较共性的问题。因此文章重点放在了思路分析上，具体如何编写代码爬取数据则简单略过。造成了一些读者，基于我的代码进行修改爬取其他相似网站时束手无策。...

原创 2019-07-08 15:28:39 · 16798 阅读 · 21 评论
Python爬虫实战 | 人民网爬虫根据关键词筛选新闻文章

上一篇《人民日报》的爬虫文章发布之后，收到了很不错的反馈，文中的爬虫代码也确实帮助到了很多人，我很开心。跟读者们交流过程中，我也发现了一些比较共性的需求，就是根据关键词筛选新闻文章。最初我的想法是，在爬取到全部文章数据的基础上，遍历文件夹，然后将正文中包含关键词的文章筛选出来。如果你已经下载到了完整的新闻数据，那用这种方法无疑是最方便快捷的。但是如果没有的话，需要先爬取全部数据，再从中筛选符合条件的数据，无疑是有点浪费时间。本篇文章，我将介绍两种方法，一种，是从现有数据中根据关键词筛选，另一种，

原创 2021-02-06 21:12:10 · 18163 阅读 · 47 评论
【Python 骚操作】使用 Gitbook + Typora 打造一个属于自己的电子书网站

前段时间，我在互联网冲浪时候，发现了一个写作的工具组合 Gitbook + Typora，堪称神器。安利到 Blink 和朋友圈之后，有一朋友表示很感兴趣，希望我简单出一个教程，介绍一下这套工具怎么使用。好吧，安排！0x00 效果展示Gitbook + Typora ，我称之为 “神器”，不仅是因为他可以用来写文章，更在于它可以将你写的 Markdown 文章直接转换成 pdf，转成各种常用格式，甚至可以转换成网页直接发布到网上。正好我的个人网站备案审核通过了，就利用 Gitbook.

原创 2020-06-26 16:56:13 · 3091 阅读 · 0 评论
Python 网络爬虫实战：去哪儿网旅游攻略图文爬取保存为 Markdown电子书

接上回，《Python 网络爬虫实战：爬取《去哪儿》网数千篇旅游攻略数据》。我们爬取到了数千篇的旅游攻略文章的数据。但是事情还没有结束，对于大部分的人来讲，最希望得到的东西应该不是这种干巴巴的 Excel 数据，而是这种图文并茂的文章吧！其实之前我们爬过很多类似的网站，比如《人民日报新闻爬虫》，《知乎问题回答爬虫》，都是爬取大段的文章。不过区别在于，那些爬虫的关注点在于文字，主要用来做分词，语义情感等方面的分析，不需要人工阅读，所以直接将图片，超链接，排版格式等东西舍弃，仅..

原创 2020-06-21 00:10:16 · 2888 阅读 · 1 评论
Python 网络爬虫实战：爬取《去哪儿》网数千篇旅游攻略数据，再也不愁旅游去哪儿玩了

好久不见！今天我们来爬取去哪儿网站的旅游攻略数据。0x00 找一个合理的作案动机作为一名立志成为技术宅的普通肥宅，每次一到周末就会面临一个人生难题：这周末怎么过？本来是没有这些问题的，该吃吃该睡睡，打打游戏敲敲代码，也挺自在。只是后来毕业，来到一个新的城市，赚的钱除了吃住还有富余，总觉得如果不趁着周末和假期出去好好逛逛这个城市，就等于白来一趟，那就太亏了。话虽如此，旅游岂是说走就走的。好几次我下定决心出门，结果在小区门口的十字路口，看着车来车往陷入沉思：我特么去哪儿玩...

原创 2020-06-11 21:25:00 · 12497 阅读 · 25 评论
Python网络爬虫实战：爬取携程网酒店评价信息

这个爬虫是在一个小老弟的委托之下写的。他需要爬取携程网上的酒店的评价数据，来做一些分词和统计方面的分析，然后来找我帮忙。爬这个网站的时候也遇到了一些有意思的小麻烦，正好整理一下拿出来跟大家分享一下。这次爬取过程稍微曲折，各种碰壁，最终成功的过程，还是有点意思。所以本文我会按照自己当时爬取的思路来讲述，希望能给大家一些思路上的启发。分析部分略长，如果赶时间可以直接拉到最下面，...

原创 2019-10-29 16:58:10 · 21862 阅读 · 23 评论
Python网络爬虫实战：利用 Python & ADB & 人脸识别实现自动给抖音漂亮小姐姐视频点赞

这只爬虫做了些什么事儿呢？通过 ADB 控制你的手机，帮你自动刷抖音调用百度人脸识别的接口，给视频画面中出现的小姐姐打分自动给颜值 70 以上的小姐姐的视频点赞有趣的是，根据抖音的推荐算法，连着刷几天之后，抖音里给你推荐的全是漂亮小姐姐了。0. 成果展示先演示一下效果。连接手机（手机要允许ADB调试），运行爬虫程序，程序会自动打开抖音APP，自动寻找漂亮的小姐姐...

原创 2019-10-24 10:12:45 · 3478 阅读 · 4 评论
Python 网络爬虫实战：爬取《拉勾网》关于 VR 方向的 450 家招聘信息

早就说过要爬取一下招聘网站，一直以来没时间搞，用大数据来看一下 VR 方向的行情如何？都有哪些岗位？哪些岗位比较吃香？哪些岗位薪资比较高？又有哪些技术要求？等等等等，只有了解了这些，才能更准确地去把握自己的定位，找到自己未来发展的方向。本周，我爬取了《拉勾网》网站，以 VR 为关键词，搜索得到 450 条招聘信息匹配结果。爬取其关键信息并保存至本地，留作后续分析使用。本文只讲爬虫部分，后续的数...

原创 2018-12-18 13:43:20 · 5887 阅读 · 3 评论
Python 网络爬虫实战：猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看？

11月16日，一部无流量明星、无大制作、无大IP的“三无”国产电影《无名之辈》上映后，竟然连续打败了超级英雄“毒液”、会魔法的“神奇动物”、勇闯互联网的“无敌破坏王”和“憨豆特工”，成为最大赢家。从11月21日起，《无名之辈》就在单日票房上超过了《毒液：致命守护者》《神奇动物：格林德沃之罪》《无敌破坏王2：大闹互联网》《憨豆特工3》这些进口大片，连续9天霸占了当日票房冠军。上映14天《无名...

原创 2018-11-30 21:19:07 · 10374 阅读 · 8 评论
Python 网络爬虫实战：使用 Scrapy + MongoDB 爬取京东网站并部署到云服务器上

本周爬取的网站是京东（https://search.jd.com/），这次我又使用了一些 “新技术” ：使用 Scrapy 框架来写爬虫，并将爬取结果存入 MongoDB 数据库中。将爬虫部署到阿里云服务器上，以便将来可以每天定时自动爬取。写在前面的话1. 京东网站的搜索页是（https://search.jd.com/），它有个比较方便的点，是它不需要用户登陆即可搜...

原创 2018-11-26 19:12:56 · 7482 阅读 · 10 评论
Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据

本周我们的目标是：B站（哔哩哔哩弹幕网 https://www.bilibili.com ）视频评论数据。我们都知道，B站有很多号称“镇站之宝”的视频，拥有着数量极其恐怖的评论和弹幕。所以这次我们的目标就是，爬取B站视频的评论数据，分析其为何会深受大家喜爱。首先去调研一下，B站评论数量最多的视频是哪一个。。。好在已经有大佬已经统计过了，我们来看一哈！【B站大数据可视化】B站评论数...

原创 2018-11-06 20:46:55 · 22859 阅读 · 50 评论

Python 网络爬虫实战

作者: 机灵鹤

Python 网络爬虫实战：爬取知乎回答中的全部图片

Python 网络爬虫实战：爬取百度贴吧高清原图

Python网络爬虫实战：近千条中秋节祝福语文案让你成为亲朋好友里最靓的仔

Python爬虫实战：爬取解放日报新闻文章

Python爬虫基础：使用 Python 爬虫时经常遇到的问题合集

Python爬虫实战 | 人民网爬虫 根据关键词筛选新闻文章

【Python 骚操作】使用 Gitbook + Typora 打造一个属于自己的电子书网站

Python 网络爬虫实战：去哪儿网旅游攻略图文爬取保存为 Markdown电子书

Python 网络爬虫实战：爬取《去哪儿》网数千篇旅游攻略数据，再也不愁旅游去哪儿玩了

Python网络爬虫实战：爬取携程网酒店评价信息

Python网络爬虫实战：利用 Python & ADB & 人脸识别实现自动给抖音漂亮小姐姐视频点赞

Python 网络爬虫实战：爬取《拉勾网》关于 VR 方向的 450 家招聘信息

Python 网络爬虫实战：猫眼电影 38950 条评论数据告诉你《无名之辈》是否值得一看？

Python 网络爬虫实战：使用 Scrapy + MongoDB 爬取京东网站并部署到云服务器上

Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据

Python爬虫实战 | 人民网爬虫根据关键词筛选新闻文章