爬虫
文章平均质量分 69
xHibiki
【本博客已停止更新】
展开
-
Python爬虫 获取政府网站公示数据并保存到MongoDB数据库
前言在上一篇文章 https://blog.csdn.net/xHibiki/article/details/84134554 中,我们介绍了Mongo数据库以及管理工具Studio3T和adminMongo的下载安装,这次,我们结合Python爬虫和第三方模块Pymongo,爬取政府网站:深圳市规划和国土资源委员会(市海洋局),来学习MongoDB数据库和管理工具的的使用方法.文档型数据...原创 2018-11-16 16:12:19 · 12549 阅读 · 1 评论 -
Python爬虫 requests模块使用post方法提交表单
使用requests库中的post(url,params)方法,先通过观察表单的网页源代码,或者是通过逆向工程的方法获取表单提交的字段,构造参数params,就能实现模拟登录操作.例如:url = 'http://xxx.com/login'captcha = input()params = { 'email': 'xxx@163.com', 'password': '*...原创 2018-11-17 10:27:55 · 28624 阅读 · 1 评论 -
Python爬虫 爬取酷狗TOP500的数据
根据书籍《从零开始学Python网络爬虫》P41,综合案例2—爬取酷狗TOP500的数据修改而来.使用模块requests和模块BeautifukSoup进行爬取.不得不说,酷狗拿来跑爬虫真是好,不ban不限制IP~要爬取的页面信息酷狗TOP500需要爬取的信息很少:1.排名 2.标题(歌名-歌手) 3.时长每页22条信息,需要爬取500/22≈23页虽然没有手动翻页下一步浏览...原创 2018-11-13 15:58:05 · 4847 阅读 · 0 评论 -
Python爬虫 离线爬取当当网畅销书Top500的图书信息
爬虫说明1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法)2.爬虫分类为两种,一种是在线爬虫,即在网站中一边打开网页一边进行爬取;第二种是本实例使用的离线爬虫,即先将所爬取的网页保存到本地,再从本地网页中爬取信息3.离线爬虫的优点是:可以方便爬虫的调试修改,且一次保存,可以多次爬取,不必担心网络资源,网络速度以及是否被网站监测.4.离线爬虫的缺点...原创 2018-11-14 16:37:00 · 2891 阅读 · 1 评论 -
Python爬虫 在线爬取当当网畅销书Top500的图书信息
本实例还有另外的离线爬虫实现,有兴趣可点击离线爬虫爬取当当网2018年10月畅销Top500的图书信息爬虫说明1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法)2.爬虫分类为两种,一种是离线爬虫,即先将所爬取的网页保存到本地,再从本地网页中爬取信息;第二种是本实例使用的在线爬虫,即在网站中一边打开网页一边进行爬取.3.在线爬虫的优点是:步骤...原创 2018-11-14 17:51:31 · 7694 阅读 · 2 评论 -
Python爬虫 三种方式爬取PEXELS网站上的图片
PEXELS:Best free stock photos in one place.Pexels是一个提供免费高品质图片,并且可商用的图片网站.但是因为网站时外国的,所以连接和下载速度都略慢…这里只是为了讲解图片爬取和下载保存的流程.注意:网站的页面是动态加载的,需要模拟下滑操作,不然只会停留在基础页面上,只能获得较少图片(这里未实现相关操作)观察网站观察图片对应元素,得到图片的...原创 2018-11-15 16:06:11 · 4308 阅读 · 4 评论 -
Python爬虫 解决异步加载问题--以爬取PEXELS图片为例
第一次尝试爬取—>[Python爬虫]爬虫实例:三种方式爬取PEXELS图片在爬取PEXELS时,遇到了这样问题:页面使用Ajax的异步加载技术来实现分页,所以通过request.text无法获取动态加载的内容.而如果想正确获取这些数据,则需要使用名为逆向工程的过程(“抓包”).PS:如果对上面的文字感到疑惑,那么可以阅读下面的例子和说明,做基础的了解.例如:要在PEXELS上看猫片 ...原创 2018-11-15 23:43:58 · 4990 阅读 · 0 评论 -
Python爬虫 多进程爬取--以爬取PEXELS图片为例
第二次修改的地址---->爬虫实例:爬取PEXELS图片—解决异步加载问题在前面的修改中,我们通过使用逆向工程成功解决了异步加载的问题.但同时还有一个问题:效率问题,因为校园网网速实在不行,所以在使用这个单进程爬虫时,先加载完一张图片,再爬取下一张,这样串行下载的爬取效率实在低,需要改进为多进程爬虫.Python的多线程和多进程大家可能都听过一点就是:python的多线程在同一时刻只会...原创 2018-11-16 09:55:56 · 1609 阅读 · 1 评论 -
Python爬虫 使用Cookies模拟登录
一般我们使用Post提交表单,需要先进行表单的构造,再进行表单的提交,例如:url = 'http://bangumi.tv/FollowTheRabbit'params = { 'form_hash': '95b4e189', 'referer': 'http://bangumi.tv/', 'dreferer': 'http://bangumi.tv/', ...原创 2018-11-17 10:46:48 · 2445 阅读 · 0 评论