- 博客(4)
- 资源 (7)
- 收藏
- 关注
原创 scrapy爬虫的搭建过程(实战篇)
scrapy爬虫的搭建过程(实战篇) 1. 爬虫功能 以 http://bbs.fengniao.com/forum/forum_125_1_lastpost.html 为起始页,爬取前十页的信息,包括文章的标题、链接地址和图片地址,保存到mongodb中。并下载对应的图片到本地目录。 2. 环境 系统:win7 Scrapy 1.4.0 mongodb v3.2 pyt...
2018-02-08 14:40:25 5639 1
原创 scrapy爬虫的搭建过程(理论篇)
scrapy爬虫的搭建过程(理论篇) 1. 概述 Scrapy是一个纯Python实现的,为了爬取网站数据、提取结构化数据而编写的应用框架,用途非常广泛。只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页的内容以及各种图片,非常方便。 Scrapy 使用了 Twisted (其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...
2018-02-08 09:05:52 4221
原创 python + selenium + chrome 在实现back,forward,refresh时的注意事项
python + selenium + chrome 在实现back,forward,refresh时的注意事项 1. 背景 在使用selenium模拟浏览器时,经常会使用到导航栏的三个按钮:后退,前进,刷新。来达到在浏览过的页面之间进行切换。对应到selenium中的方法分别是:back(),forward(), refresh() 。但是如果直接使用之前定位到的元素,会出现一个问题,那
2018-02-06 11:15:27 5239
原创 python + selenium + chrome 如何操作滚动条
python + selenium + chrome 如何操作滚动条 1. 背景 在使用selenium模拟浏览器时,经常会需要下拉滚动条,一般是有两个目的: 拟人操作,突破精妙的反爬系统。 有些元素正常情况下不加载出来,需要拖动下拉条,才能慢慢加载出来,类似于淘宝这样的网站。 2. 环境 python 3.6.1 系统:win7 IDE:pycharm 安装过chrome浏览
2018-02-05 17:46:50 27664
SVN安装与详细使用教程
2018-02-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人