2018年02月_Kosmoo

07月 06月 05月 04月 03月 02月 01月

原创 scrapy爬虫的搭建过程（实战篇）

scrapy爬虫的搭建过程（实战篇） 1. 爬虫功能以 http://bbs.fengniao.com/forum/forum_125_1_lastpost.html 为起始页，爬取前十页的信息，包括文章的标题、链接地址和图片地址，保存到mongodb中。并下载对应的图片到本地目录。 2. 环境系统：win7 Scrapy 1.4.0 mongodb v3.2 pyt...

2018-02-08 14:40:25 5639 1

原创 scrapy爬虫的搭建过程（理论篇）

scrapy爬虫的搭建过程（理论篇） 1. 概述 Scrapy是一个纯Python实现的，为了爬取网站数据、提取结构化数据而编写的应用框架，用途非常广泛。只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页的内容以及各种图片，非常方便。 Scrapy 使用了 Twisted （其主要对手是Tornado）异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，...

2018-02-08 09:05:52 4221

原创 python + selenium + chrome 在实现back，forward，refresh时的注意事项

python + selenium + chrome 在实现back，forward，refresh时的注意事项 1. 背景在使用selenium模拟浏览器时，经常会使用到导航栏的三个按钮：后退，前进，刷新。来达到在浏览过的页面之间进行切换。对应到selenium中的方法分别是：back()，forward()， refresh() 。但是如果直接使用之前定位到的元素，会出现一个问题，那

2018-02-06 11:15:27 5239

原创 python + selenium + chrome 如何操作滚动条

python + selenium + chrome 如何操作滚动条 1. 背景在使用selenium模拟浏览器时，经常会需要下拉滚动条，一般是有两个目的：拟人操作，突破精妙的反爬系统。有些元素正常情况下不加载出来，需要拖动下拉条，才能慢慢加载出来，类似于淘宝这样的网站。 2. 环境 python 3.6.1 系统：win7 IDE：pycharm 安装过chrome浏览

2018-02-05 17:46:50 27664