- 博客(8)
- 资源 (7)
- 收藏
- 关注
原创 selenium+python配置chrome浏览器的选项
selenium+python配置chrome浏览器的选项1. 背景在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用。相对应的,当我们用chrome浏览器爬取网站时,可能需要对这个chrome做一些特殊的配置,以满足爬虫的行为。常用的行为有: 禁止图片和视频的
2017-12-29 17:54:49 89042 10
原创 使用BloomFilter优化scrapy-redis去重
使用BloomFilter优化scrapy-redis去重1. 背景做爬虫的都知道,scrapy是一个非常好用的爬虫框架,但是scrapy吃内存非常的厉害。其中有个很关键的点就在于去重。“去重”需要考虑三个问题:去重的速度和去重的数据量大小,以及持久化存储来保证爬虫能够续爬。 去重的速度:为了保证较高的去重速度,一般是将去重放到内存中来做的。例如python内置的set( ),redis的se
2017-12-27 15:21:58 10336 13
原创 windows下scrapy-redis如何为redis配置密码
windows下scrapy-redis如何为redis配置密码1. 环境系统:win7scrapy-redisredis 3.0.5python 3.6.12. 为redis-server配置密码并启动redis在windows下的安装与配置,请参考这篇文章:http://blog.csdn.net/zwq912318834/article/details/787702092.1.
2017-12-27 11:38:15 8068
原创 windows下scrapy-redis如何为不同的爬虫项目分配不同的db,而不仅仅使用db0
scrapy-redis如何为不同的爬虫项目分配不同的db,而不仅仅使用db01. 背景redis默认会生成16个db:db0 ~ db15, 在编写scrapy-redis分布式爬虫时,会默认使用db0来存放去重,种子队列以及item数据。但是一般情况下,我们不会只有一个爬虫项目,如果都放到一个数据库中,很容易搞混。所以为不同的爬虫项目分配不同的db是一件很有必要的事情。2. 环境系统:win7
2017-12-26 16:57:20 5856
原创 scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?
scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?1. 背景 根据scrapy-redis分布式爬虫的原理,多台爬虫主机共享一个爬取队列。当爬取队列中存在request时,爬虫就会取出request进行爬取,如果爬取队列中不存在request时,爬虫就会处于等待状态,行如下:E:\Miniconda\python.exe E:/PyCharmCode/redisClawer
2017-12-22 14:46:54 9617
原创 redis数据库在windows下的安装,配置与使用
redis数据库在windows下的安装,配置与使用1. 背景。因为分布式爬虫搭建的需要,会使用到Scrapy-redis实现分布式爬虫。 Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。2. 环境。系统:win73. redis安装与配置。3.1. 下载安装文件。资源路径: https://redis
2017-12-11 11:25:06 6754
原创 使用百度统计工具对php网站进行事件埋点追踪
使用百度统计工具对php网站进行事件埋点追踪1.背景在用户浏览我们的网页时,我们都希望知道用户从哪个途径找到并浏览我们的网站,然后在网站上都做了些什么。如果有了这些信息,我们就可以改善用户在网站上的体验,提高用户留存率和转化率。百度统计是百度推出的一款免费的专业网站流量分析工具,通过在网页上埋入一些百度统计工具提供的监测的代码,就能获取到这些数据,然后进行分析。生成的报告如下: 2. 环境系
2017-12-08 11:32:15 11472
原创 scrapy解析网页时,针对一些特别格式的数据的处理
scrapy解析网页时,针对一些特别格式的数据的处理1. 环境python 3.6.1系统:win7IDE:pycharmscrapy框架2. 页面源代码中含有json数据2.1. 案例参考页面: https://www.amazon.com/Best-Sellers-Sports-Outdoors-Hunting-Shooting-Safety-Glasses/zgbs/sporti
2017-12-07 11:44:57 7328
SVN安装与详细使用教程
2018-02-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人