自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kosmoo的博客

记录自己学习python过程中的经验与心得

  • 博客(8)
  • 资源 (7)
  • 收藏
  • 关注

原创 selenium+python配置chrome浏览器的选项

selenium+python配置chrome浏览器的选项1. 背景在使用selenium浏览器渲染技术,爬取网站信息时,默认情况下就是一个普通的纯净的chrome浏览器,而我们平时在使用浏览器时,经常就添加一些插件,扩展,代理之类的应用。相对应的,当我们用chrome浏览器爬取网站时,可能需要对这个chrome做一些特殊的配置,以满足爬虫的行为。常用的行为有: 禁止图片和视频的

2017-12-29 17:54:49 89042 10

原创 使用BloomFilter优化scrapy-redis去重

使用BloomFilter优化scrapy-redis去重1. 背景做爬虫的都知道,scrapy是一个非常好用的爬虫框架,但是scrapy吃内存非常的厉害。其中有个很关键的点就在于去重。“去重”需要考虑三个问题:去重的速度和去重的数据量大小,以及持久化存储来保证爬虫能够续爬。 去重的速度:为了保证较高的去重速度,一般是将去重放到内存中来做的。例如python内置的set( ),redis的se

2017-12-27 15:21:58 10336 13

原创 windows下scrapy-redis如何为redis配置密码

windows下scrapy-redis如何为redis配置密码1. 环境系统:win7scrapy-redisredis 3.0.5python 3.6.12. 为redis-server配置密码并启动redis在windows下的安装与配置,请参考这篇文章:http://blog.csdn.net/zwq912318834/article/details/787702092.1.

2017-12-27 11:38:15 8068

原创 windows下scrapy-redis如何为不同的爬虫项目分配不同的db,而不仅仅使用db0

scrapy-redis如何为不同的爬虫项目分配不同的db,而不仅仅使用db01. 背景redis默认会生成16个db:db0 ~ db15, 在编写scrapy-redis分布式爬虫时,会默认使用db0来存放去重,种子队列以及item数据。但是一般情况下,我们不会只有一个爬虫项目,如果都放到一个数据库中,很容易搞混。所以为不同的爬虫项目分配不同的db是一件很有必要的事情。2. 环境系统:win7

2017-12-26 16:57:20 5856

原创 scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?

scrapy-redis所有request爬取完毕,如何解决爬虫空跑问题?1. 背景 根据scrapy-redis分布式爬虫的原理,多台爬虫主机共享一个爬取队列。当爬取队列中存在request时,爬虫就会取出request进行爬取,如果爬取队列中不存在request时,爬虫就会处于等待状态,行如下:E:\Miniconda\python.exe E:/PyCharmCode/redisClawer

2017-12-22 14:46:54 9617

原创 redis数据库在windows下的安装,配置与使用

redis数据库在windows下的安装,配置与使用1. 背景。因为分布式爬虫搭建的需要,会使用到Scrapy-redis实现分布式爬虫。 Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。2. 环境。系统:win73. redis安装与配置。3.1. 下载安装文件。资源路径: https://redis

2017-12-11 11:25:06 6754

原创 使用百度统计工具对php网站进行事件埋点追踪

使用百度统计工具对php网站进行事件埋点追踪1.背景在用户浏览我们的网页时,我们都希望知道用户从哪个途径找到并浏览我们的网站,然后在网站上都做了些什么。如果有了这些信息,我们就可以改善用户在网站上的体验,提高用户留存率和转化率。百度统计是百度推出的一款免费的专业网站流量分析工具,通过在网页上埋入一些百度统计工具提供的监测的代码,就能获取到这些数据,然后进行分析。生成的报告如下: 2. 环境系

2017-12-08 11:32:15 11472

原创 scrapy解析网页时,针对一些特别格式的数据的处理

scrapy解析网页时,针对一些特别格式的数据的处理1. 环境python 3.6.1系统:win7IDE:pycharmscrapy框架2. 页面源代码中含有json数据2.1. 案例参考页面: https://www.amazon.com/Best-Sellers-Sports-Outdoors-Hunting-Shooting-Safety-Glasses/zgbs/sporti

2017-12-07 11:44:57 7328

python面试题大全

主要是一些大公司,网上流传的python岗位面试题,主要体现在python的语言特性上,比较基础

2018-03-26

SVN安装与详细使用教程

SVN安装与详细使用教程,包含了 SVN服务器(VisualSVN server)搭建和使用,SVN客户端(Tortoise SVN)的安装配置,以及客户端的详细使用,以及注意事项

2018-02-09

Python网络编程基础

Python网络编程基础

2017-02-15

C经典100例的python实现

C经典100例的python实现

2017-02-15

Django中文手册

Django 中文手册

2017-02-15

Python经典面试题

Python经典面试题

2017-02-15

python340参考手册_英文

python340参考手册_英文

2017-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除