自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

西门大盗 捉虫专家

只提供有价值的经验分享

  • 博客(6)
  • 收藏
  • 关注

原创 Python的进程库multiprocessing中,pool组件的使用(apply,apply_async,map,map_async)

该模块的中文开发文档地址:https://docs.python.org/zh-cn/3.7/library/multiprocessing.html什么是multiprocessingmultiprocessing是一个用与threading模块相似API的支持产生进程的包。multiprocessing包同时提供本地和远程并发,使用子进程代替线程,有效避免Global In...

2018-06-30 00:27:21 3614 3

原创 哈希函数md5().hexdigest()

将文件保存时,通过哈希函数对每个文件进行文件名的自动生成。import osfrom hashlib import md5def save_image(content):file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')#保存到当前路径,文件名自动哈希生成 print(fil...

2018-06-16 11:22:02 31607 3

原创 python中,scrapy框架下,将数据item存入MySQL中(同步和异步adbapi)

方法一:采用同步的机制写入mysql,先爬取item按序写入。假设在这里插入‘text’和‘author’两项数据先通过Navicat创建数据库(article_spider)、数据表(article)以及数据的类型等(text longtext not null, author varchar 100 not null)然后在pipeline中设置如下:import ...

2018-06-14 19:36:28 1079 1

原创 scrapy中代理池的使用

首先自己要准备一份代理池进行更新维护。准备:开启redis-server,并且运行python run.py ,在redis中可以看到爬取到的代理。确保http://127.0.0.1:5555/random 上能取得正确的ip使用:在下载中间件middlewares中进行设置:import requestsPROXY_POOL_URL = 'http://127.0.0.1:5555/rand...

2018-06-09 15:22:13 2605

原创 关键字组合成url的方法

url中经常要自定义关键字、页码等信息,通过以下方式可以自动组合成url形式。from urllib.parse import urlencodebase_url = 'http://weixin.sogou.com/weixin?'def get_index(keyword, page): data = { 'query': keyword, 'type...

2018-06-08 12:23:35 1610

原创 使用fake-useragent库来实现随机更换User-Agent

该库的使用方法见文档:https://github.com/hellysmile/fake-useragent第一步:pip install fake-useragent第二步:在middlewares中配置下载中间件。class RandomUserAgentMiddleware(object): #随机更换user_agent def __init__(se...

2018-06-07 22:52:05 5935 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除