- 博客(6)
- 收藏
- 关注
原创 Python的进程库multiprocessing中,pool组件的使用(apply,apply_async,map,map_async)
该模块的中文开发文档地址:https://docs.python.org/zh-cn/3.7/library/multiprocessing.html什么是multiprocessingmultiprocessing是一个用与threading模块相似API的支持产生进程的包。multiprocessing包同时提供本地和远程并发,使用子进程代替线程,有效避免Global In...
2018-06-30 00:27:21 3614 3
原创 哈希函数md5().hexdigest()
将文件保存时,通过哈希函数对每个文件进行文件名的自动生成。import osfrom hashlib import md5def save_image(content):file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')#保存到当前路径,文件名自动哈希生成 print(fil...
2018-06-16 11:22:02 31607 3
原创 python中,scrapy框架下,将数据item存入MySQL中(同步和异步adbapi)
方法一:采用同步的机制写入mysql,先爬取item按序写入。假设在这里插入‘text’和‘author’两项数据先通过Navicat创建数据库(article_spider)、数据表(article)以及数据的类型等(text longtext not null, author varchar 100 not null)然后在pipeline中设置如下:import ...
2018-06-14 19:36:28 1079 1
原创 scrapy中代理池的使用
首先自己要准备一份代理池进行更新维护。准备:开启redis-server,并且运行python run.py ,在redis中可以看到爬取到的代理。确保http://127.0.0.1:5555/random 上能取得正确的ip使用:在下载中间件middlewares中进行设置:import requestsPROXY_POOL_URL = 'http://127.0.0.1:5555/rand...
2018-06-09 15:22:13 2605
原创 关键字组合成url的方法
url中经常要自定义关键字、页码等信息,通过以下方式可以自动组合成url形式。from urllib.parse import urlencodebase_url = 'http://weixin.sogou.com/weixin?'def get_index(keyword, page): data = { 'query': keyword, 'type...
2018-06-08 12:23:35 1610
原创 使用fake-useragent库来实现随机更换User-Agent
该库的使用方法见文档:https://github.com/hellysmile/fake-useragent第一步:pip install fake-useragent第二步:在middlewares中配置下载中间件。class RandomUserAgentMiddleware(object): #随机更换user_agent def __init__(se...
2018-06-07 22:52:05 5935 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人