2018年06月_西门大盗

原创 Python的进程库multiprocessing中，pool组件的使用(apply,apply_async,map,map_async)

该模块的中文开发文档地址：https://docs.python.org/zh-cn/3.7/library/multiprocessing.html什么是multiprocessingmultiprocessing是一个用与threading模块相似API的支持产生进程的包。multiprocessing包同时提供本地和远程并发，使用子进程代替线程，有效避免Global In...

2018-06-30 00:27:21 3614 3

原创哈希函数md5().hexdigest()

将文件保存时，通过哈希函数对每个文件进行文件名的自动生成。import osfrom hashlib import md5def save_image(content):file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')#保存到当前路径，文件名自动哈希生成 print(fil...

2018-06-16 11:22:02 31607 3

原创 python中,scrapy框架下，将数据item存入MySQL中(同步和异步adbapi）

方法一：采用同步的机制写入mysql，先爬取item按序写入。假设在这里插入‘text’和‘author’两项数据先通过Navicat创建数据库(article_spider)、数据表(article)以及数据的类型等(text longtext not null, author varchar 100 not null）然后在pipeline中设置如下：import ...

2018-06-14 19:36:28 1079 1

首先自己要准备一份代理池进行更新维护。准备：开启redis-server，并且运行python run.py ，在redis中可以看到爬取到的代理。确保http://127.0.0.1:5555/random 上能取得正确的ip使用：在下载中间件middlewares中进行设置：import requestsPROXY_POOL_URL = 'http://127.0.0.1:5555/rand...

2018-06-09 15:22:13 2605

原创关键字组合成url的方法

url中经常要自定义关键字、页码等信息，通过以下方式可以自动组合成url形式。from urllib.parse import urlencodebase_url = 'http://weixin.sogou.com/weixin?'def get_index(keyword, page): data = { 'query': keyword, 'type...

2018-06-08 12:23:35 1610

原创使用fake-useragent库来实现随机更换User-Agent

该库的使用方法见文档：https://github.com/hellysmile/fake-useragent第一步：pip install fake-useragent第二步：在middlewares中配置下载中间件。class RandomUserAgentMiddleware(object): #随机更换user_agent def __init__(se...

2018-06-07 22:52:05 5935 1

西门大盗捉虫专家

原创 Python的进程库multiprocessing中，pool组件的使用(apply,apply_async,map,map_async)

原创哈希函数md5().hexdigest()

原创 python中,scrapy框架下，将数据item存入MySQL中(同步和异步adbapi）

原创 scrapy中代理池的使用

原创关键字组合成url的方法

原创使用fake-useragent库来实现随机更换User-Agent

空空如也

空空如也

原创 Python的进程库multiprocessing中，pool组件的使用(apply,apply_async,map,map_async)

原创 哈希函数md5().hexdigest()

原创 python中,scrapy框架下，将数据item存入MySQL中(同步和异步adbapi）

原创 scrapy中代理池的使用

原创 关键字组合成url的方法

原创 使用fake-useragent库来实现随机更换User-Agent

空空如也

空空如也

原创哈希函数md5().hexdigest()

原创关键字组合成url的方法

原创使用fake-useragent库来实现随机更换User-Agent